SEOに必須「Googleはいかにしてスパムサイトを弾いているか」――グーグル特許出願文書のわかりやすいまとめ

 SEO、すなわちgoogleなどの検索サイトで、自分のサイトをいかに上位に表示させるか、というテクニックである。中にはそれを勘違いして、あちこちにトラックバックスパムを送りまくる奴がいたり、内容のないサイトを大量に自動生成して一時的にアクセスを奪おうとする輩もいたりする。

 しかし、googleも黙ってはいない。そんなspamを弾くための手段を導入している。その目安が、グーグルの特許出願文書に書かれている……ということで、このブログでも以前、その特許文書の全訳を掲載した。

 しかし、これはあくまでも特許出願文書なので、用語も堅いし、わかりにくい。実際、これを参照し、話題にした人は多かったが、読み込んで内容をきちんと理解した人はほとんどいないようである。こういうのは一部だけ取り出して理解しても、まあ多少は利益になるかもしれないが、やはり全体を把握した上で活用すべきだろう。

 そこで、今回は特許出願文書の内容をわかりやすくまとめ直してみることにした。googleではどのようなデータを使って、どのようにスパム判定しているのか。今までのSEO情報には載っていない項目が満載なので、古いSEO技術しか知らない人にはショックかもしれない。

 そして、結論を短くまとめると「スパムはいくらやっても無駄。新鮮なよいページを更新し続けるのが最高のSEO」ということになる。

 なお、このまとめは松永が自分の訳をもとに独自にまとめたものなので、利用の際は自己責任でお願いします。

2005年12月 9日14:20| 記事内容分類:サイト構築・SEO| by 松永英明
この記事のリンク用URL| ≪ 前の記事 ≫ 次の記事
| コメント(2) | トラックバック(10)
twitterでこの記事をつぶやく (旧:

発明の背景

[0002]~[0009]

 検索エンジンの目的は、ユーザーが探したいと思って入力した検索語をもとに、高品質の適切な結果へのリンクを見つけることです。検索エンジンは、蓄積したウェブ文書データの中から探すのですが、そのための方法は二つ。

  • 文書内に含まれる単語と、検索語を比較して適切な文書を見つける
  • それ以外に、別の要素を使って適切な文書を見つける。リンク情報に基づいて重み付け。

 ランクを上げようとするスパムテクニックを使う連中がいますが、そういうサイトのランクを下げないと、検索結果の質が下がってしまいます。

発明の要約

[0010]~[0012]

 ウェブページのランクを決定するために、履歴データなどの周辺データを使います。

検索エンジンの模式

[0030]~[0033]

google-patent03.gif

 検索エンジンの構成はこの図のようになっています。

  • 文書集成資料:googleがウェブから集めてきたページデータの全体。
  • 文書ロケーター:文書(ページのデータ)の索引。
  • 履歴コンポーネント:各ページに関する様々な補助情報。文書取得日時、文書内容の更新/変化、クエリ分析、リンクに基づく判断基準、アンカーテキスト、トラフィック、ユーザー行動、ドメイン関係情報、ランキングの履歴、ユーザーが維持/生成したデータ、アンカーテキスト内の独特の単語・合字・句、独立した等価物への結びつき、文書の話題など。
  • ランキング・コンポーネント:それぞれのページデータにランキング・スコアを割り当てたデータ。検索されたときにスコアを決めることもあるし、前もって決めてある場合もある。検索結果はこのランキング・スコアに基づいて並び替えられる。つまり、文書の品質はここに反映される。そして、履歴コンポーネントのデータはランキング・スコアに影響を与える。

 つまり、ページ内の情報だけじゃなくて、ページに関連する補助情報にも基づいてランキングを決定しますよ、ということです。

 では、具体的にgoogleが参考にする補助情報とは何か。それが以下に解説されます。

履歴データの模式

文書取得日時

[0034]~[0044]

 文書取得日時のデータには、いくつかのものがあります。

  • googleが最初にページを見つけた/索引をつけた/そのページへのリンクを発見した日時。つまりgoogleのデータベースに初めて載った日時。
  • ページが載っているドメインによる日時指定。
  • ニュース記事、ニューズグループ、メーリングリストなどから初めてリンクされた最初の日時。
  • 一定数以上のページに書かれている日時。
  • ファイルのタイムスタンプ(つまりアップロードされた日時)。

 新しいページは他のページからのリンクが少なくても当たり前なので、単純に被リンク数だけで比較するとランクが下がることになりますが、取得日時を考慮してランクを上下させることができます。つまり、昨日取得されたばかりのページと、10年まえからあるページがどちらも100のページからリンクされている場合、新しい方が高い成長率を示しているので、ランクを高くするというものです。

 しかし、短期間で被リンク数が高すぎるものはスパムの可能性もありますので、ランクが下げられてしまう場合もあります。

 また、検索内容によっては、古いページの方がいいページだという場合もあります。そこで、検索結果にひっかかったページの「平均年齢」を求め、その数値に基づいてランキングを決定することもできます。

内容の更新/変更

[0045]~[0056]

 ページの内容がどの程度頻繁に更新されているか、ということも判断材料となります。つまり、放置されたページ、変化のないページは、頻繁に更新されているページよりもランクが下がる場合もあります。

 更新頻度以外に、更新された分量についても考慮されます。

  • ページ内から他のページへのリンクのなかでどれくらいのリンクが追加されたか
  • 一定期間に目に見える内容のうち何パーセントが更新されたか
  • 一定期間に変化した分量

 Javascript、コメント、広告、ナビゲーション要素、定型文要素、日時/時刻タグなどはあまり検討されなかったり、無視されたりします。逆に、タイトル、外部リンクに結びつけられたアンカーテキストなどの変更は重視されます。

 更新頻度・分量が加速している文書は高く採点されることもあります。更新の変化の割合が変わらない、あるいは少ない文書はスコアが下がります。

 googleは文書の一部のみ(要約や一部のキーワード)からこの変更をチェックすることもあります。

 検索内容によっては、変更のないページの方が求められている場合もあります。この場合は、検索結果の変更日時の平均との差に基づいてランキングを決めることもあります。

クエリ分析

[0057]~[0065]

 ユーザーの検索内容(クエリ)もランキングスコアに反映されます。

 ある検索内容に関して、ユーザーによってクリックされる頻度が高いとか、クリック数が伸びつつあるページを、他のものよりも高くランキングすることもあります。

 また、時事的な話題の場合は、その関連用語の検索が急増します。こういうホットな検索内容と関連しているページは、そうでないページよりも高くランキングされることもあります。また、ホットな検索内容の類似キーワードを含む場合も同様です。

 たとえば「日本シリーズ 優勝」など、毎年内容が変わるキーワードは、その検索結果のキーワードがチェックされます。

 ここでは、内容が古くなってしまったページを判定し、ランキングを下げることがあります。たとえば「よくある質問(FAQ)」は最新のものが最も重要になりますから、たとえランクが低くても、最新のものだから上位に示すということがありえます。これは、検索結果の中で、ユーザーがどの文書を選ぶかということから分析される場合もあります。

 逆に、古い文書の方が新しい文書よりも上位に置かれることもあります。これもユーザーの選択によって判断されます。

 そして、スパムを判定する要素があります。それは、いろいろな検索結果にあらわれすぎてしまうページです。たとえば、ランダムに選ばれた人気キーワードを盛り込んで自動的に生成されたページの場合、適当な人気キーワードを組み合わせて検索してもどれでも引っかかるわけですが、そういうページはスパムの可能性が高いと判断できるわけです。

リンクに基づいた基準

[0066]~[0080]

 他のサイトへのリンクが作られたり、消えたりした日時をgoogleは判定材料の一つとしています。この日時は次のようにして決まります。

  • googleがリンクを発見した最初の日時、または最終更新日時。
  • リンクを含む文書がリンクを消した日時、または文書自体が消えた最初の日時。

 リンクが出現したり、消えたりした事実、これまでに増減した割合、一定期間に増減した数、リンクが増えるのと減るのとがどのような比率になっているか、などをgoogleはモニターします。

 その結果、リンクの増え方がゆるやかになっているなら、文書は古くさくなりつつあります。逆に、リンクの増え方が上昇しているなら、新鮮な文書とみなされます。

 外部からのバックリンクの増減数・率を分析することで、ページの新鮮さを判定することもできます。最近リンクされなくなったページは、その文書が古くなったからだと判断されることもあります。

 同じ日に登場した二つのページがあって、被リンク数も同じ100件だとします。しかし、ページAは過去10日間に10件からリンクされました。ページBはすべてそれ以前にリンクされました。この場合、ページAの方が新鮮だということになります。この判定のための期間を調整すれば、放置されたサイトや、人気の落ちたサイトを見つけることもできます。

 あるページが更新されるとき、別のあるページへのリンクが残されるか否かということも判定基準となります。つまり、ページを更新するとき、今までリンクしていたページの内容が古くなっていたり、適切でなくなっていたら、リンクが外されてしまいます。しかし、ずっと有用であれば、変更後も残るはずです。これがリンクの価値の判断材料として使われることもあります。

 ページの信頼性が高ければ、そこからのリンクも重視されます。たとえば、政府文書、公式文書などからのリンクは重視されます。

 外部からのリンク(あるいはそのリンクを含むページ)が新鮮なものであれば、リンクされたページ自体が古いものであっても、新鮮なものと判定することができます。また、外部からのリンクが作られた日時をもとに年齢分布を調べ、その分布のパターンをもとに新鮮か古くさいかを決めることもできます。

 リンクが出現した日時は、スパム検出用にも使えます。スパムでない文書へのリンクはゆっくりと集まるものです。しかし、被リンクが突出して増える場合は、それが話題のトピックスである場合もありますが、リンク交換・リンク購入などによるスパムの可能性もあります。掲示板、リファラのログ、だれでも自由に編集できるページなど、管理人以外の人が自由に追加できるページからのリンクが急増していても、スパムの徴候と考えられます。

 多くのリンクが消えることは、そのリンク先ページが新鮮でなくなったことを意味するかもしれません。更新されていないとか、他の新しいページができたとか。リンクの消えた日時、一定期間に消えたリンク数、リンク数の減少などを調べれば、新鮮でない文書を指定することができます。それはランキングが下がります。

 リンクが新鮮であっても、リンク先が日々異なるようなページ(たとえば「今日のおすすめサイト」など)に含まれている場合は、逆にランクを下げることもあります。

アンカーテキスト

[0081]~[0086]

 アンカーテキストは、リンクするときの文字列(aタグで挟まれている部分の文字列)。これまでのSEOでも重要視されていましたが、その変化の仕方もチェックされます。

 他のページからのアンカーテキストが以前のものと変わった場合、リンク先の内容も変わったと考えられます。

 たとえば、期限切れのドメイン名を他の団体が取得し、まるで違う内容のサイトにしてしまったとしましょう。この場合、過去のアンカーテキストに基づいて検索結果を拾うと、関係ないのに表示されてしまうかもしれません。そのため、ページ内容やアンカーテキストが大きく変化した日時によって、あるドメインが話題を変えた日時を推定し、それ以前のすべてのリンクやアンカーテキストは無視することもできます(※つまり、ランキングの高かったドメインを取得して別サイトを作っても、過去の実績はすべてクリアされてしまう可能性があるということです)。

 アンカーテキストの新鮮さもランキングスコア決定のために使えます。ページが更新されても、リンク先の内容が適切なまま残っているなら、アンカーテキストもそのまま残るでしょう。ただし、小さな変更であれば無視できます。

トラフィック

[0087]~[0091]

 ページへのアクセス数の増減もスコアに関係します。アクセス数が急に減っている場合は、更新されていないとか、別の新しい文書に入れ替わったなど、新鮮でなくなった可能性があります。

 アクセス数の増減を長期的にチェックし、その変動を参考にする場合があります。たとえば、夏に増えるとか、週末に増えるといったパターンを見つけたら、それに応じてランキングスコアを調節することもできます。

 広告へのリンクもランキングスコアに影響します。広告リンクの表示・更新頻度や割合、さらに広告の質も判定されます。たとえば、Amazonなど信頼性の高いサイトへリンクしているページは、アクセス数の少ないアダルトサイトへの広告を含むページよりも高くランキングされます。また、広告のクリックされる数もページのランキングに反映できます。

ユーザー行動

[0092]~[0095]

 あるページをユーザーがどのように閲覧したかというデータも参照されます。

  • ある検索結果のセットから、それぞれのページが選ばれた回数
  • それぞれのページを閲覧するのにすごした時間

(これはおそらくgoogleツールバーなどを使って調べているのではないかと推測されます)

 以前はユーザーがあるページを平均30秒間見ていたのに、今は数秒しか見られていない、とすれば、そのページの情報はもう古くなっているかもしれません。

ドメイン関連の情報

[0096]~[0102]

 ページのランキングスコアは、そのページが含まれるドメインについての情報によって左右されることもあります。これは特にスパム対策としておこなわれます。

 スパムをおこなう人は、使い捨てあるいは「入り口」ドメインを使って、アクセスを盗もうと考えます。これらのドメインにあるページはスパムページと判断することができます。

 たとえば、ドメインは10年まで契約でき、価値あるドメインは前もって数年分契約されることが多いのですが、不正ドメインは使い捨てなので、1年以上契約されることはほとんどありません。そこで、ドメインの期限切れになる日時を判断材料とすることもあります。(※松永注:1年ずつ更新して3年目になったドメインや、単に残り1年未満となったドメインをスパム扱いするか否かについては記載がないが、心配しすぎる必要はないと思う。また、最初に1年契約したドメインでも、それだけでスパムサイト扱いされるわけではなく、他のスパム要因と結びつけて判定されるので、過剰反応すべきではない)

 ドメインネームをIPアドレスに変換するのがドメインネームサーバー(DNS)ですが、他にスパムサイトばかり登録しているDNSがあれば、そこに含まれるドメインはスパムの可能性が高くなります。また、ドメインの連絡情報が偽装だとか、正しいアドレス情報がコロコロ変わっていたりする場合もスパムの可能性が高くなります。

 よいDNSは、いろいろな登録者がいろいろなドメインを登録しています。一方、悪いDNSは、ポルノドメインや入り口ドメイン、スパムでよく使われる宣伝用語の含まれるドメインなどを抱えてきた歴史を持っているか、あるいは逆にまっさらで実績がないものです。DNSが新しいというだけではペナルティになりませんが、他の要素と結びつけばあやしいと判断できます。

ランキング履歴

[0103]~[0112]

 検索結果のランキングの変化も判断材料となります。多くの検索結果で上位に来るページは、話題のページかもしれませんし、逆にスパムかもしれません。たとえば、商業的な検索内容において、ランキングが異常に急上昇しているページは、スパムの可能性が高まります。これを防ぐために、ランキングの成長率を一定範囲に抑えることもありえます。

 また、あるページがどのような検索内容で選ばれるか、その数の増減、どういう季節に選ばれるか、いつ爆発的にアクセスされるか、といった情報も参考にされます。

 「スパム文書はニュースでは言及されない」という理論に基づいて、ニュース記事、ニューズグループでの言及を判断材料に取り入れることも可能です。また、政府文書やYahoo!ディレクトリなど権威的なページは、たとえランキングが急上昇したとしても、スパムとは判断しません。

 逆に、ランキングが急下降した場合は、もう時代遅れになったページだと判断できます。

ユーザーによって維持/生成されたデータ

[0113]~[0117]

 googleはブックマーク/お気に入りなどをチェックして判定することも考えています(実際にそのデータを取得しているかどうかはわかりませんが)。

 ブックマークが追加/削除される率が増えたり減ったりしている状況、アクセス状況などを分析し、多くのユーザーがブックマークに入れているものは重要なものとみなされます。一方、ユーザーの多くがブックマークから外すなら、価値が低下しているわけです。

 また、キャッシュやtempファイルに残っているページ、ページと関連するクッキーなども同様の判断材料となりえます。

アンカーテキストにおける独特な単語、バイグラム(連語)、フレーズ

[0118]~[0121]

 アンカーテキストに含まれる独特な単語、連語、フレーズも判断材料となります。

 自然に作られたページでは、これらの言葉はバラバラなのが普通ですが、人工的なもの(つまりスパム的なページ)では、特定の単語や連語やフレーズが突出することになります。

 これは、多くの文書から多数の同一のリンクが追加されたためかもしれません。あるいは、多くの文書から故意に異なったリンクをつけているかもしれません。疑わしいリンクは、判定材料に入れないこともあります。

同等の他の文書との相互リンク

[0122]~[0125]

 相互リンクが突然、激しく増加することは、スパムの指標となりえます。さらにこの相互リンクが不自然なアンカーテキストでなされているなら、この指標は強化されます。

 このような相互リンクは、ランキングに効果をもたらさないよう、操作できます。

文書の話題

[0126]~[0129]

 googleでは、ページの内容も判断材料として考慮されているかもしれません。

 たとえば、分類、URL分析、内容分析、クラスタリング、要約、独特な低頻度語の組み合わせ、その他の方法による話題抽出が可能です。

 あるページに載っている話題が、今までのものと大きく異なるなら、そのページは所有者が変わってしまい、かつてのスコアやアンカーテキストなどがもう役に立たなくなってしまったということになるかもしれません。

 また、ページに含まれる話題があまりにも多ければ、スパムの指標となります。

 たとえば、かなり長いあいだ、せいぜいいくつかの話題しか載っていなかったページに、いきなり載っている話題が増えたとしたら、これは抜け道ページとして使われるようになったと考えられます。あるいは、もとの話題が消えてしまうことも判断材料となります。

 こういったスパム要因が複数見つかれば、ランキングを下げることができます。

処理の模式

[0130]~[0133]

google-patent04.gif

 要するに、googleは、ページ内の内容だけをもとにランキングスコアを決定するのではなく、そのページに関する様々な情報を「履歴データ」として取得し、それをランキングスコア決定に生かすということです。

松永による結論

 以上、どこからどこまでgoogleにすでに実装されているか(あるいはどのような実装なのか)ということは具体的にはわかりませんが、SEO対策を練る上で、今までの考え方には含まれていない要素が多く見られることがわかると思います。

 ともあれ、SEOと称してページランクだけを上げる技法をいくら駆使したところで、スパムはスパム、googleはそういうサイトを決して評価しないということです。検索結果の上位には、スパムではなく、本当に内容/価値のあるページが表示されるよう、googleも努力し続けています。

 無駄な抵抗(SEOと称してアクセス稼ぎを狙う行為)はやめて、正攻法、つまりいい内容を適切な形できちんと公開していきましょう。それが最高のSEOなのです。

業界初!livedoorを始め多数のブログに同時投稿できるサービスを実現。「ブログマスターわたる君2号」 」なんてツールは、単に評価を下げる役にしか立たないでしょう。

 ちなみに、田口さんといっしょに書いた『できる 100ワザ ブログ アフィリエイトも楽しめるアクセスアップの実践テクニック』は、検索結果を荒らすようなSEOを排除し、本当にいい内容のサイトをアクセスアップさせるためのワザを盛り込んでいますので参照してください。

【広告】★文中キーワードによる自動生成アフィリエイトリンク
以下の広告はこの記事内のキーワードをもとに自動的に選ばれた書籍・音楽等へのリンクです。場合によっては本文内容と矛盾するもの、関係なさそうなものが表示されることもあります。
2005年12月 9日14:20| 記事内容分類:サイト構築・SEO| by 松永英明
この記事のリンク用URL| ≪ 前の記事 ≫ 次の記事
| コメント(2) | トラックバック(10)
twitterでこの記事をつぶやく (旧:

トラックバック(10)

SEOに必須「Googleはいかにしてスパムサイトを弾いているか」――グーグル特... 続きを読む

アフィリエイトこっそり報告blog(ブログ) - SEOに必須な記事 (2005年12月10日 19:53)

僕には、尊敬してやまないブロガーの方が何人かいたりします。 その中で、情報の一次性とそれを追求する姿勢が素敵すぎなのがこの方! 続きを読む

あたしンちのおとうさんの独り言 - 複数ブログへの多重投稿 (2005年12月10日 21:11)

「絵文禄ことのは」さんの「SEOに必須「Googleはいかにしてスパムサイトを弾いているか」――グーグル特許出願文書のわかりやすいまとめ」や「Modern... 続きを読む

インターネット業界で働く人だけでなく、あらゆるメディア産業で働く人に読んでもらいたい本です。 ISBN:4822244873:detail 前半は検... 続きを読む

絵文録ことのはさんのところで、グーグル特許出願文書に関するわかりやすい解説がされ... 続きを読む

アフィリエイト試行錯誤 - SEOに興味がある人は必須 (2005年12月16日 11:51)

すばらしい人がいました。 Googleの特許情報を翻訳して解説してくれています。 Googleはいかにしてスパムサイトを弾いているか ど... 続きを読む

近年の効率的なWEBサイト構築において、もっとも重要視されてきたといっても過言ではないSEO(各種サーチエンジン対するサイトの最適化)について分かりやすく... 続きを読む

近年の効率的なWEBサイト構築において、もっとも重要視されてきたといっても過言ではないSEO(各種サーチエンジン対するサイトの最適化)について分かりやすく... 続きを読む

SEO、すなわちgoogleなどの検索サイトで、自分のサイトをいかに上位に表示させるか、 というテクニックである。中にはそれを勘違いして、 あちこちに... 続きを読む

良い記事なら自然とアクセスアップするというのは、「良いモノを作れば自然と売れる」といって、営業も広報も行わないことに似ています。そこでSEO&アクセスア... 続きを読む

コメント(2)

「ブログマスターわたる君2号」 というのは、要するに、BlogWriteに代表されるブログ投稿支援ツールの二番煎じ三番煎じですね。

さて、本文書を読みましたが、大切な部分は「可能性があります。」「ありえます」
など、曖昧な表現になっていましたね。
しかし、言っていることには共感できる部分が非常に多数ありました。

問題はこの特許に、プラスアルファをGoogleが加えているかどうか?という点でしょう。
特許そのままの形で運用するとは思えませんので。

なるほど、特許をわかりやすくまとめてくれていると思って読んでいたら、結局自分の本の宣伝かよ!

このブログ記事について

このページは、松永英明が2005年12月 9日 14:20に書いたブログ記事です。
同じジャンルの記事は、サイト構築・SEOをご参照ください。

ひとつ前のブログ記事は「「ハリケーン・カトリーナは日本のヤクザの仕業」説のアメリカ天気キャスターはサイトを書き換えていた」です。

次のブログ記事は「デーサイに一歩近づけるMovable TypeプラグインRightFields」です。

最近のコンテンツはインデックスページで見られます。
過去に書かれたものは月別・カテゴリ別の過去記事ページで見られます。