2008-03-07

インデックスとキャッシュの違い - 役割もサーバも異なっている

一部ではYahoo!(YST)の更新にともなう順位変動で、大ごとになっているサイトもあるようだ。
TDPが解消されたり、新たにTDPに見舞われたりと。それとは別に、定例のアルゴリズム・ローテーションが背景にあるので、やっているSEOによって微妙に上がったり下がったりと。

ところで、古いキャッシュが表示されたり、ないはずの旧サイトが上位に現れたりと、相変わらずYahoo!はサイトオーナー泣かせのようである。

今回は、知っているようで知らない「インデックスとキャッシュの違い」について解説してみよう。
更新による順位変動の意味、TDPの発動と解消のタイミング、GoogleとYahoo!の違いなど、SEOの基礎に関わる問題だからである。

まず、キャッシュって何?という人は、GoogleやYahoo!のヘルプを参照のこと。

インデックスとキャッシュとサーバと

あくまでもSEO塾の仮説であると断っておくが、ロボット(クローラ)が巡回してわれわれのページデータをテイクアウトしたあとに、丸ごとのスナップショットはキャッシュとしてドキュメントサーバに保存され、キーワードやトピックなどの項目や用途ごとに切り刻んでインデックスサーバに格納すると思われる。
また、ドキュメントサーバにはキャッシュだけでなく、検索結果画面で表示されるタイトルやスニペットなどのデータ源も保存される。

そのヒントとなるのは、Google 会社情報: テクノロジーのページ下部の図説である。

Google クエリのライフ サイクル

  1. ウェブサーバ
    • ユーザーの検索したいキーワードを受け取る
  2. インデックスサーバ
    • 世界中のWebページをインデックス付けして格納
    • キーワードごとの順位付けを生成
  3. ドキュメントサーバ
    • Webページのスナップショットであるキャッシュを格納
    • 検索結果画面に表示されるタイトルとスニペットを生成
  4. ウェブサーバ
    • 順位付けされた検索結果画面を表示

これはGoogleからの説明であるが、おそらく検索エンジンはこのような構成になっていると思われる。

キャッシュが変わっても順位は変わらない(ただしペナルティは別)

インデックスは、キーワード(トピック)をベースとして検索エンジン側が加工し、これに内部外部リンク情報を紐付けし、最終的にキーワード(トピック)にSEOスコアを付与してインデックスサーバに格納すると仮説を立てる。
つまり、キーワード検索でクエリを受け取ってから、検索エンジンがしゃかしゃか順位を計算して表示するのではなく、あらかじめ点数が付いてあるものを見せると。

タイトル・スニペット・キャッシュが別サーバにあるのだから、キャッシュが更新されても、インデックスが更新しなければ順位は大きく変わらないのである。

よって先だってのYST更新では、昔のGoogleのようにインデックスの入れ替えをこのタイミングで行うからそれなりの変動が起こるわけである。
現在のGoogleは、日々インデックスの部分的更新をやり続けていると思われるので、ほぼ毎日順位が替わり、月一とか5~6週間ペースで順位が変わるということもない。

アルゴリズムとフィルタ

また、アルゴリズム(順位付けプログラム)はインデックスサーバとともにあり、フィルタ(ペナルティ用クエリセット)はウェブサーバの方にあるものと思われる。
本格的な順位付けや変動はインデックスの更新とともに起こり、それとは別にペナルティは随時発動させることができるということである。

もちろん、スパムフィルタのたぐいがアルゴリズムとセットになった場合はその限りではないことは言うまでもない。
さらに飛躍した考えとして、フィルタはキャッシュを見てペナルティを発動する可能性も大ということである。

こういった理屈をこねてみると、キーワード出現率(キーワード密度)という「キーワード数 ÷ 名詞総数」というコンセプトがいかにSEO都市伝説であるか理解できるのではなかろうか?
もちろん、キーワードそのものの記述数であるキーワード出現頻度は、フィルタの方に採用されている可能性は否定できないが。この時は、インデックスではなくキャッシュを見る。

結論としては、随時インデックスを更新しているGoogleでは、キャッシュが変更されるとインデックスも変更され順位が変わる期待が持てるのだが、Yahoo!では、インデックス更新が本物の順位付けルールの変更であり、それ以外での例えばキャッシュの変化ではフィルタが効くことはあってもアルゴリズムは影響しないと思えるのである。

ダメ押ししておくが、SEOに励んだとして、Googleではリアルタイムに近いかたちで順位の上がり下がりを見ることができるが、Yahoo!ではそうはならずYST更新やY!Jの独自アルゴリズム刷新などを待つ必要があるということである。

現在のYahoo!(YST)更新による順位変動は、TDP(トップページダウンペナルティ)などのフィルタ由来の変動であれば数日後に手応えを掴むだろうが、インデックスとセットのアルゴリズム由来であれば次の更新まで辛抱しなければならないのである。

「隣接するウェブページ」

横道にそれるが、先ほどのGoogleのページで次の箇所が気になった。

Google 会社情報: テクノロジー

ハイパーテキスト一致分析:
Google の検索エンジンは、ページのコンテンツも分析します。といっても、各ページのテキストを単にスキャンするのではなく (この方法はサイトの運営者によってメタ タグで操作される可能性があります)、ページのコンテンツ全体と要素をフォント、分割構造、および各単語の厳密な位置という観点から分析するのです。Google は、隣接するウェブ ページのコンテンツも分析し、ユーザーの検索クエリに最も関連する結果を確実に提供できるようにしています。

「隣接するウェブページのコンテンツ」の隣接するは、ウェブページにかかるのか、コンテンツにかかるのか、問題である。

Google Corporate Information: Technology の原文では、「Google also analyzes the content of neighboring web pages to ensure the results returned are the most relevant to a user's query.」ということで、「隣接するウェブページ」である!

隣接するとはどういうことだろう?

同じディレクトリに格納されているページだろうか。
まさか、リンク関係…

ひょっとすると、サイト全体のキーワード(トピック)の関連性、あるいは古いSEO業者が言うところの「サイトテーマ」もGoogleは把握してるってこと?

| コメント (0) | トラックバック (0) | 2008-03-07 01:22 PM [ 管理人編集 ]


SEOセミナーのe倶楽部3で講座を開設 塾生募集中

Yahoo!で検索されなくなった、トップページが1000番の圏外に追放された。
Googleで順位変動に悩まされている、ある日突然に数十番も下落した。

SEO塾は、検索エンジン・トラブルのリカバリーに実績があります。
今すぐ『Web教則本とメールのSEOセミナー』をお申し込みください。


Yahoo! JAPANの検索結果で上位表示させるために有効な、最も簡単な方法。

トラックバック

このエントリーのトラックバックURL:

"インデックスとキャッシュの違い - 役割もサーバも異なっている"の紹介記事が書かれていない場合は、スパムとみなされトラックバックできません。

このエントリーへのトラックバックはまだありません。

コメント

このエントリーへのコメントはまだありません。

コメントを投稿

(いままで、ここでコメントしたことがないときは、コメントを表示する前にこのブログのオーナーの承認が必要になることがあります。承認されるまではコメントは表示されません。そのときはしばらく待ってください。)

投稿