分かりにくいアルゴ、突然襲い来る順位変動、とりあえずカテゴリー登録、集客力日本一のヤフーだから
順位変動、ペナルティ、商用サイトをもてあそぶ検索シェア世界ナンバーワンのグーグルは神か悪魔か
Windowsも検索エンジンも音楽配信もゲーム機も、帝国は生き延びることができるか? マイクロソフト

2007-01-11

検索エンジンの5つのプログラム - スパイダーとクローラって別物?

アメリカのウェブ制作やSEOに携わる者が集うフォーラム WebmasterWorldで、おもしろい展開がはじまっている。

How Do Search Engine Robots Work?

内容も興味深いのだが、それよりも冒頭に驚いた。

Search engines consist of five discrete software components:

  1. Spider : a robotic browser like program that downloads webpages.
  2. Crawler : a wandering spider that automatically follows links found on pages.
  3. Indexer : a blender like program that dissects webpages that are downloaded by spiders.
  4. The Database : a warehouse of the pages downloaded and processed.
  5. Search Engine Results Engine : digs search results out of the database

なんと、スパイダー(Spider)とクローラ(Crawler)が別物として扱われているではないか!
日本中で、スパイダーとクローラを区別している人を見たことがないぞ。

検索エンジンの5プログラム
  名称 機能
1 スパイダー ウェブページをダウンロード
2 クローラ ページのリンクを追跡
3 インデクサ ダウンロードしたページを調合して索引付け
4 データベース ダウンロードし処理したページの倉庫
5 リザルトエンジン データベースから探し検索結果を出す

しかも、上記5つをロボットと呼んでいるようでもあるし…

Let's talk about how robots interpret your page for a bit. If I follow Brett's historical topic, you have three different types of robots, a spider, crawler and indexer.

First the Spider comes around and requests the URI. It reads server header information and other on page <head></head> information. Then the Crawler follows all the links within that domain (those that are found and allowed). Then the Indexer reads the html while making heads and tails of it.


ロボットは、どのようにウェブページを解釈するのか。違う3タイプのロボット、つまりスパイダーとクローラとインデクサがある。

最初に、スパイダーはURIによってやって来る。そしてサーバのヘッダ情報とページのhead要素<head>~</head>を読む。
次にクローラは、スパイダーが見つけたページ・サイト内のリンクを追いかけて行く。
最後にインデクサは、HTMLソースの始めから終わりまでを読み込む。

明らかな誤訳があればコメントでも付けていただきたい。

しかし、奥が深い。久しぶりの大発見と言えるかな?

| 2007-01-11 09:53 AM |