分かりにくいアルゴ、突然襲い来る順位変動、とりあえずカテゴリー登録、集客力日本一のヤフーだから
順位変動、ペナルティ、商用サイトをもてあそぶ検索シェア世界ナンバーワンのグーグルは神か悪魔か
Windowsも検索エンジンも音楽配信もゲーム機も、帝国は生き延びることができるか? マイクロソフト
2007-01-11
検索エンジンの5つのプログラム - スパイダーとクローラって別物?
アメリカのウェブ制作やSEOに携わる者が集うフォーラム WebmasterWorldで、おもしろい展開がはじまっている。
How Do Search Engine Robots Work?
- 検索エンジンのロボットはどのような働きをしているか?
How Do Search Engine Robots Work?
内容も興味深いのだが、それよりも冒頭に驚いた。
Search engines consist of five discrete software components:
- Spider : a robotic browser like program that downloads webpages.
- Crawler : a wandering spider that automatically follows links found on pages.
- Indexer : a blender like program that dissects webpages that are downloaded by spiders.
- The Database : a warehouse of the pages downloaded and processed.
- Search Engine Results Engine : digs search results out of the database
なんと、スパイダー(Spider)とクローラ(Crawler)が別物として扱われているではないか!
日本中で、スパイダーとクローラを区別している人を見たことがないぞ。
| 名称 | 機能 | |
|---|---|---|
| 1 | スパイダー | ウェブページをダウンロード |
| 2 | クローラ | ページのリンクを追跡 |
| 3 | インデクサ | ダウンロードしたページを調合して索引付け |
| 4 | データベース | ダウンロードし処理したページの倉庫 |
| 5 | リザルトエンジン | データベースから探し検索結果を出す |
しかも、上記5つをロボットと呼んでいるようでもあるし…
Let's talk about how robots interpret your page for a bit. If I follow Brett's historical topic, you have three different types of robots, a spider, crawler and indexer.
First the Spider comes around and requests the URI. It reads server header information and other on page <head></head> information. Then the Crawler follows all the links within that domain (those that are found and allowed). Then the Indexer reads the html while making heads and tails of it.
ロボットは、どのようにウェブページを解釈するのか。違う3タイプのロボット、つまりスパイダーとクローラとインデクサがある。
最初に、スパイダーはURIによってやって来る。そしてサーバのヘッダ情報とページのhead要素<head>~</head>を読む。
次にクローラは、スパイダーが見つけたページ・サイト内のリンクを追いかけて行く。
最後にインデクサは、HTMLソースの始めから終わりまでを読み込む。
明らかな誤訳があればコメントでも付けていただきたい。
しかし、奥が深い。久しぶりの大発見と言えるかな?
| 2007-01-11 09:53 AM |
汎用サイトマップとMSN(Liveサーチ) - RORフィードで代替?



