クローラ
ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラム
この記事は英語版の対応するページを翻訳することにより充実させることができます。(2024年11月) 翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
|
クローラもしくはクローラー (Crawler) とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット」 (bot)、「スパイダー」、「ロボット」などとも呼ばれる。
主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用されている。近年では、電子メールアドレス収集業者などもクローラを利用してスパムの送信効率を上げている。
一般にクローラは、既知のHTML文書の新しいコピーを要求して文書中に含まれるリンクをたどり、別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録するほか、既知のファイルが存在しないことを検出した場合はデータベースから削除する。