クローラーとは、インターネット上を自動で巡回し、Webサイト・画像・動画・ドキュメントなどのデータを収集・保存するプログラムのこと。
もっと詳しく解説
クローラーとは、インターネット上を自動で巡回し、Webサイト・画像・動画・ドキュメントなどのデータを収集・保存するプログラムのことです。
GoogleやBingなどの検索エンジンごとに種類があり、「ボット」や「スパイダー」と呼ばれることもあります。
クローラーがWebサイトを巡回することを、「クローリング」と呼びます。
クローラーは、特定の既知のWebページから、リンクを辿りながら巡回します。Webサイトは常に更新・削除・ロケーション移動しているため、定期的にクローリングを行うことで、情報を新鮮に保っています。
主な検索エンジンと、クローラー名は以下の通りです。
主な検索エンジンと、クローラー名
- Google:デスクトップ検索のGooglebot Desktopとモバイル検索のGooglebot Mobileの2種類
- Bing(Microsoftの検索エンジン):Bingbot
- Yandex(ロシアの検索エンジン):Yandex Bot
- Baidu(中国語の検索エンジン):Baidu Spider
- NAVER(韓国の検索エンジン):Yetibot
また、検索エンジン以外のサービスにもクローラーは利用されています。
検索エンジン以外のサービスのクローラーの例
- Ahrefs(SEOツール):AhrefsBot
- Semrush(SEOツール):SemrushBot
- SiriやSpotLight:AppleBot
クローラーはHTTP/HTTPSプロトコルにより、世界中のサーバから以下の種類のファイルを収集しています。
クローラーが収集する主なファイル
- HTML
- CSS
- JavaScript
- PHP
- 画像(GIF/JPEG/PNG/WebP/SVG)
- 動画(MP4、WebMなど)
- ドキュメントファイル(Word、Excel、PowerPointなど)