BAsixs(ベーシックス)

「あたりまえ」をアップデートしつづける

クローラー【用語解説】

  • 投稿日 :
  • 最終更新日 :

クローラーとは、インターネット上を自動で巡回し、Webサイト・画像・動画・ドキュメントなどのデータを収集・保存するプログラムのこと。

もっと詳しく解説

クローラーとは、インターネット上を自動で巡回し、Webサイト・画像・動画・ドキュメントなどのデータを収集・保存するプログラムのことです。

GoogleやBingなどの検索エンジンごとに種類があり、「ボット」や「スパイダー」と呼ばれることもあります。

クローラーがWebサイトを巡回することを、「クローリング」と呼びます。

クローラーは、特定の既知のWebページから、リンクを辿りながら巡回します。Webサイトは常に更新・削除・ロケーション移動しているため、定期的にクローリングを行うことで、情報を新鮮に保っています。

主な検索エンジンと、クローラー名は以下の通りです。

主な検索エンジンと、クローラー名

  • Google:デスクトップ検索のGooglebot Desktopとモバイル検索のGooglebot Mobileの2種類
  • Bing(Microsoftの検索エンジン):Bingbot
  • Yandex(ロシアの検索エンジン):Yandex Bot
  • Baidu(中国語の検索エンジン):Baidu Spider
  • NAVER(韓国の検索エンジン):Yetibot

また、検索エンジン以外のサービスにもクローラーは利用されています。

検索エンジン以外のサービスのクローラーの例

  • Ahrefs(SEOツール):AhrefsBot
  • Semrush(SEOツール):SemrushBot
  • SiriやSpotLight:AppleBot

クローラーはHTTP/HTTPSプロトコルにより、世界中のサーバから以下の種類のファイルを収集しています。

クローラーが収集する主なファイル

  • HTML
  • CSS
  • JavaScript
  • PHP
  • 画像(GIF/JPEG/PNG/WebP/SVG)
  • 動画(MP4、WebMなど)
  • ドキュメントファイル(Word、Excel、PowerPointなど)
  • PDF