検索エンジンのクローラーとは?対策方法や確認方法もあわせて解説
記載されている内容は2021年12月27日時点のものです。現在の情報と異なる可能性がありますので、ご了承ください。
また、記事に記載されている情報は自己責任でご活用いただき、本記事の内容に関する事項については、専門家等に相談するようにしてください。
初回公開日:2021年12月27日
更新日:2022年03月01日
そもそも検索エンジンの仕組みとは?
クローラーを知る前に、まずはGoogleやYahoo!といった検索エンジンの基本的な仕組みを知っておくことが大切でしょう。
検索エンジンはクローラー、インデクサー、サーチャーの3つの仕組みによって成り立っています。
まず、クローラーと呼ばれるロボットがネット上のウェブページを巡回して情報収集を行い、集めた情報をインデクサーが整理、変換してデータベース(インデックス)に保存します。
次に、サーチャーによって検索キーワードから抽出された関連情報の順位が、関連性の高さや重要度によって決定される仕組みです。
検索エンジンにおけるクローラーの役割や種類
情報収集を最初に行うクローラーは、「ボット」とも呼ばれる自動プログラムのことですが、その役割は情報収集です。
検索エンジンクローラーはリンクを辿ってサイトの情報を読み取り、検索エンジンのデータベースまで運んでいきます。クローラーに発見されないことには始まらないため、発見してもらえるようなサイト作りがが何より重要と言えるでしょう。
クローラーの種類はGooglebot、Yahoo! Slurp、Bingbot、Baiduspider、Yetibot、ManifoldCFなどがあります。
検索エンジンからクローラーされやすくするための対策8つ
クローラーされやすくするということは、多くの人にサイトを見てもらいやすくなるということです。
ここでは、検索エンジンからクローラーされやすくするための8つの対策を紹介していきます。
- URLを正規化する
- URLの階層を浅くする
- Googleへリクエストを行う
- テキストでリンク設定する
- 適切なステータスコードを考える
- レスポンスヘッダーも意識する
- パンくずリストも意識して整理する
- 関連性のある内部リンクを設置する
1:URLを正規化する
複数のURLを1つに統一することをURLの正規化と言いますが、これもクローラビリティを高める方法です。
特に、同じコンテンツのページが複数のURLに分散されている場合、重複していることを感知したクローラーが巡回の回数を減らしてしまうため注意が必要です。
例えば、モバイル版・PC版の両方それぞれにURLがある場合などが該当します。対応法としては、代表的なページのURLに統一することで効果的にクロールされるようになります。
2:URLの階層を浅くする
URLの構造がシンプルなものは優先的にクロールされると言われています。
URLは「/(スラッシュ)」によって階層が分かれています。これをディレクトリ階層と言いますが、この構造が「/」をいくつも使うような複雑さが含まれれば含まれるほど、検索されにくくなるということです。
例えば、web-abc.com/よりもweb-abc.com/searchの方が見つけられづらくなり、さらに、web-abc.com/search/crowlerのようにスラッシュが重なるほど見つけられにくくなります。
3:Googleへリクエストを行う
Google検索エンジンに記事の更新を知らせる「Googleサーチコンソール」の機能を使うのもおすすめです。
「Googleサーチコンソール」とは、記事を更新した時にインデックス登録をリクエストすることができる「URL検査」という機能です。
4:テキストでリンク設定する
自社サイト内の複数のページをつなげる内部リンクを設置することは、サイトの整理につながります。
こうした取り組みによって、さらにクローラーに見つけられやすくなるでしょう。
5:適切なステータスコードを考える
「ステータスコード」と呼ばれるサーバからの反応を示す3桁の数字コードがあります。例えば、200であれば正常を表し、404であれば未検出として、リクエストされたページが見つからないことを表します。
削除したページが404を表すような正しい表示であれば問題ありませんが、削除されているにもかかわらず正常を表す200が表示されれば、このステータスコードは適切ではないということになります。
クローラーに正しく認識してもらうためにも、適切なステータスコードを常に返している必要があります。
6:レスポンスヘッダーも意識する
レスポンスヘッダーとは、HTTPレスポンスで使用するページ末尾に設置するヘッダーのことですが、このようなヘッダーも内部リンクをわかりやすく伝えるためのツールになります。
その他、サイドバーや案内リンクなどを整えることもクローラーが早くページに辿りつくのを助けるための効果的な方法です。
7:パンくずリストも意識して整理する
パンくずリストとは内部リンクの1つで、サイト内の現在地を知るための機能です。パンくずを落として現在地を知らせる童話が名称の由来になっています。
サイト内の地図のような役割を持ち、ユーザーが読んでいるページを一目で理解できるようになっているため、クローラビリティを高めるために役立ちます。
8:関連性のある内部リンクを設置する
テキストページについても、関連性の高いテキストごとにリンクを設けておくことがポイントとです。つながりが感じられないテキストとのリンクでは、あまり効果は得られないでしょう。
リンク名についても、つながりが分かりやすいものを選ぶことが大切です。
検索エンジンからクローラーに発見されているか確認する方法3つ
ここまで、検索エンジンからクローラーされやすくする対策を見てきましたが、肝心のクローラーに自社サイトの存在を発見されているのかどうかを確認することは、SEO対策にとって大変重要です。
ここでは、検索エンジンでクローラーに発見されているかを確認するための主な3つの方法について紹介します。
- 確認したいページのURLの前に「site:」を入れる
- Google Search ConsoleのURL検査で調べる
- Google Search Consoleのカバレッジで調べる
1:確認したいページのURLの前に「site:」を入れる
Googleの検索窓に「site:ドメイン名」を入力して検索してみると、クローラーが巡回したドメインのページが一覧表示されます。確認したいページのURLの前に「site:」を入れて確認してみましょう。
この方法で検索すると、インデックス登録されているURLが表示されるため、クローラーが巡回してきたことを確認できます。
2:Google Search ConsoleのURL検査で調べる
Googleの公式ヘルプページにあるURL検査ツールを使うことで、自社サイトが現時点でちゃんとインデックスに登録されているかを確認できます。
その他、URLのインデックス登録のリクエストも可能で、ページがどのように表示されるかの確認もできます。ページが見当たらない場合のトラブルシューティングもできる便利な機能と言えるでしょう。
3:Google Search Consoleのカバレッジで調べる
Googleサーチコンソールでは、インデックスカバレッジレポートを使ってインデックス登録に関する問題を調べることができます。URLを調査した結果は、エラー、警告、有効、検証といったステータス別に表示され、その具体的な理由も知ることが可能です。
例えば、URLが見つからないといった「404」のエラーなどについて、その理由を確認する時に使います。
検索エンジンにおけるクローラーの役割と対策方法を知ろう
クローラーの基本的な知識を持つことは、SEO対策を行う上で大変重要なポイントです。クローラーに正常に認識されていなければ、いくら良いサイトを作ってもアクセス数は伸びないでしょう。
クローラーについて正しく知り、多くの人に触れてもらえるようなサイト構築を目指しましょう。