WordPressのrobots.txtを改良し無駄なクロールを削減する方法
海外のニュースメディア「Search Engine Journal」が公開した記事によると、アレックス・モス氏は「WordPressが自動生成するrobots.txtではクロール最適化が不十分」と指摘しました。
初期設定のままでは検索エンジンが価値の低いページまで回り、サーバーへの負荷や余計なインデックスを招く恐れがあるとのことです。
本記事では、必要なルールの行の追加方法とテスト環境での安全対策、そして確認手順を解説します。
- 目次
ニュースの要点
WordPressの既定robots.txtは「管理画面を除外しAjaxを許可する」だけの簡素な構成です。
アレックス・モス氏はXMLサイトマップを確認し、価値の低いパスや不要なクエリパラメータを除外すれば、クローラーの無駄な巡回を大幅に減らせると提案しています。
WordPress既定robots.txtが抱える課題
初期設定では「/wp-admin/」以外ほぼ全てクロール対象になり、トラックバックや内部検索などSEO価値の薄いページも巡回されています。
その結果、クロールバジェットが浪費され、本来優先すべき記事の発見が遅れるリスクがあります。
追加したいルールの行
まずXMLサイトマップを2行で宣言し、検索エンジンに全記事の位置を正確に伝えましょう。
次にCSSやJavaScriptが入る「/wp-content/」はブロックせず、レンダリングに必要なファイルを確実に取得させます。
ブロックすべきではないパス
以前推奨された「/wp-includes/」「/wp-content/plugins/」の一括除外は、本ニュースによると非推奨です。
レンダリング崩れによる評価低下を招くため開放しておくのが良いそうです。
クロールを避けたいパスとクエリパラメータ
「trackback」(ブログ記事への引用通知機能)
「comments feed」(コメント投稿をRSSで配信するページ)
「embed」(記事を外部へ自動埋め込みする簡易ページ)
「cgi-bin」(古いサーバープログラム置き場)
これらは、検索結果に表示されても価値が低いため、次のような行で除外します。
Disallow: /trackback/
Disallow: /comments/feed/
Disallow: */embed/
Disallow: /cgi-bin/
さらに分析で頻出する値が低いパラメータ「?replytocom=」「?print=」も拒否すると効果的だと説明されています。
テスト環境でのrobots.txt設定
テスト環境では外部からのクロールを完全に防ぐため、1行で全拒否します。
User-agent: *
Disallow: /
加えてWordPress管理画面の「検索エンジンがこのサイトをインデックスしないようにする」を必ず併用し、本番移行時に解除漏れがないか二重で確認します。
クロール統計と確認方法
Google Search Consoleの「設定 > クロール統計」で不要なURLが減ったかを定点的に観測しましょう。
URL検査ツールで除外パスがインデックスされていないことを確認し、サイトマップに無駄なURLが含まれていないかもチェックしておくと安心です。
SEOタイムズの見解
本ニュースで解説されていた内容は、たった数行の追加でクロール効率が改善し、サーバー負荷や無駄なインデックスを抑えられるのに、時間はほとんどかかりません。
ルールの行を増やし過ぎると保守が難しくなるため、まずは価値の低いパスとパラメータに絞り、効果を検証しながら段階的に調整することをおすすめします。
まとめ
本ニュースによると、WordPressの既定robots.txtは安全ですが最適とは言えません。
XMLサイトマップを宣言し、価値の低いパスを限定的にブロック、その後テスト環境では全拒否する。
この3ステップだけでクロールを重要なページへ集中させ、今後のリソース消化と無駄なインデックスを防ぐことができます。
SEOの担当者はぜひお試しください。












