robots.txtとAIクローラ:基本と2026年の現状
robots.txtはWebサーバーのルートに置くテキストファイルで、クローラーに対してアクセス許可/禁止を伝えます。従来はGooglebotやBingbotへの指示が中心でしたが、2024年以降はAIクローラー(GPTBot/ClaudeBot/PerplexityBot/CCBot/Google-Extended)への対応が重要な設定項目になっています。
主要AIクローラー一覧(2026年5月)
| クローラー名 | 運営 | 用途 | 公式ドキュメント |
|---|---|---|---|
| GPTBot | OpenAI | ChatGPTの学習・参照データ収集 | openai.com/gptbot |
| ClaudeBot | Anthropic | Claudeの参照データ収集 | claudebot.anthropic.com |
| PerplexityBot | Perplexity AI | リアルタイム検索の情報収集 | perplexity.ai/perplexitybot |
| CCBot | Common Crawl | Webアーカイブ(多くのAIが学習に使用) | commoncrawl.org/ccbot |
| Google-Extended | Google AI Overview等の学習データ | developers.google.com |
LLMO促進のための推奨robots.txt設定
AIに引用されたいサイトは全AIクローラーを許可するのが原則です。
User-agent: *
Allow: /
# Google
User-agent: Googlebot
Allow: /
User-agent: Google-Extended
Allow: /
# OpenAI
User-agent: GPTBot
Allow: /
# Anthropic
User-agent: ClaudeBot
Allow: /
# Perplexity
User-agent: PerplexityBot
Allow: /
# Common Crawl
User-agent: CCBot
Allow: /
# Microsoft
User-agent: Bingbot
Allow: /
# 機密ディレクトリは除外
Disallow: /admin/
Disallow: /includes/
Disallow: /data/
Sitemap: https://example.com/sitemap.xml
AIをブロックするとどうなるか
「AIに学習されたくない」という理由でAIクローラーをブロックする選択もありますが、LLMOの観点では以下のリスクがあります。
- AI回答から「言及されない」:存在を知られない状態になる
- 競合だけ引用される:同じカテゴリで競合が言及され、自社が言及されない不均衡が生じる
- ネガティブな引用リスク:古いキャッシュデータや第三者の言及のみが残り、不正確な情報が引用されることがある
コンテンツの著作権保護を理由にブロックする判断は理解できますが、マーケティング目的のサイトでは全許可が推奨です。
robots.txt設定後の確認方法
- Google Search Console → robots.txtテスター:各クローラーのアクセス可否を即時確認
- 直接アクセス確認:
https://yourdomain.com/robots.txtを開いて内容を確認 - クロール待機期間:変更後2-4週間で各クローラーが新しい設定を認識
llms.txtとの組み合わせ設定はllms.txt詳細を参照してください。