結論:8つの主要AIクローラ一覧
2026年5月時点で、LLMO観点で許可・拒否を判断すべきAIクローラは大きく8種類に整理できます。それぞれ役割(学習用/検索用/ユーザー応答用)が異なり、許可と拒否の判断軸も異なります。まず全体像を一覧表で把握してください。
| クローラ名 | 運営 | カテゴリ | 用途 | 引用への影響 |
|---|---|---|---|---|
| GPTBot | OpenAI | 学習用 | ChatGPTの学習データ収集 | 長期的引用に必須 |
| OAI-SearchBot | OpenAI | 検索用 | ChatGPT Searchのインデックス | リアルタイム引用に必須 |
| ChatGPT-User | OpenAI | 応答用 | ユーザー要求時のブラウジング | 個別質問での引用に必要 |
| ClaudeBot | Anthropic | 学習用 | Claudeの学習データ収集 | 長期的引用に必須 |
| CCBot | Common Crawl | 学習用 | 全AI共通の学習データ基盤 | 全AI引用の基盤 |
| Google-Extended | 学習用 | Gemini/Vertex AIの学習 | Gemini長期引用に必須 | |
| PerplexityBot | Perplexity | 検索+学習 | Perplexityのインデックス | Perplexity引用に必須 |
| Bingbot | Microsoft | 検索用 | Bing検索のインデックス(ChatGPT Searchも利用) | ChatGPT Search引用に必須 |
結論として、LLMO上の引用獲得を目的とする多くの企業は「8クローラすべて許可」が基本方針となります。一方、コンテンツ保護・著作権管理・データ流出防止が最優先の事業(出版・有料コンテンツ・専門DB)では、選択的拒否が必要です。本稿では用途別の最適設定を技術的に解説します。
AIクローラの3カテゴリ
AIクローラを役割別に3カテゴリに整理すると、許可・拒否の意思決定が明確になります。それぞれのカテゴリで判断軸が異なる点に注意してください。
カテゴリ1:学習用(GPTBot / ClaudeBot / CCBot / Google-Extended)
これらのクローラが収集したデータは、AIモデルの次世代学習データに組み込まれます。学習されたコンテンツは将来モデルが「事実として知っている知識」となり、ブラウジングなしの通常質問でも引用される静的な引用源になります。
- 引用までのタイムラグ:3-12ヶ月(次世代モデルのリリースタイミング)
- 引用の持続性:非常に長い(モデル世代の生涯)
- 許可するメリット:長期的なブランド認知の確保
- 拒否するメリット:有料コンテンツ・独自知識の保護
カテゴリ2:検索用(OAI-SearchBot / Bingbot / Googlebot / PerplexityBot)
これらのクローラはAIの「リアルタイム検索機能」が使うインデックスを構築します。ChatGPT Search、Gemini AI Overview、Perplexityの即時回答はすべてこのインデックスから引用元を取得しています。
- 引用までのタイムラグ:即時〜数日(クロール頻度依存)
- 引用の持続性:短〜中期(インデックス更新で随時変動)
- 許可するメリット:最新情報のリアルタイム引用
- 拒否するメリット:ほぼなし(拒否するとSEO自体が崩壊する)
カテゴリ3:ユーザー応答用(ChatGPT-User / Perplexity-User)
ユーザーが特定URLや特定情報を要求した瞬間に動作する、リアルタイムフェッチ用クローラです。インデックス化されない一回限りのアクセスで、特定ユーザーの質問への回答のためだけに使われます。
- 引用までのタイムラグ:0秒(即時)
- 引用の持続性:その1回のみ
- 許可するメリット:ユーザーが意図的に自社サイトを参照した場合の引用
- 拒否するメリット:サーバー負荷管理(大量アクセス対策)
クローラ別の許可/拒否設定
各クローラの公式User-Agent名と robots.txt 設定例を一覧化します。User-Agent名の大文字小文字は厳密に区別されるわけではありませんが、公式ドキュメントの記述に合わせるのが推奨です。
クローラ別の正式User-Agent名
| クローラ | User-Agent名 | 公式ドキュメント |
|---|---|---|
| GPTBot | GPTBot | platform.openai.com/docs/gptbot |
| OAI-SearchBot | OAI-SearchBot | platform.openai.com |
| ChatGPT-User | ChatGPT-User | platform.openai.com |
| ClaudeBot | ClaudeBot | support.anthropic.com |
| CCBot | CCBot | commoncrawl.org/ccbot |
| Google-Extended | Google-Extended | developers.google.com |
| PerplexityBot | PerplexityBot | docs.perplexity.ai |
| Bingbot | bingbot | bing.com/webmasters |
全許可の標準設定
LLMO最適化を最大化したい場合の robots.txt 基本テンプレートは以下のとおりです。
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: CCBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
注意:明示的に Allow: / を書かなくても、robots.txt にUser-Agentエントリが無ければデフォルトで許可される仕様です。ただし「意図的に許可している」明示として記述する企業が増えており、可読性・運用上の意図伝達のためにも明示推奨です。
全拒否の設定
AIによる学習・引用を一切拒否したい場合(有料コンテンツ・出版・独自DB等)は以下のように記述します。
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Perplexity-User
Disallow: /
ただしBingbot/Googlebotは通常検索インデックス自体に必要なため、Disallowにすると検索流入が消滅します。AIだけを止めたい場合は上記8クローラのみを対象にします。
「引用させたい」場合の設定
LLMO観点で引用機会を最大化したい場合の、robots.txt + llms.txt + Schema.org 三層設計を解説します。
三層設計の概要
- 第1層:robots.txt:全AIクローラを許可(前項の全許可テンプレート)
- 第2層:llms.txt:サイトの取扱説明書として、重要URL・引用方針を明示
- 第3層:Schema.org JSON-LD:構造化データで「誰が」「何を」を明示
llms.txtの最小実装
# Koukoku.ai
> AI時代の広告代理店
## Core Pages
- [サービス概要](https://koukoku.ai/services/)
- [料金プラン](https://koukoku.ai/pricing/)
## Optional
- [FAQ](https://koukoku.ai/faq/)
- [事例](https://koukoku.ai/cases/)
詳細な書式とノウハウはllms.txt実装ガイドを参照ください。
Schema.org JSON-LDとの連携
クローラ許可だけでは「クロールされる」だけで、AIにとって意味的に「誰が運営しているか」「何のサイトか」が分かりません。JSON-LD実装ガイドに従ってOrganization・Article・FAQPageを実装することで初めて、クロールされたコンテンツがAI学習・引用にスムーズに組み込まれます。
クロール促進の追加施策
- サイトマップに新規ページを追加し、Bing Webmaster Tools / Search Console に提出
- IndexNow APIで即時通知(Bing/Yandex対応、ChatGPT Search経由で引用率向上)
- RSSフィード公開(Common Crawlが優先的にクロール)
- 外部サイトからのリンク獲得(クロール経路の確保)
「引用させたくない」場合の設定(コンテンツ保護)
有料コンテンツ・専門DB・独自調査・出版コンテンツなど、AIに学習・引用させたくない場合の保護設定を解説します。技術的設定と契約・利用規約上の明示を組み合わせます。
robots.txtでの拒否
前項の「全拒否の設定」テンプレートをサイトルートに配置します。User-agent: GPTBot 等を明示的に Disallow にすることで、規約遵守型のAIクローラ(OpenAI / Anthropic / Google / Perplexity等)は自発的にアクセスを停止します。
メタタグでの拒否(ページ単位)
サイト全体ではなくページ単位で拒否する場合は、HTMLヘッダーに以下を記述します。robots.txtより細かい制御が可能です。
<meta name="robots" content="noai, noimageai">
<meta name="GPTBot" content="noindex">
<meta name="ClaudeBot" content="noindex">
HTTPヘッダーでの拒否
API・PDF・画像等HTMLでないコンテンツの場合は、HTTPレスポンスヘッダーで拒否します。
X-Robots-Tag: noai, noimageai
X-Robots-Tag: GPTBot: noindex
X-Robots-Tag: ClaudeBot: noindex
規約・利用規約での明示
技術的設定に加え、利用規約・著作権ページで「AI学習・引用の禁止」を明示します。規約遵守型クローラはこれを尊重しますが、悪意あるスクレイパー対策には別途技術的対策が必要です。テンプレート例:
本サイトのコンテンツは、機械学習・人工知能の訓練データセットへの組み込み、または生成AIによる出力の素材として利用することを禁止します(著作権法第30条の4但し書きに基づく拒絶意思の明示)。
部分許可(一部ページのみブロック)
サイト全体は許可しつつ、特定ページ・特定ディレクトリのみAIから保護したい場合の設定方法です。新規記事・有料コンテンツ・会員専用エリアの保護で活用されます。
ディレクトリ単位の部分拒否
User-agent: GPTBot
Allow: /
Disallow: /members/
Disallow: /paid/
Disallow: /api/
User-agent: ClaudeBot
Allow: /
Disallow: /members/
Disallow: /paid/
Disallow: /api/
ファイル形式単位の拒否
PDF・動画・画像など特定形式のみ拒否する場合は以下のように記述します。
User-agent: GPTBot
Disallow: /*.pdf$
Disallow: /*.mp4$
Disallow: /reports/
クエリパラメータでの拒否
動的URLを拒否する場合のテクニックです。
User-agent: GPTBot
Disallow: /*?preview=
Disallow: /*?draft=
新規記事の一時保護
公開直後の記事をAI学習から外したい場合、メタタグでの個別指定が有効です。公開後3-6ヶ月経ってからnoaiを外し、AIに学習させる戦略を採用する出版社・メディアもあります。
著作権・利用規約からの明示
技術的設定に加えて、著作権法・利用規約からの明示的な拒絶意思表示が法的有効性を持ちます。日本の著作権法第30条の4但し書きに基づく拒絶意思の明示について解説します。
日本の著作権法第30条の4
2018年改正の著作権法第30条の4は、AI学習目的での著作物利用を原則許諾する規定ですが、「著作権者の利益を不当に害することとなる場合」は例外的に許諾不要を否定しています。著作権者が明示的に「AI学習目的の利用を拒絶する」意思表示をしている場合、この但し書きの適用可能性が高まります。
拒絶意思表示の具体的書き方
サイト利用規約・著作権表記ページに以下のような記述を含めます。
第○条(AI学習等への利用の拒絶)
当社は、本サイトの全コンテンツについて、機械学習モデル・大規模言語モデル・生成AI等の訓練データへの組み込みおよび出力生成への利用を、著作権法第30条の4但し書きに基づき明示的に拒絶します。本拒絶意思表示は、robots.txt等の技術的措置と併せて、当社の意思を明確に示すものです。
EUのTDM除外宣言
EU著作権指令(DSM指令)第4条のText and Data Mining(TDM)例外規定では、権利者が機械可読な方法で利用を留保した場合、TDM例外が適用されません。robots.txtでの拒否、利用規約での明示、ai.txt / tdmrep.txt の配置などが「機械可読な留保」として認められます。
tdmrep.txtの実装
2023年策定のW3C Community Group仕様 TDM Reservation Protocol(TDMRep)に基づき、/.well-known/tdmrep.txt を配置することでEU圏内のTDM留保を明示できます。
tdm-reservation: 1
tdm-policy: https://example.co.jp/tdm-policy/
クローラ偽装への対処
悪意あるスクレイパーがGPTBot等の正規クローラのUser-Agent文字列を偽装してアクセスするケースが2025年以降増えています。robots.txtを尊重する正規クローラと、偽装スクレイパーを技術的に区別する方法を解説します。
正規クローラの認証方法
主要AIクローラは公式IPレンジを公開しており、これと逆引きDNS(Reverse DNS)で正規性を検証できます。
| クローラ | IPレンジ公開URL | 逆引きDNSパターン |
|---|---|---|
| GPTBot | openai.com/gptbot-ranges.json | *.openai.com |
| ClaudeBot | anthropic.com/ips.json | *.anthropic.com |
| Googlebot / Google-Extended | developers.google.com/search/apis | *.googlebot.com / *.google.com |
| Bingbot | bing.com/webmasters/help/which-crawlers | *.search.msn.com |
| PerplexityBot | docs.perplexity.ai/guides/bots | *.perplexity.ai |
nginx/Apacheでの認証実装
nginx設定で正規クローラ以外をブロックする例:
map $http_user_agent $bot_check {
default 0;
"~*GPTBot" 1;
"~*ClaudeBot" 1;
}
# 別途、$remote_addr が公式IPレンジに含まれるかチェックするモジュール導入が必要
# 推奨:CrowdSec、Cloudflare Bot Management、Fail2Ban + IPセット
外部サービスの活用
- Cloudflare Bot Management:正規Botの自動判定。AIクローラのカテゴリ別制御UIあり
- Cloudflare AI Audit:2024年7月に追加されたAIクローラ可視化機能
- DataDome / PerimeterX:ボット対策専門SaaS(月数万円〜)
- Fastly Bot Management:CDN統合型のBot制御
アクセスログ分析(クローラ動向把握)
定期的にアクセスログを分析することで、各AIクローラのクロール頻度・カバレッジ・偽装アクセスを把握できます。月次運用の標準フローを解説します。
抽出すべきログ項目
- User-Agent別のリクエスト数
- 各クローラのアクセス対象URL(カバレッジ)
- ステータスコード別の集計(200/404/5xx)
- IPアドレス別の集計(偽装検出)
- クロール頻度の経時変化
分析クエリ例(nginx access.log)
# GPTBotの月次アクセス数
grep "GPTBot" /var/log/nginx/access.log | wc -l
# AIクローラ全体のUser-Agent別集計
grep -oE "(GPTBot|ClaudeBot|CCBot|PerplexityBot|Google-Extended|OAI-SearchBot|Bingbot)" \
/var/log/nginx/access.log | sort | uniq -c | sort -rn
# 偽装検出(GPTBot User-Agentで OpenAI IPレンジ外のアクセス)
grep "GPTBot" /var/log/nginx/access.log | awk '{print $1}' | sort -u
ダッシュボード化
Cloudflare Analytics、Google Analytics、Matomo、自前のGrafana等でクローラアクセスを可視化します。「クロール頻度の急落」「特定クローラの404率上昇」「偽装IPの増加」を月次でモニタリングすると、サイト構造の問題や悪意あるスクレイパーを早期検出できます。
クロール頻度の業界平均
2026年5月時点の自社観測値(中規模サイト/月間PV 50-200万)では、AIクローラのクロール頻度は以下が目安です。
- GPTBot:月10,000-50,000リクエスト
- ClaudeBot:月5,000-20,000リクエスト
- CCBot:月1,000-3,000リクエスト(Common Crawl更新時に集中)
- PerplexityBot:月15,000-80,000リクエスト
- OAI-SearchBot:月5,000-30,000リクエスト
- Google-Extended:月3,000-10,000リクエスト
AI Bot Policy の業界動向(2026年5月時点)
AIクローラ許可・拒否の業界動向は、業種ごとに大きく分かれています。2026年5月時点で観測される主要メディア・出版社・SaaS企業の方針を整理します。
主要メディアの方針
| カテゴリ | 代表的方針 | 背景 |
|---|---|---|
| 大手新聞社(NYT・WSJ・日経等) | GPTBot/ClaudeBot 拒否 | 有料コンテンツ保護+ライセンス契約交渉 |
| OSSドキュメント(GitHub Docs・MDN等) | 全許可 | 知識普及がミッション |
| SaaS製品サイト | 全許可 | LLMOで引用獲得を優先 |
| EC(Amazon・楽天等) | 全許可 | 商品情報のAI回答経由送客を期待 |
| YMYL(医療・金融) | 全許可+免責明示 | 誤情報拡散リスクは規約で対応 |
| 出版社(書籍・専門誌) | 選択的拒否 | 有料コンテンツのみ保護 |
ライセンス契約の動向
2024年以降、OpenAI・Googleと大手メディア企業の間で「学習データライセンス契約」が次々と締結されています。NYT・WSJ・AP通信・Reuters・Conde Nast・Financial Times等が代表例で、契約額は年間数百万ドル〜数千万ドルとされています。これは「単純に拒否する」のではなく「許諾と対価」を交渉する流れの加速を示します。
各国規制の動向
EU AI Act(2024年8月発効)はAI学習データの透明性要求を強化、Code of Practice on General-Purpose AIで権利者の拒絶意思の機械可読表明を尊重する義務を規定。日本では文化庁が2024年3月に「AIと著作権に関する考え方」を公表し、著作権者の意思表示を明確化することの重要性を示しています。米国では訴訟が継続中(NYT vs OpenAI、Authors Guild vs OpenAI等)で、判例形成が進行中です。
2026年後半に予想される変化
- ai.txt / llms.txt の業界標準化(IETFまたはW3C標準化トラック)
- クローラ単位の細粒度ライセンス(学習・引用・出典明示の分離)
- 有償クロールAPIの登場(クローラ運営者がコンテンツ所有者に支払う仕組み)
- EU TDMRep への業界対応の加速
2026年5月時点の最適解は「許可するか拒否するか」の二者択一ではなく、「カテゴリ別に最適な許可レベルを設計する」段階に移行しています。本サイトを運営するKoukoku.ai 無料LLMO診断では、現状のクローラ許可設定を診断し、業種・コンテンツ特性に応じた最適設定を提示します。関連ガイドとしてLLMO基礎、llms.txt実装、JSON-LD実装、ChatGPT最適化を併せてお読みください。
よくある質問
- AIクローラは全部許可すべき?
- LLMOで引用獲得を目指す多くの企業は8クローラ全許可が基本です。ただし有料コンテンツ・出版・専門DBなど保護優先の事業では選択的拒否が必要です。
- GPTBotだけ拒否してChatGPT Searchには引用されたい場合は?
- 可能です。GPTBot(学習用)をDisallow、OAI-SearchBot(検索用)とChatGPT-User(応答用)をAllowにします。3クローラは別エージェント扱いです。
- robots.txtを無視するスクレイパーへの対処は?
- 逆引きDNSで正規クローラのIPレンジを検証します。GPTBotなら *.openai.com、ClaudeBotなら *.anthropic.com を逆引きで確認。Cloudflare Bot Management等の専門サービス導入も有効です。