LLMO時代のサイト構造設計とは
2026年5月時点、AIに引用されるかどうかはコンテンツの質だけでなく、サイト構造(情報アーキテクチャ)の設計によって大きく左右されます。ChatGPT・Perplexity・Gemini・Claudeといった大規模言語モデルは、Webページを単独で評価するのではなく、「このサイトはどのような階層で情報を整理しているか」「どのページがどのページと関連しているか」という構造ごと解釈します。
従来のSEOでは「良いコンテンツ+被リンク」が王道でした。LLMO(Large Language Model Optimization)においても被リンクやE-E-A-Tは重要ですが、それに加えてAIクローラーが迷子にならない情報設計が求められます。迷子になったAIクローラーは重要なページをスキップし、引用率が下がります。
サイト構造がLLMOに与える3つの影響
- クロール効率:適切な階層と内部リンクにより、AIクローラーが全コンテンツを網羅的に収集できる
- 文脈理解:カテゴリ構造がはっきりしているほど、AIが「このサイトの専門領域」を正確に把握する
- 引用精度:ページ間の関係性が明示されていると、AI回答の中で正確な文脈で引用される
本記事では2026年5月時点で最も効果が確認されているサイト構造設計の手法を、URL設計・内部リンク・サイトマップ・クローラー設定まで体系的に解説します。LLMOの基本概念はこちらをご確認ください。
AIクローラーがサイト構造を評価する仕組み
AIモデルがWebを参照する際、背後ではGoogleBot・GPTBot・OAI-SearchBot・ClaudeBot・PerplexityBotなど複数のクローラーが動いています。これらのクローラーは従来の検索エンジンクローラーと異なり、単純なリンクグラフだけでなくページの意味的な関係性を評価します。
AIクローラーの評価ロジック(2026年5月時点)
| 評価要素 | 具体的なシグナル | LLMO影響度 |
|---|---|---|
| URL構造の明確さ | カテゴリ/スラグ形式、パンくず一致 | 高 |
| 内部リンクの密度 | ハブページからスポークページへの誘導 | 高 |
| HTML見出し階層 | H1-H2-H3の論理的な入れ子構造 | 高 |
| 構造化データの整合性 | BreadcrumbList・Article・FAQPageのJSON-LD | 高 |
| llms.txtの存在 | AIへの明示的なコンテンツガイド | 中〜高 |
| サイトマップの鮮度 | lastmod の正確性・更新頻度 | 中 |
| クロール許可設定 | robots.txt でのAIボット許可 | 前提条件 |
クローラーが「構造を読む」順序
- robots.txt を確認してクロール許可範囲を把握
- llms.txt があれば読み込み、サイトの概要と主要コンテンツを把握
- XMLサイトマップからページ一覧を取得
- 各ページのHTMLを取得し、見出し・本文・内部リンクを解析
- JSON-LDの構造化データでエンティティ・カテゴリを確認
この順序を踏まえると、robots.txt → llms.txt → サイトマップ → 内部リンク → JSON-LDの優先順位で整備を進めるのが最も効率的です。
推奨URL設計(パンくず・カテゴリ階層・クリーンURL)
URLは「ページの住所」であり、AIクローラーにとっては「このページが何のカテゴリに属するか」を最初に判断する材料です。2026年5月時点で推奨されるURL設計の原則は以下のとおりです。
クリーンURL設計の7原則
- 小文字統一:大文字混在はURLが重複コンテンツとみなされるリスクがある
- ハイフン区切り:単語の区切りはハイフン(
-)を使用。アンダースコア(_)は非推奨 - カテゴリ階層を2〜3段に:
/カテゴリ/スラグ/または/カテゴリ/サブカテゴリ/スラグ/ - 末尾スラッシュを統一:あり・なしを混在させない(301でどちらかに統一)
- 日本語URLを避ける:パーセントエンコーディングになり可読性・クロール効率が低下
- IDパラメータを排除:
?id=123形式ではなくパスベースに変換 - 深すぎる階層を避ける:4段以上(
/a/b/c/d/)はリンクジュースが薄まる
カテゴリ階層の設計例
| 構造パターン | URL例 | 適したサイト |
|---|---|---|
| フラット(2段) | /llmo/site-structure/ |
専門特化メディア |
| シロ(3段) | /llmo/tool/site-audit/ |
複数トピックを持つメディア |
| 地域×カテゴリ(3段) | /area/tokyo/llmo/ |
地域対応サービスサイト |
パンくずとURLの一致が必須
AIクローラーはパンくずリスト(BreadcrumbList JSON-LD)とURL構造を照合します。「URLは /llmo/site-structure/ なのにパンくずが ホーム>記事一覧>サイト構造」といった不一致があると、カテゴリ解釈がずれて引用精度が下がります。URL構造・パンくず表示・BreadcrumbList JSON-LDの3者を必ず一致させてください。
内部リンク設計(ハブ&スポーク・サイロ構造)
内部リンクはAIクローラーに「どのページが重要か」「どのページがどのページと関連するか」を伝える最も直接的なシグナルです。2026年5月時点のLLMO観点では、ハブ&スポーク構造とサイロ構造を組み合わせた設計が最も効果的とされています。
ハブ&スポーク構造の実装
ハブページ(カテゴリTOP・ピラーコンテンツ)からスポークページ(個別記事)へリンクし、各スポークページからはハブページへ返す双方向リンクを設計します。
- ハブページの条件:そのカテゴリの全体像を解説する3,000字以上の包括的なコンテンツ
- スポークページの条件:特定トピックに特化した1,500〜3,000字の専門コンテンツ
- リンク数の目安:ハブ→スポークは10〜20本、スポーク→ハブは1〜3本
- アンカーテキスト:「こちら」「詳細はこちら」は避け、キーワードを含む説明的なテキストを使用
サイロ構造でテーマ権威性を構築
サイロ構造とは、関連するコンテンツを同一カテゴリ内で相互リンクさせ、カテゴリ間のリンクを最小限にする設計です。AIはサイロ構造のサイトを「特定分野の専門家」として認識しやすくなります。
- LLMO関連記事は
/llmo/ディレクトリ内で相互リンク - ChatGPT広告関連は
/chatgpt-ad/ディレクトリ内で完結 - カテゴリをまたぐリンクは「関連記事」として明示的に区別
避けるべき内部リンクのアンチパターン
- 孤立ページ(どこからもリンクされないページ):AIクローラーに発見されない
- リンク切れ(404):信頼性低下・クロール予算の浪費
- 1ページあたり100本超の内部リンク:リンクジュースの希薄化
- nofollow の多用:重要ページへの PageRank 流入を遮断
詳しい構造化データとの連携については構造化データ実装ガイドを参照してください。
サイトマップ設計(XML・HTML・llms.txt の役割分担)
2026年5月時点では、従来のXMLサイトマップに加えてllms.txtがAI向けの新しいサイトガイドとして注目されています。3種類のサイトマップはそれぞれ役割が異なり、併用が推奨されます。
3種類のサイトマップの役割比較
| 種類 | 主な読者 | フォーマット | 更新頻度 |
|---|---|---|---|
| XMLサイトマップ | Googlebot・Bingbot | XML(機械可読) | ページ追加のたびに |
| HTMLサイトマップ | ユーザー・AIクローラー | HTML(人間可読) | 月1回以上 |
| llms.txt | LLM・AIクローラー | Markdown(AI可読) | コンテンツ追加のたびに |
XMLサイトマップの最適化ポイント
<lastmod>はISO 8601形式(2026-05-14)で正確に記載<priority>は全ページ同一値を避け、重要度に応じて0.5〜1.0で差をつける- 1ファイルあたり上限50,000URL・10MB。超える場合はサイトマップインデックスで分割
- Google Search Console でサイトマップURLを送信し、エラーを週次確認
llms.txt の基本構造
llms.txtはサイトルート(https://example.com/llms.txt)に設置するMarkdownファイルです。AIに「このサイトは何者か・何を扱うか・主要コンテンツはどこか」を宣言します。llms.txt の詳細実装方法はこちらを参照してください。
# サイト名
> このサイトの1行説明
## 主要コンテンツ
- [ページ名](URL): ページの説明
- [ページ名](URL): ページの説明
## 提供者
- 運営会社: 株式会社○○
- 連絡先: info@example.com
ページ単位の最適化(H1-H3階層・見出し密度)
AIクローラーはHTMLの見出し構造(H1〜H3)を文書の目次として解釈し、どのセクションが何のトピックを扱うかを把握します。見出し階層が崩れていると、AIは文書の論理構造を誤解し、引用時に不正確な文脈で情報を使用します。
見出し階層の正しい設計ルール
- H1は1ページに1個:記事タイトルのみ。複数使用はAIの文書理解を混乱させる
- H2はセクション分割:1記事につき5〜10個が目安。各H2は独立したトピックを担う
- H3はH2の補足:各H2に対して2〜4個のH3でサブトピックを展開
- H4以降は極力使用しない:階層が深すぎるとAIの構造把握精度が低下
- 見出し内にキーワードを含める:ただし不自然なキーワード詰め込みはNG
見出し密度と本文バランス
見出し1個あたりの本文量の目安は300〜600字です。見出しばかりで本文が少ない(100字未満/H2)ページは、AIから「薄いコンテンツ」と判断されやすく、引用率が低下します。逆に見出しなしで2,000字以上の連続本文も、AIが構造を把握しにくいため非推奨です。
引用されやすい文体の特徴
- 最初の段落(冒頭100字以内)に結論・定義を置く
- 箇条書き・番号リストで情報を整理する
- 具体的な数値・比率・年月日を含める
- 「〜と言われています」より「〜です(○○社調査、2026年)」と断言する
- 一文は50〜80字を目安に。長文は分割する
AEO(Answer Engine Optimization)との連携についてはAEO完全ガイドで詳しく解説しています。
モバイル・速度最適化(Core Web VitalsとLLMO)
2026年5月時点では、Core Web VitalsはGoogleのランキング要因として定着しており、AIクローラーもページ表示速度をコンテンツ品質の代理指標として参照しているとされています。表示が遅いページはクロール予算を消費しやすく、結果としてAIに発見・収集されにくくなります。
LLMOに関連するCore Web Vitals指標
- LCP(最大コンテンツ描画):2.5秒以下が目標。ファーストビューの画像・見出しが対象
- INP(インタラクション応答時間):200ms以下。ボタン・フォームの反応速度
- CLS(レイアウトシフト):0.1以下。広告・画像の後読み込みによるズレを防ぐ
速度改善の優先施策
- 画像最適化:WebP形式・
loading="lazy"・width/height属性の明示 - CSS・JSの最小化:不要なファイルを削除、重要CSSをインライン化
- サーバー応答速度(TTFB):200ms以下を目標。キャッシュ設定・CDNの活用
- フォント最適化:
font-display: swapでテキスト表示をブロックしない - プリロード設定:ファーストビューのLCP要素を
<link rel="preload">で先読み
モバイルファーストとAIクローラーの関係
Googleのモバイルファーストインデックスにより、モバイル版のHTMLがインデックス対象になります。AIクローラーも同様にモバイル版コンテンツを参照することが増えています。PC版とモバイル版でコンテンツ量が異なる場合(モバイルでアコーディオン折り畳みなど)、AIがPC版のみ収集する場合があるため、重要コンテンツはモバイルでも展開済みの状態で提供することを推奨します。
robots.txt・クローラー設定(GoogleBot・GPTBot・OAI-SearchBot)
AIに引用されるための大前提は「AIクローラーにクロールを許可すること」です。2026年5月時点では、多くのサイトがOpenAIやAnthropicのクローラーをデフォルトでブロックしており、これが引用率低下の隠れた原因になっているケースが散見されます。
主要AIクローラー一覧(2026年5月時点)
| クローラー名 | 運営会社 | 対応モデル | User-Agent |
|---|---|---|---|
| GPTBot | OpenAI | ChatGPT | GPTBot |
| OAI-SearchBot | OpenAI | ChatGPT Search | OAI-SearchBot |
| ClaudeBot | Anthropic | Claude | ClaudeBot |
| PerplexityBot | Perplexity AI | Perplexity | PerplexityBot |
| Googlebot | Gemini・AI Overview | Googlebot | |
| bingbot | Microsoft | Copilot | bingbot |
推奨 robots.txt 設定
LLMOを積極的に行う場合は、全AIクローラーに対してクロールを許可することを推奨します。
User-agent: *
Allow: /
# 管理画面・プライベートエリアのみブロック
Disallow: /admin/
Disallow: /private/
Disallow: /wp-admin/
# AIクローラーを明示的に許可(デフォルト許可の強調)
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/llms.txt
クロール許可・拒否の判断基準
- 許可すべきページ:全ての公開コンテンツ(記事・製品ページ・LP・FAQ)
- ブロックすべきページ:管理画面・決済ページ・会員専用コンテンツ・重複ページ(
?sort=等のパラメータURL) - noindex と Disallow の使い分け:検索インデックスから外したいが内部リンクは残したいページは
noindex、クロール自体を防ぎたいページは Disallow
E-E-A-T(経験・専門性・権威性・信頼性)との組み合わせについてはE-E-A-T強化ガイドも参照してください。
よくある質問
- Q. 既存サイトのURL構造を変更する場合、どう対応すればよいですか?
- 301リダイレクトを全旧URLに設定し、XMLサイトマップとllms.txtを新URLに更新してください。Google Search Consoleのアドレス変更ツールは必須です。URLの変更は一時的な順位低下を招くため、段階的移行よりも一括移行の方がリカバリーが早い傾向があります。
- Q. 小規模サイト(10ページ程度)でもサイロ構造は必要ですか?
- 10ページ未満の小規模サイトでは厳密なサイロは不要です。ただし、将来の拡張を見越して最初からカテゴリを意識したURL設計(
/カテゴリ/スラグ/)を採用することを推奨します。規模が大きくなってからの構造変更はSEO・LLMO両面でコストが高いため、初期設計が重要です。 - Q. llms.txt は必須ですか? 効果はありますか?
- 2026年5月時点では必須ではありませんが、設置コストが低く(1ファイルの作成のみ)、GPTBot・ClaudeBotなど主要クローラーが参照を開始しているため、設置を強く推奨します。引用精度の向上が複数のSEO事業者から報告されています。詳細はllms.txtガイドで確認できます。
- Q. 内部リンクのアンカーテキストに「こちら」を使ってはいけない理由は?
- AIクローラーはアンカーテキストをリンク先ページの文脈理解に使用します。「こちら」「詳しくはこちら」では、リンク先ページのトピックを伝えられません。「LLMOの構造化データ実装方法」のように、リンク先コンテンツを説明するテキストを使うと、AIクローラーがリンク先ページのカテゴリ・専門性をより正確に把握します。
- Q. パンくずリストはどこに設置すればよいですか?
- ページ本文コンテンツの直前(ファーストビュー内)が最適です。ヘッダー直下またはH1タイトル直前に設置します。HTML表示上のパンくずと、BreadcrumbList JSON-LDの内容を必ず一致させてください。どちらか一方だけでは効果が半減します。
- Q. HTMLサイトマップのページは検索インデックスに含めるべきですか?
- 原則としてnoindexを推奨します。HTMLサイトマップは人間・AIが全ページの概要を把握するための補助ページであり、それ自体が検索上位を狙う必要はありません。
<meta name="robots" content="noindex, follow">を設定し、内部リンクとしてのlinkジュースは流しつつインデックスから除外するのが一般的な設計です。
まとめ:AIに引用されるサイト構造設計のチェックリスト
2026年5月時点でのLLMO対応サイト構造設計を10項目で整理します。未対応の項目から優先的に着手してください。
- クリーンURL設計(ハイフン区切り・末尾スラッシュ統一・パラメータURL排除)
- カテゴリ2〜3段の階層設計(サイロ構造)
- パンくずリストとBreadcrumbList JSON-LDの一致
- ハブ&スポーク内部リンク設計(孤立ページゼロ)
- XMLサイトマップ送信(lastmod・priority設定)
- llms.txt 設置(ルートドメイン)
- H1×1・H2×5〜10・H3×各H2に2〜4個の見出し設計
- Core Web Vitals合格(LCP 2.5秒以下・CLS 0.1以下)
- robots.txt でAIクローラー(GPTBot・OAI-SearchBot・ClaudeBot等)を許可
- 管理画面・重複ページのDisallow設定
サイト構造の整備はLLMO施策の土台であり、コンテンツ品質や構造化データの効果を最大化するための前提条件です。一度整えれば長期にわたって安定した引用率向上が見込めます。
自社サイトのLLMO対応状況を診断・改善したい方はお気軽にご相談ください。
無料相談はこちらよくある質問
- llms.txtはどのサイトでも必要ですか?
- 必須ではありませんが、コンテンツが豊富なサイトでは設置を推奨します。AIが参照すべきページを明示することで引用精度が向上します。設置は5分程度で完了します。
- GPTBotをブロックするとSEOに影響しますか?
- GoogleBotには影響しません。GPTBotはOpenAI独自のクローラーで、ブロックするとChatGPT Searchでの引用機会が減少します。引用戦略に応じて許可/ブロックを選択してください。