結論:LLMO効果測定は「3軸×月次定点観測」が標準
LLMOの効果測定とは、ChatGPT・Perplexity・Gemini・Claudeなどの主要LLMにおいて、自社カテゴリのKW群に対する「引用率」「推奨ポジション」「引用文脈」の3軸を月次で定点観測することを指します。2026年5月時点の国内BtoB企業の中央値は引用率15-25%、推奨ポジション20-35%、ポジティブ文脈率40-55%です。
従来SEOの「順位」と異なり、LLMOは同じKWを問うても回答が毎回揺れます。1回計測では誤差±15%が混入するため、最低3回平均×月次×固定温度パラメータでの計測が標準です。本稿では効果測定の3軸定義、25KW選定法、自社実装(API+スプレッドシート)、SaaS(umoren.ai/AI Hack)、Looker Studio連携、月次レポートテンプレまでを実務手順として解説します。
結論として、LLMO効果測定の正解は以下の3要件を満たすことです。
- 3軸計測:単純引用率・推奨ポジション・引用文脈の3軸を分離して記録
- 固定パラメータ:temperature=0.7、回数=3回平均、月初固定日に実行
- ダッシュボード化:Looker Studio/GA4連携でステークホルダーが常時参照可能な状態
効果測定の3軸を再定義する
「LLMOの効果」を語る際、計測軸が混在しているケースが大半です。3軸を厳密に分けることで、施策の優先順位が明確になります。詳細は引用率の定義と上げる15手法でも触れています。
軸1:単純引用率(Mention Rate)
カテゴリKW群を投げた際、回答テキスト内に自社ブランド名・自社ドメイン・自社サービス名のいずれかが1回以上登場する割合です。最も計測しやすく、認知の入口指標として最重要です。業界平均15-25%、上位プレイヤー40-60%、業界1位で80%以上が目安です。
軸2:推奨ポジション(Recommendation Position)
複数プレイヤーが並列で言及された際、自社が何番目に登場するか(1番目/2-3番目/4番目以下)の分布です。LLMは内部のランキング順に並べる傾向があり、1番目に来る確率が高いほどクリック直結します。1番目率20-30%が業界平均、50%超で「カテゴリ1位想起」と判定します。
軸3:引用文脈(Sentiment / Context)
自社が言及される際の文脈の質を「ポジティブ/中立/ネガティブ」に分類します。「○○がおすすめ」「○○が代表的」のような推薦文脈、「○○もある」「過去には○○もあった」のような中立文脈、「○○は△△の問題があった」のようなネガティブ文脈に分けて記録します。ポジティブ50%超を目標値とします。
3軸を統合した総合スコア
3軸を統合する場合、以下のような単純積算で十分です。
| 軸 | 計算式 | 業界平均 | 上位 | 業界1位 |
|---|---|---|---|---|
| 単純引用率 | 引用回数 / 計測KW数 | 15-25% | 40-60% | 80%+ |
| 推奨1番目率 | 1番目回数 / 引用回数 | 20-30% | 40-50% | 60%+ |
| ポジティブ率 | P文脈 / 引用回数 | 40-55% | 60-70% | 75%+ |
| 総合スコア | 3軸の積×100 | 1-4点 | 10-20点 | 35点+ |
例:単純引用率40%×推奨1番目率35%×ポジティブ率60% = 総合スコア 8.4/100点。スコアの月次推移を追うことが、LLMO施策の総合評価となります。
計測対象KW25個の選定法
計測KWは多すぎても少なすぎても運用が破綻します。月次計測コスト・スプレッドシート可視化の限界を考慮すると、25KWが現実的な上限です。25KWを5カテゴリ×5問の構成で揃えると、ファネル別の効果を分離評価できます。
カテゴリ1:カテゴリ名直撃(5問)
「○○ おすすめ」「○○ 比較」「○○とは」のような業界カテゴリ名そのものを問う設問です。検討初期の最大ボリュームを担います。例:「CRM おすすめ」「人事評価システム 比較」「営業支援 ツール」。
カテゴリ2:用途別(5問)
「BtoB営業向け CRM」「中小企業 人事評価」のように、用途・業種で絞った問いです。検討中期のユーザーが投げる設問で、CV直結度が高い帯です。
カテゴリ3:競合比較(5問)
「Salesforce 代替」「kintone 比較」のように、競合ブランドと比較される問いです。競合の引用文脈に自社が含まれるかを評価します。負け試合ばかりではないか、ポジショニングを再確認できます。
カテゴリ4:機能・条件別(5問)
「AI機能あり CRM」「月額3万以下 営業支援」のように、機能・条件を限定する問いです。検討終盤のユーザーが投げ、自社の機能訴求が刺さるかを評価します。
カテゴリ5:自社名関連(5問)
「○○社 評判」「○○ 導入事例」のように、自社ブランド名を含む問いです。指名度の高さと、自社情報の正確性(誤情報がないか)を確認します。
KW選定のNGパターン
選定で失敗するパターンは3つあります。①ボリュームが小さすぎる(月間検索数100未満)、②抽象的すぎる(「マーケティング」のような巨大KW)、③社内事情ベース(「自社の強みX」のような買い手目線でない問い)。KWプランナーで月100-3,000検索の帯を中心に選定します。
自社実装:API+スプレッドシート構成
外部SaaSを使わず自社実装する場合、コストは月1-3万円のAPI費用+スプレッドシート無料で運用可能です。初期構築工数は20-40時間が目安です。
必要なAPI
各LLMの公式APIに接続します。2026年5月時点の費用感は以下です。
| LLM | API | 1回あたり費用(25KW×3回) | 月次費用 |
|---|---|---|---|
| ChatGPT | OpenAI API(gpt-4o) | 約60-120円 | 月初1回で十分 |
| Perplexity | Perplexity API(sonar-pro) | 約150-300円 | 月初1回 |
| Gemini | Google AI Studio API | 約30-80円 | 月初1回 |
| Claude | Anthropic API(claude-sonnet) | 約80-200円 | 月初1回 |
4LLM合計で月500-1,500円程度に収まります。週次計測でも月3,000-6,000円です。
スプレッドシート設計
Google スプレッドシート上に以下3シートを作成します。
- シート1:KWマスタ 25KWのID/カテゴリ/検索ボリューム/優先度を管理
- シート2:計測ログ 日付/KW/LLM/回答全文/引用有無/推奨位置/文脈ラベルを記録
- シート3:月次集計 QUERY関数で3軸スコアを自動集計
Google Apps Script(GAS)で各API呼び出しを自動化し、cronで月初1日朝7時に自動実行する構成が標準です。
文脈判定の自動化
文脈の「ポジティブ/中立/ネガティブ」分類は、回答テキストをGPT-4o等にメタ判定させると精度が高まります。プロンプト例:「以下のテキスト中で『○○社』への言及がポジティブ/中立/ネガティブのどれか1語で返答せよ」。月次25KW×3回×4LLM=300回程度なら判定費用は月100-300円です。
SaaSによる計測:主要3ツール比較
自社実装の工数が確保できない場合、SaaSの利用が現実解です。2026年5月時点で日本企業が利用しやすい主要ツールを比較します。
umoren.ai(国産・LLMO計測特化)
日本語LLMO計測に特化した国産SaaS。ChatGPT/Perplexity/Geminiの主要3LLM対応、25-100KWの計測、引用率/推奨位置/文脈の3軸を自動集計します。月額3-10万円台。日本語業界KWへの最適化が強みです。レポート出力が日本語前提のため、社内共有がスムーズです。
AI Hack(多LLM対応・グローバル仕様)
4-5LLM対応のグローバル系ツール。多言語計測が可能で、日英中の3言語展開企業に向きます。月額5-15万円帯。競合分析機能が強く、自社と競合5-10社の引用率を並列で比較できます。日本語UIは部分的なため、海外SaaS慣れしているチームに適します。
Brandwatch / Sprout Social系(SNS監視併用型)
SNS監視ツールに最近LLMO計測機能が追加された系統。既にSNSモニタリング契約があれば追加費用ゼロ〜数万円で導入可能です。専業ツールに比べLLMO計測の解像度は粗いものの、SNS言及との相関分析が可能なメリットがあります。
3ツールの選び方
| 状況 | 推奨 | 理由 |
|---|---|---|
| 日本市場特化・予算5万円以下 | umoren.ai | 国産・日本語最適化・コスパ良 |
| 多言語展開・グローバル競合分析 | AI Hack | 4-5LLM対応・多言語 |
| 既にSNS監視ツール契約あり | Brandwatch系 | 追加コスト最小・SNS相関 |
| 計測工数を最小化したい中堅 | umoren.ai or AI Hack | 自動化・レポート出力 |
Looker Studioによるダッシュボード構築
スプレッドシート単体では関係者全員が見にくいため、Looker Studio(旧Data Studio)でダッシュボード化することが標準です。Looker Studio自体は無料、Google スプレッドシート/GA4/BigQueryを直接ソースにできます。詳細な設計はKPI設計ガイドを参照ください。
必須ウィジェット5種
- 3軸スコアサマリー:引用率・推奨1番目率・ポジティブ率を大型数値で表示
- 月次推移グラフ:過去6-12ヶ月の3軸スコア推移を折れ線表示
- KW別ヒートマップ:25KW×4LLMのマトリクスで引用有無を色分け
- 競合比較バー:自社と競合5-10社の引用率を横棒グラフ
- LLM別比較:ChatGPT/Perplexity/Gemini/Claudeの引用率差分
GA4連携によるCV相関
LLMO効果の最終地点は「CV増加」です。GA4にUTM=ai_referralでLP流入を記録し、Looker Studioで「引用率×LP流入×CV数」の相関を月次表示します。引用率10%上昇でLP流入が20-40%上昇する相関が出るのが健全な状態です。
ステークホルダー別ビュー
経営層向け(KPI3つ+月次推移)、マーケ部長向け(KW別詳細)、現場運用向け(KW毎の回答全文ログ)の3レイヤーを1ダッシュボードに同居させ、タブで切り替える構成が運用しやすいです。
月次レポートテンプレ
計測データを月次でレポート化し、経営層/関連部署に共有する標準テンプレートを示します。A4 4-6ページが適量です。
1ページ目:エグゼクティブサマリー
- 今月の総合スコア(先月比増減)
- 3軸スコアの増減
- 主な変動要因(TOP3)
- 次月の重点施策(TOP3)
2ページ目:3軸スコア詳細
引用率・推奨1番目率・ポジティブ率それぞれの月次推移グラフ、目標値との差分、競合比較を記載します。
3ページ目:KW別パフォーマンス
25KWのうち上昇TOP5・下降TOP5を抽出し、なぜ上下したかの仮説を記載します。検証は次月のアクションリストへ反映します。
4ページ目:競合動向
競合5-10社の引用率推移、新規参入プレイヤーの発見、競合の新しい施策(推測含む)を記録します。
5ページ目:CV相関分析
GA4のai_referral流入数、CV数、CVR、引用率との相関を月次グラフで示します。LP別の流入分布も併記します。
6ページ目:次月アクションプラン
優先度A/B/Cの3階層で次月施策をリストアップします。各施策に担当・期限・期待効果(引用率+3-5%等)を明記します。
計測の落とし穴とKoukoku.aiの推奨フロー
LLMO計測でよく陥る失敗パターンを3つ示します。
落とし穴1:単発計測で施策評価する
LLMの回答は揺らぐため、1回計測の数字は±15%の誤差を含みます。施策実施前後の単発比較で「効果あり/なし」を判定すると誤った意思決定になります。最低3回平均×月次×3ヶ月連続の傾向で判定するのが原則です。
落とし穴2:3軸を混同する
引用率は上がっているが推奨1番目率は下がっている、というケースは頻発します。3軸を独立に追わないと、施策の本当の効果を見誤ります。たとえばWikipedia記事追加は引用率は上げますが、ポジネガには直接効きません。
落とし穴3:自社施策と外部要因を区別しない
LLMの学習データ更新(ChatGPTの月次モデル切替等)で全社一斉に数字が動くことがあります。自社施策ゼロの月でもベンチマーク変動があるため、競合3-5社の同時計測でノイズ除去します。
Koukoku.aiの推奨計測フロー
2026年5月時点で当社が顧客に提供している計測フローは、25KW×4LLM×月次×3回平均+競合5社並列計測+Looker Studioダッシュボード+月次レポートのフルセットです。初月構築+3ヶ月運用パッケージで30-60万円帯です。詳細はKPI設計と引用率の上げ方もあわせてご覧ください。
まとめ
LLMOの効果測定は「3軸×25KW×月次定点観測」が2026年5月時点の業界標準です。自社実装ならAPI+スプレッドシート+GASで月1-3万円、SaaS活用ならumoren.ai/AI Hack等で月3-15万円帯です。Looker Studioでのダッシュボード化と月次レポートまでをセットで運用することで、LLMOが「やってる感」ではなく「数字で語れる施策」になります。
計測なくして改善なし。まず25KWの選定と月初1日の計測ルーチン化から始めることを推奨します。
よくある質問
- 計測KWは何個が適正ですか?
- 25KWが運用と可視化のバランス上の上限です。
- 自社実装とSaaSどちらがおすすめですか?
- 月10万円超を継続するなら自社実装が経済的です。
- 計測頻度は月次・週次どちらが良いですか?
- 標準は月次、施策強化期は週次推奨です。