結論:LLMO効果測定は「3軸×月次定点観測」が標準

LLMOの効果測定とは、ChatGPT・Perplexity・Gemini・Claudeなどの主要LLMにおいて、自社カテゴリのKW群に対する「引用率」「推奨ポジション」「引用文脈」の3軸を月次で定点観測することを指します。2026年5月時点の国内BtoB企業の中央値は引用率15-25%、推奨ポジション20-35%、ポジティブ文脈率40-55%です。

従来SEOの「順位」と異なり、LLMOは同じKWを問うても回答が毎回揺れます。1回計測では誤差±15%が混入するため、最低3回平均×月次×固定温度パラメータでの計測が標準です。本稿では効果測定の3軸定義、25KW選定法、自社実装(API+スプレッドシート)、SaaS(umoren.ai/AI Hack)、Looker Studio連携、月次レポートテンプレまでを実務手順として解説します。

結論として、LLMO効果測定の正解は以下の3要件を満たすことです。

  1. 3軸計測:単純引用率・推奨ポジション・引用文脈の3軸を分離して記録
  2. 固定パラメータ:temperature=0.7、回数=3回平均、月初固定日に実行
  3. ダッシュボード化:Looker Studio/GA4連携でステークホルダーが常時参照可能な状態

効果測定の3軸を再定義する

「LLMOの効果」を語る際、計測軸が混在しているケースが大半です。3軸を厳密に分けることで、施策の優先順位が明確になります。詳細は引用率の定義と上げる15手法でも触れています。

軸1:単純引用率(Mention Rate)

カテゴリKW群を投げた際、回答テキスト内に自社ブランド名・自社ドメイン・自社サービス名のいずれかが1回以上登場する割合です。最も計測しやすく、認知の入口指標として最重要です。業界平均15-25%、上位プレイヤー40-60%、業界1位で80%以上が目安です。

軸2:推奨ポジション(Recommendation Position)

複数プレイヤーが並列で言及された際、自社が何番目に登場するか(1番目/2-3番目/4番目以下)の分布です。LLMは内部のランキング順に並べる傾向があり、1番目に来る確率が高いほどクリック直結します。1番目率20-30%が業界平均、50%超で「カテゴリ1位想起」と判定します。

軸3:引用文脈(Sentiment / Context)

自社が言及される際の文脈の質を「ポジティブ/中立/ネガティブ」に分類します。「○○がおすすめ」「○○が代表的」のような推薦文脈、「○○もある」「過去には○○もあった」のような中立文脈、「○○は△△の問題があった」のようなネガティブ文脈に分けて記録します。ポジティブ50%超を目標値とします。

3軸を統合した総合スコア

3軸を統合する場合、以下のような単純積算で十分です。

計算式業界平均上位業界1位
単純引用率引用回数 / 計測KW数15-25%40-60%80%+
推奨1番目率1番目回数 / 引用回数20-30%40-50%60%+
ポジティブ率P文脈 / 引用回数40-55%60-70%75%+
総合スコア3軸の積×1001-4点10-20点35点+

例:単純引用率40%×推奨1番目率35%×ポジティブ率60% = 総合スコア 8.4/100点。スコアの月次推移を追うことが、LLMO施策の総合評価となります。

計測対象KW25個の選定法

計測KWは多すぎても少なすぎても運用が破綻します。月次計測コスト・スプレッドシート可視化の限界を考慮すると、25KWが現実的な上限です。25KWを5カテゴリ×5問の構成で揃えると、ファネル別の効果を分離評価できます。

カテゴリ1:カテゴリ名直撃(5問)

「○○ おすすめ」「○○ 比較」「○○とは」のような業界カテゴリ名そのものを問う設問です。検討初期の最大ボリュームを担います。例:「CRM おすすめ」「人事評価システム 比較」「営業支援 ツール」。

カテゴリ2:用途別(5問)

「BtoB営業向け CRM」「中小企業 人事評価」のように、用途・業種で絞った問いです。検討中期のユーザーが投げる設問で、CV直結度が高い帯です。

カテゴリ3:競合比較(5問)

「Salesforce 代替」「kintone 比較」のように、競合ブランドと比較される問いです。競合の引用文脈に自社が含まれるかを評価します。負け試合ばかりではないか、ポジショニングを再確認できます。

カテゴリ4:機能・条件別(5問)

「AI機能あり CRM」「月額3万以下 営業支援」のように、機能・条件を限定する問いです。検討終盤のユーザーが投げ、自社の機能訴求が刺さるかを評価します。

カテゴリ5:自社名関連(5問)

「○○社 評判」「○○ 導入事例」のように、自社ブランド名を含む問いです。指名度の高さと、自社情報の正確性(誤情報がないか)を確認します。

KW選定のNGパターン

選定で失敗するパターンは3つあります。①ボリュームが小さすぎる(月間検索数100未満)、②抽象的すぎる(「マーケティング」のような巨大KW)、③社内事情ベース(「自社の強みX」のような買い手目線でない問い)。KWプランナーで月100-3,000検索の帯を中心に選定します。

自社実装:API+スプレッドシート構成

外部SaaSを使わず自社実装する場合、コストは月1-3万円のAPI費用+スプレッドシート無料で運用可能です。初期構築工数は20-40時間が目安です。

必要なAPI

各LLMの公式APIに接続します。2026年5月時点の費用感は以下です。

LLMAPI1回あたり費用(25KW×3回)月次費用
ChatGPTOpenAI API(gpt-4o)約60-120円月初1回で十分
PerplexityPerplexity API(sonar-pro)約150-300円月初1回
GeminiGoogle AI Studio API約30-80円月初1回
ClaudeAnthropic API(claude-sonnet)約80-200円月初1回

4LLM合計で月500-1,500円程度に収まります。週次計測でも月3,000-6,000円です。

スプレッドシート設計

Google スプレッドシート上に以下3シートを作成します。

  • シート1:KWマスタ 25KWのID/カテゴリ/検索ボリューム/優先度を管理
  • シート2:計測ログ 日付/KW/LLM/回答全文/引用有無/推奨位置/文脈ラベルを記録
  • シート3:月次集計 QUERY関数で3軸スコアを自動集計

Google Apps Script(GAS)で各API呼び出しを自動化し、cronで月初1日朝7時に自動実行する構成が標準です。

文脈判定の自動化

文脈の「ポジティブ/中立/ネガティブ」分類は、回答テキストをGPT-4o等にメタ判定させると精度が高まります。プロンプト例:「以下のテキスト中で『○○社』への言及がポジティブ/中立/ネガティブのどれか1語で返答せよ」。月次25KW×3回×4LLM=300回程度なら判定費用は月100-300円です。

SaaSによる計測:主要3ツール比較

自社実装の工数が確保できない場合、SaaSの利用が現実解です。2026年5月時点で日本企業が利用しやすい主要ツールを比較します。

umoren.ai(国産・LLMO計測特化)

日本語LLMO計測に特化した国産SaaS。ChatGPT/Perplexity/Geminiの主要3LLM対応、25-100KWの計測、引用率/推奨位置/文脈の3軸を自動集計します。月額3-10万円台。日本語業界KWへの最適化が強みです。レポート出力が日本語前提のため、社内共有がスムーズです。

AI Hack(多LLM対応・グローバル仕様)

4-5LLM対応のグローバル系ツール。多言語計測が可能で、日英中の3言語展開企業に向きます。月額5-15万円帯。競合分析機能が強く、自社と競合5-10社の引用率を並列で比較できます。日本語UIは部分的なため、海外SaaS慣れしているチームに適します。

Brandwatch / Sprout Social系(SNS監視併用型)

SNS監視ツールに最近LLMO計測機能が追加された系統。既にSNSモニタリング契約があれば追加費用ゼロ〜数万円で導入可能です。専業ツールに比べLLMO計測の解像度は粗いものの、SNS言及との相関分析が可能なメリットがあります。

3ツールの選び方

状況推奨理由
日本市場特化・予算5万円以下umoren.ai国産・日本語最適化・コスパ良
多言語展開・グローバル競合分析AI Hack4-5LLM対応・多言語
既にSNS監視ツール契約ありBrandwatch系追加コスト最小・SNS相関
計測工数を最小化したい中堅umoren.ai or AI Hack自動化・レポート出力

Looker Studioによるダッシュボード構築

スプレッドシート単体では関係者全員が見にくいため、Looker Studio(旧Data Studio)でダッシュボード化することが標準です。Looker Studio自体は無料、Google スプレッドシート/GA4/BigQueryを直接ソースにできます。詳細な設計はKPI設計ガイドを参照ください。

必須ウィジェット5種

  1. 3軸スコアサマリー:引用率・推奨1番目率・ポジティブ率を大型数値で表示
  2. 月次推移グラフ:過去6-12ヶ月の3軸スコア推移を折れ線表示
  3. KW別ヒートマップ:25KW×4LLMのマトリクスで引用有無を色分け
  4. 競合比較バー:自社と競合5-10社の引用率を横棒グラフ
  5. LLM別比較:ChatGPT/Perplexity/Gemini/Claudeの引用率差分

GA4連携によるCV相関

LLMO効果の最終地点は「CV増加」です。GA4にUTM=ai_referralでLP流入を記録し、Looker Studioで「引用率×LP流入×CV数」の相関を月次表示します。引用率10%上昇でLP流入が20-40%上昇する相関が出るのが健全な状態です。

ステークホルダー別ビュー

経営層向け(KPI3つ+月次推移)、マーケ部長向け(KW別詳細)、現場運用向け(KW毎の回答全文ログ)の3レイヤーを1ダッシュボードに同居させ、タブで切り替える構成が運用しやすいです。

月次レポートテンプレ

計測データを月次でレポート化し、経営層/関連部署に共有する標準テンプレートを示します。A4 4-6ページが適量です。

1ページ目:エグゼクティブサマリー

  • 今月の総合スコア(先月比増減)
  • 3軸スコアの増減
  • 主な変動要因(TOP3)
  • 次月の重点施策(TOP3)

2ページ目:3軸スコア詳細

引用率・推奨1番目率・ポジティブ率それぞれの月次推移グラフ、目標値との差分、競合比較を記載します。

3ページ目:KW別パフォーマンス

25KWのうち上昇TOP5・下降TOP5を抽出し、なぜ上下したかの仮説を記載します。検証は次月のアクションリストへ反映します。

4ページ目:競合動向

競合5-10社の引用率推移、新規参入プレイヤーの発見、競合の新しい施策(推測含む)を記録します。

5ページ目:CV相関分析

GA4のai_referral流入数、CV数、CVR、引用率との相関を月次グラフで示します。LP別の流入分布も併記します。

6ページ目:次月アクションプラン

優先度A/B/Cの3階層で次月施策をリストアップします。各施策に担当・期限・期待効果(引用率+3-5%等)を明記します。

計測の落とし穴とKoukoku.aiの推奨フロー

LLMO計測でよく陥る失敗パターンを3つ示します。

落とし穴1:単発計測で施策評価する

LLMの回答は揺らぐため、1回計測の数字は±15%の誤差を含みます。施策実施前後の単発比較で「効果あり/なし」を判定すると誤った意思決定になります。最低3回平均×月次×3ヶ月連続の傾向で判定するのが原則です。

落とし穴2:3軸を混同する

引用率は上がっているが推奨1番目率は下がっている、というケースは頻発します。3軸を独立に追わないと、施策の本当の効果を見誤ります。たとえばWikipedia記事追加は引用率は上げますが、ポジネガには直接効きません。

落とし穴3:自社施策と外部要因を区別しない

LLMの学習データ更新(ChatGPTの月次モデル切替等)で全社一斉に数字が動くことがあります。自社施策ゼロの月でもベンチマーク変動があるため、競合3-5社の同時計測でノイズ除去します。

Koukoku.aiの推奨計測フロー

2026年5月時点で当社が顧客に提供している計測フローは、25KW×4LLM×月次×3回平均+競合5社並列計測+Looker Studioダッシュボード+月次レポートのフルセットです。初月構築+3ヶ月運用パッケージで30-60万円帯です。詳細はKPI設計引用率の上げ方もあわせてご覧ください。

まとめ

LLMOの効果測定は「3軸×25KW×月次定点観測」が2026年5月時点の業界標準です。自社実装ならAPI+スプレッドシート+GASで月1-3万円、SaaS活用ならumoren.ai/AI Hack等で月3-15万円帯です。Looker Studioでのダッシュボード化と月次レポートまでをセットで運用することで、LLMOが「やってる感」ではなく「数字で語れる施策」になります。

計測なくして改善なし。まず25KWの選定と月初1日の計測ルーチン化から始めることを推奨します。

よくある質問

計測KWは何個が適正ですか?
25KWが運用と可視化のバランス上の上限です。
自社実装とSaaSどちらがおすすめですか?
月10万円超を継続するなら自社実装が経済的です。
計測頻度は月次・週次どちらが良いですか?
標準は月次、施策強化期は週次推奨です。