Zero-shot・One-shot・Few-shotの定義と違い

Few-shot学習Chain-of-Thought(CoT)プロンプティングは、2026年5月時点においてプロンプト設計の中心的な手法として定着しています。LLMの精度を飛躍的に引き上げるこの2技術を正しく理解・組み合わせることで、マーケティング・営業・法務・開発のあらゆる業務において、より高品質なアウトプットを安定して得られるようになります。

本記事では、Few-shot学習とChain-of-Thoughtそれぞれの仕組みを基礎から解説し、組み合わせパターン・ビジネス活用事例・よくある失敗まで、実践に直結する形で体系的にまとめます。プロンプトエンジニアリングの全体像を把握した上で、この記事で個別手法を深掘りすることを推奨します。

ショット数による分類

「ショット(shot)」とは、プロンプト内に提示する例示(入出力のサンプル)の数を指します。ショット数の違いがLLMの挙動に与える影響は、タスクの種類・モデルの規模・ドメインの専門性によって大きく変わります。

手法 例示数 特徴 最適なシーン
Zero-shot 0件 指示のみ。モデルの事前学習知識のみで回答する 一般知識・汎用的なタスク・試作フェーズ
One-shot 1件 1例を見せることで出力の方向性を固定する フォーマット統一・文体の引き継ぎ
Few-shot 2〜8件 複数の例でパターンを学習させ、精度と安定性を高める 分類・抽出・コード生成・翻訳スタイル固定
Many-shot 8件以上 より多くの例で汎化させる(文脈長の制約あり) Fine-tuningの代替・長文脈モデルでの精度強化

Zero-shotとFew-shotの精度差(実測値)

Googleの研究(Wei et al. 2022)では、算数の文章題においてGPT-3 Zero-shotの正答率が約18%だったのに対し、8-shot Few-shotでは約62%に上昇したことが報告されています。2026年5月時点においても、GPT-4oやClaude 3.7 Sonnetなどの最新モデルでさえ、ニッチな業務タスクではFew-shotによる精度向上が20〜40ポイント生じることが実務上の知見として蓄積されています。

Few-shotが特に有効な4つのシーン

Few-shotプロンプティングはあらゆるタスクに有効ですが、特に効果が顕著なシーンがあります。2026年5月時点での実務データに基づき、代表的な4シーンと各シーンでの使い方を解説します。

コード生成・変換・デバッグ

コード生成タスクでは、Few-shotによって「どのスタイル・どのライブラリ・どの命名規則で書くか」をモデルに伝えられます。例示なしでコードを生成させると汎用スタイルで出力されますが、2〜3件の自社コードをサンプルとして与えると、既存コードベースと整合したスタイルで生成されます。TypeScriptへの変換・SQLクエリの最適化・テストコードの自動生成など、繰り返し発生するコーディング業務での精度向上に直結します。

ラベル分類・感情分析

カスタマーレビューの感情分類・問い合わせのカテゴリ振り分け・コンテンツのトーン判定など、独自ラベルを使う分類タスクではFew-shotが必須です。Zero-shotでは「ポジティブ/ネガティブ」のような汎用ラベルに引っ張られますが、Few-shotで「クレーム/要望/感謝/問い合わせ」といった自社定義ラベルの例を与えることで、独自分類基準に沿った仕分けが可能になります。

スタイル指定付き翻訳・リライト

単純な翻訳や要約だけでなく、「敬語レベル」「業界用語の使い方」「文末表現の統一」など、ブランドボイスに沿ったスタイル固定が必要な場合にFew-shotが強力に機能します。1〜2件の理想的な出力例を見せるだけで、モデルがそのスタイルパターンを自動的に模倣します。

構造化データ抽出・フォーマット変換

PDF文書から特定フィールドを抽出してJSONで返す・議事録から「決定事項」「アクション」「担当者」を抜き出すなど、決まった構造でデータを取り出すタスクでは、Few-shotで入出力ペアを2〜3件示すことで、ゼロ指示では生じるフォーマット崩れが劇的に減少します。

良いFew-shotの例の選び方:3つの原則

Few-shotは「例を入れれば必ず良くなる」わけではありません。例の質・多様性・順序が最終的な精度に決定的な影響を与えます。2026年5月時点の研究・実務知見から導かれた「良いFew-shotの3原則」を解説します。

原則1:タスクの代表例を網羅する

Few-shotの例は、タスク空間の「典型例」を幅広くカバーしている必要があります。感情分類であれば「明確なポジティブ」「明確なネガティブ」だけでなく「曖昧なケース」も含めることで、境界事例の精度が格段に向上します。偏った例だけを与えると、モデルがバイアスを学習してしまいます。同じカテゴリばかりの例は、そのカテゴリに過学習する原因になるため注意が必要です。

原則2:例の順序に気を配る

LLMは後ろの例(最後に提示した例)の影響を強く受ける「近接バイアス(Recency Bias)」を持つことが確認されています。最後の例に最も「難しい」または「典型的な」ケースを置くと、精度が安定します。特に分類タスクでは、最後の例と同じラベルに引っ張られる傾向があるため、ランダムな順序で配置するか、最後に「正答が分散している例」を置くことが推奨されます。

原則3:例はできるだけ短く・明快に

1件の例が長すぎると、モデルが例の構造を把握しにくくなり、かつ文脈長(コンテキストウィンドウ)を圧迫します。1件あたりの例は、入力+出力合わせて200トークン以下に収めることを目安にしてください。複雑なタスクであれば、例の数を減らして1件の質を上げる方が効果的です。

チェック項目 良い例 悪い例
多様性 各ラベル・パターンを1件ずつ網羅 同じラベルの例ばかり3件
長さ 入出力ペアが1〜3文で収まる 入力が500字・出力も長文
一貫性 フォーマットが全例で統一されている 例ごとに構造・記号・改行が異なる
関連性 本番タスクと同じ分布・ドメインの例 業種・言語・文体がズレた例

Chain-of-Thought(CoT)とは:段階的推論が精度を変える理由

Chain-of-Thought(CoT)プロンプティングとは、LLMに対して「最終回答を直接出力する」のではなく「推論ステップを順番に示してから回答する」よう促す手法です。2022年にGoogleの研究チームが発表した論文「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」が出発点で、2026年5月時点においてもLLMの推論精度を高める最も効果的な手法の一つとして広く採用されています。

CoTが機能する根本的な理由は、LLMの内部処理の特性にあります。LLMはトークンを逐次的に生成するモデルであり、「前のトークン」に基づいて「次のトークン」を選択します。つまり、推論ステップを明示的に生成させることで、より後のトークン(=最終回答)が正確なステップに基づいて生成される確率が高まるのです。詳しくはLLMとはの記事で基礎を確認できます。

CoTなし vs CoTありの比較

以下は、複雑な算数の文章題に対するChatGPT-4oの回答の差異を示した例です(2026年5月時点)。

  • CoTなし:「りんごが3個、みかんが2個あります。2日後にりんごが2倍になり、みかんが3個追加されました。合計はいくつですか?」→「11個」(誤答)
  • CoTあり(ステップバイステップで考えて):「まずりんごは3×2=6個。みかんは2+3=5個。合計は6+5=11個。」→「11個」(正答、かつ検証可能)

この例では偶然同じ数字ですが、推論の可視化により「どこで間違えたか」を追跡できる点がビジネス現場での重要なメリットです。複数ステップにまたがる論理推論・法的判断・財務計算・コードのデバッグにおいて、CoTは欠かせない手法です。

CoTを機能させる基本プロンプトパターン

CoTを引き出す最もシンプルな指示は「ステップバイステップで考えてください(Let's think step by step)」という一文を末尾に付加することです。この一文だけで推論チェーンが始まり、複雑な計算・論理問題・法的判断において正答率が大幅に改善します。他にも「回答する前に、考え方を説明してください」「推論の根拠を箇条書きで示してから、最終的な結論を述べてください」といったバリエーションが現場で広く使われています。

Zero-shot CoT:例示なしで推論を引き出す

Zero-shot CoTとは、Few-shotの例示を使わずに「ステップバイステップで考えて」という一言だけで推論チェーンを引き出す手法です。2022年のKojima et al.の論文「Large Language Models are Zero-Shot Reasoners」で実証されて以来、最もコスパの良いCoT手法として普及しています。

Zero-shot CoTが有効な条件

Zero-shot CoTは以下の条件下で特に効果を発揮します。

  • タスクが論理的・算術的な推論を含む(複数ステップの計算・条件分岐・推論)
  • 例示を準備する時間がない即席の用途
  • 使用モデルが十分な規模を持つ(GPT-4o・Claude 3.5以上が目安)
  • 答えの正誤を後から検証できる構造になっている

逆に、スタイル・フォーマットの固定が必要なタスク(ブランドボイスに沿った文章生成・独自ラベルの分類)では、Zero-shot CoTだけでは不十分で、Few-shotとの組み合わせが必要になります。

Zero-shot CoTの実装テンプレート

2026年5月時点の実務で使われる代表的なZero-shot CoTプロンプトパターンを以下に示します。

  • 「回答する前に、段階的な推論をステップ形式で書き出してください。その後、最終的な結論を【回答】として記述してください。」
  • 「この問題について、まず前提・仮定を明確にし、次に論理的なステップを順番に展開してから、結論を述べてください。」
  • 「あなたはシニア法務担当者です。以下の契約条文について、(1)リスクの特定、(2)影響の評価、(3)改善案の提示、の順に考察してください。」

Tree-of-Thought・ReActとの比較

CoTを発展させたいくつかの上位手法が2024〜2026年にかけて実務に普及しています。2026年5月時点の状況を踏まえ、主要な4手法を横断比較します。AIエージェントと組み合わせる場合は、ReActが特に重要な手法となります。

4手法の横断比較表

手法 推論の構造 得意タスク 実装難易度 コスト
Chain-of-Thought(CoT) 線形(1本の推論チェーン) 算数・論理・法的判断・説明生成 ★☆☆(低)
Tree-of-Thought(ToT) 木構造(複数の仮説を並列探索) 複雑な計画立案・数学証明・ゲーム戦略 ★★★(高) 高(多数API呼び出し)
ReAct(Reason + Act) 推論と行動の交互ループ Web検索・ツール使用・情報収集エージェント ★★☆(中) 中(ツール呼び出し数による)
Self-Consistency 複数の独立した推論パスの多数決 正答率が重要な算術・QA・分類 ★★☆(中) 中(複数回呼び出し)

実務での選び方

日常的なビジネスタスクにはCoT(特にZero-shot CoT)で十分です。複数の解法を比較検討した上で最適案を選ぶ必要がある設計タスク・事業計画の立案にはToTを検討します。RAGやWeb検索と組み合わせた情報収集・多段階タスクの自動化にはReActが最適です。重要な意思決定や医療・法務など高精度が必要なドメインではSelf-Consistencyを使い、複数回の推論結果の多数決を取ります。RAGとはの記事と合わせて読むことで、ReActとRAGの組み合わせパターンの理解が深まります。

Few-shot + CoTの組み合わせパターン

Few-shotとCoTを組み合わせたFew-shot CoTは、2つの手法の相乗効果により、単体使用よりも高い精度と安定性を実現します。2026年5月時点のLLM活用において、高精度が求められる業務タスクではこの組み合わせがデファクトスタンダードになっています。

Few-shot CoTの基本構造

Few-shot CoTのプロンプトは「Q(問題)→ A(推論ステップ付きの回答)」というペアを複数件並べた後に、解かせたい問題を投入する構造です。推論ステップを例示に含めることで、モデルが「推論を展開してから答えを出す」というパターンを学習します。例示の推論ステップは「(1)...、(2)...、結論:...」のような構造化された形式にすると、本番タスクでも同じ構造が再現されやすくなります。

業務別の組み合わせパターン

  • 財務分析:Few-shot(過去の財務データ分析例2件) + CoT(「前年比・利益率・キャッシュフローの順に検討してから結論」) → 分析抜け漏れが大幅に減少
  • 契約審査:Few-shot(リスク分類例3件) + CoT(「法的リスク→ビジネスリスク→交渉ポイントの順に推論」) → 見落とし率70%減
  • バグ解析:Few-shot(同種のバグ修正例2件) + CoT(「症状→原因仮説→コード追跡→修正案の順に検討」) → デバッグ時間を平均40%短縮
  • 顧客対応分類:Few-shot(各カテゴリ1件の例示) + CoT(「感情→意図→緊急度の順に評価してからカテゴリを決定」) → 分類精度+35%

Auto-CoT:例示の推論ステップを自動生成する

手動で推論ステップ付きのFew-shot例を作成するのは手間がかかります。2024年以降、モデル自身にZero-shot CoTで推論ステップを生成させ、それをFew-shot例として再利用する「Auto-CoT」のアプローチが実務に取り入れられています。まず10件の類似問題にZero-shot CoTを適用して推論ステップを生成し、品質チェック後に良質なものをFew-shot例として固定するという流れです。これにより、手動でのFew-shot例作成のコストを80%以上削減できます。

ビジネス活用事例:マーケ・営業・法務・コード開発

2026年5月時点において、Few-shotとCoTを組み合わせたプロンプト設計が実務成果に直結している代表的な4領域の具体例を紹介します。いずれも実装のハードルは低く、明日から試せる内容です。

マーケティング:広告コピーの大量生成と品質統一

広告代理店やインハウスマーケティングチームで最も導入効果が大きい用途が、広告コピーの量産です。「ブランドトーン・CTA形式・ターゲット属性」を定義したFew-shot例を3件用意し、Zero-shot CoTで「痛点の特定→解決策の提示→行動促進」の順に推論させることで、担当者ごとのばらつきなく、一貫したブランドボイスのコピーを高速で生成できます。ChatGPT広告・LINE広告・Meta広告など媒体ごとの文字数制約を制約条件として追加することで、媒体別コピーの同時生成も可能です。

営業:提案書・提案メールのパーソナライズ

見込み顧客の業種・課題・規模に応じた提案文を毎回手動で書き直す作業は、Few-shot CoTで大幅に効率化できます。「業種A向け提案例」「業種B向け提案例」をFew-shotで与え、CoTで「顧客の課題→自社ソリューションの対応→導入効果の数値化→次のステップ」の順に推論させると、パーソナライズされた提案文が高品質で安定して出力されます。2026年5月時点では、CRMのデータと連携してリアルタイムに提案文を生成するパイプラインを構築している企業が増えています。

法務:契約書のリスク条項抽出と分類

法務部門で最も反復的なタスクの一つが契約書のレビューです。Few-shotで「リスクあり(H/M/L)」の典型例を業種別に3〜5件用意し、CoTで「条文の意図→リスクの性質→影響範囲→重大度評価」の推論チェーンを展開させることで、チェックリスト形式のリスクレポートを自動生成できます。特に機密保持・免責・解除条件・競業避止など定型リスク類型の初期スクリーニングに有効で、弁護士レビューの前段階で大幅な工数削減が実現しています。

コード開発:テストコード自動生成とコードレビュー

開発現場での最大の活用領域はテストコード生成です。既存のテストファイルから「正常系テスト例」「異常系テスト例」「境界値テスト例」の3パターンをFew-shotで与え、CoTで「関数の仕様確認→想定される入力パターン→期待する出力→エッジケースの検討」の推論ステップを踏ませることで、網羅性の高いテストコードが安定して生成されます。コードレビューでは、「セキュリティ→パフォーマンス→可読性」の順に推論させるCoTが特に効果的で、見落としが多い非機能要件のレビューに威力を発揮します。

Few-shot CoT プロンプト設計でよくある失敗と対策

Few-shotとCoTを組み合わせても期待通りの結果が出ない場合、典型的な失敗パターンが存在します。2026年5月時点の実務知見から洗い出した代表的な失敗と対策を解説します。

失敗パターン(前半)

  • 推論ステップが例と本番で食い違う:Few-shotの例の推論ステップが「(1) 原因 (2) 影響 (3) 対策」という構造なのに、本番プロンプトで「まずコストを計算して、次に競合と比較して」と別の軸を指示すると、モデルが混乱して構造が崩れます。例の推論ステップと本番指示の推論軸は必ず統一してください。
  • 例示が長すぎてモデルが構造を見失う:1件の例が500トークンを超えると、モデルが「例のどの部分が重要か」を判断しにくくなります。例はできる限りコンパクトに。必要ならば例の数を増やすより質の高い短い例を3件用意する方が効果的です。
  • CoTを使うが推論ステップを検証しない:CoTで推論ステップが可視化されても、そのステップが正しいかを確認せずに最終答えだけを使用するケースが多く見られます。重要な判断では「この推論ステップに論理的な飛躍や誤りはないか自己チェックしてください」という検証プロンプトをセットで使うことを推奨します。

失敗パターン(後半)

  • Few-shotの例が古い・ドメイン外:2年前の市場感覚や、全く異なる業界の例をFew-shotに使用すると、モデルが誤ったコンテキストを学習します。例は定期的にアップデートし、ターゲットのドメイン・時期に合ったものを使用してください。
  • CoTを使うべきでないタスクに無理に適用する:「この画像の色を教えて」「明日の天気は?」のような単純・即答タスクにCoTを強制すると、回答が冗長になり実用性が下がります。CoTは複数ステップの推論が必要なタスクにのみ適用してください。
  • 例示のフォーマットが統一されていない:例ごとに推論ステップの書き方・見出しの有無・箇条書きと段落の混在があると、本番出力のフォーマットが不安定になります。全例で同一フォーマットテンプレートを使用してください。

Few-shot学習とChain-of-Thought FAQ 6問

現場からよく寄せられる質問を6問まとめました。2026年5月時点の情報に基づきます。

基礎・実装・コストに関するFAQ

Q1. Few-shotの例は何件が最適ですか?
A. タスクの複雑さによりますが、実務上は3〜6件が最もコスパが高い範囲です。2件以下では安定性が不足し、8件以上はコンテキストを圧迫するリスクが生じます。まず3件で試し、精度が不足する場合は5〜6件に増やすアプローチを推奨します。GPT-4oやClaude 3.7 Sonnetなど最新モデルでは、2026年5月時点で3〜4件でも十分な安定性が得られることが多くなっています。
Q2. Chain-of-Thoughtはすべてのモデルで機能しますか?
A. CoTの効果はモデル規模に依存します。おおむね1000億パラメータ以上のモデル(GPT-4クラス・Claude 3.5以上)では明確な効果が得られます。一方、GPT-3.5-turbo・Claude Haiku・Gemini Flash など小型モデルでは、CoTを指示してもステップが省略されたり不正確な推論が展開されたりする場合があります。コスト最適化のため小型モデルを使う場合は、CoTの効果が出るかを事前に評価してください。
Q3. Few-shot CoTのプロンプトを社内で共有・管理するには?
A. 有効なプロンプトはプロンプトライブラリとして管理することを推奨します。NotionやConfluenceに「タスク種別・モデル・Few-shot例・推論軸・効果測定結果」をセットで記録し、バージョン管理します。2026年5月時点では、LangSmith・Portkey・PromptLayerなどのプロンプト管理ツールを採用する企業も増えています。社内ナレッジとして資産化することが、AI活用の競争優位の源泉になります。
Q4. CoTを使うとAPIコストが増えますか?
A. はい、推論ステップが出力トークンを増加させるため、CoTなしと比べて出力トークン数が2〜5倍になるケースがあります。ただし、精度向上による修正・再試行のコスト削減を考慮すると、多くのケースでトータルコストは下がります。大量処理の場合はSelf-Consistency(複数回の推論)よりもZero-shot CoTの方が低コストで、バッチ処理でAPIを効率的に呼び出す設計が重要です。
Q5. Fine-tuningとFew-shotの使い分けはどうすればよいですか?
A. 判断基準は「同じタスクを繰り返す頻度と量」です。毎日1,000件以上の同種タスクを処理するなら、Fine-tuningでモデル自体を特化させた方が長期コストが下がります。一方、タスク種別が多様・頻度が低い・プロンプトを頻繁に更新するケースではFew-shotの柔軟性が勝ります。2026年5月時点では、OpenAI・Anthropicともにファインチューニングのコストが大幅に下がっており、月間10万件以上の処理がある場合はFine-tuning検討の目安になります。
Q6. Few-shot CoTとRAG(検索拡張生成)は併用できますか?
A. 併用可能で、高精度が求められるタスクでは特に推奨されます。RAGで最新・ドメイン固有の情報をコンテキストに注入し、Few-shot CoTで「その情報をどのように推論して回答するか」のパターンを示す組み合わせが最も強力です。ただし、RAGのリトリーバル結果+Few-shot例+CoT推論ステップでコンテキストが長くなるため、文脈長の管理とプロンプトの優先度設計が必要になります。

まとめ:Few-shot + CoTをビジネスの武器にするために

2026年5月時点において、Few-shot学習とChain-of-Thoughtは「知っているかどうか」ではなく「使いこなせているかどうか」で差がつく技術になっています。Zero-shotで雑にAIに投げていた業務を、適切なFew-shot例と推論ステップ指示に置き換えるだけで、アウトプットの品質・安定性・追跡可能性が大幅に改善します。

まず取り組むべきステップは3つです。第一に、社内で繰り返し発生している定型タスクを1つ選ぶこと。第二に、そのタスクの「良い出力例」を3件用意してFew-shot化すること。第三に、複雑な判断を伴う部分にCoTの推論指示を加えることです。この3ステップを1週間試すだけで、AIの業務貢献度が可視化されます。

Few-shotとCoTを活かしたAI広告運用・コンテンツ生成・業務自動化の具体的な支援については、お問い合わせはこちらからご相談ください。Koukoku.aiのAIネイティブ広告代理店として、プロンプト設計から広告配信・効果測定まで一貫したサポートを提供します。

よくある質問

Few-shotプロンプトを作る際の例文は何件が最適ですか?
3-5件が一般的な推奨値です。例文が多すぎるとトークンコストが増加し、少なすぎるとパターン認識が不十分になります。タスクの複雑さに応じて調整してください。
Chain-of-ThoughtはGPT-3.5でも有効ですか?
GPT-3.5はGPT-4に比べてCoT効果が小さいです。「Let me think step by step」などのZero-shot CoTは有効ですが、複雑な推論タスクではGPT-4/Claude 3系を使うのが効果的です。