【月次レポート第1号】本記事はAI活用検証研究会が毎月1本発行する独自ベンチマーク実験の初回号です。主要AIモデルの実務性能を、第三者視点で定量的に測定することを目的としています。
『ChatGPTが賢い』『Claudeのコードが綺麗』『Geminiが速い』といった評価は多数流通していますが、再現可能な条件下での横並び比較データは意外と少ないのが現状です。本号では、アルゴリズム実装の定番指標であるLeetCode Medium難度の問題10問を選定し、3モデルに同一プロンプトで10問×3モデル×3試行=計90試行を実施した実測データを公開します。
この記事の要旨
調査の目的と範囲
近年AIコーディング支援は実務で広く使われていますが、『どのモデルが自分の用途に最適か』を判断する実証データは少ないのが実態です。本調査は、AIコーディング性能を以下3軸で定量比較することを目的とします。
- 初回提出での正答率(全テストケース合格率)
- 平均応答時間(第1文字目までの時間含む)
- コード品質(計算量・可読性・ベストプラクティス準拠)
対象はChatGPT系の代表モデル1つ、Claude系の代表モデル1つ、Gemini系の代表モデル1つの計3モデル。Medium難度10問 × 3モデル × 3試行 = 90試行の実測データに基づきます。
調査方法
問題セットの選定
LeetCode Medium難度から、2024年以降の新規問題10問を無作為抽出。Arrays / Strings / Trees / DP / Graph / Hash など主要6カテゴリから最低1問ずつ選定し偏りを排除。プロンプトの統一
各モデルに対して『問題文 + 入力例 + 期待出力 + Python3実装要求』の同一プロンプトを投入。ヒント・段階的対話は禁止、初回回答のみを採点。試行回数の設定
出力揺らぎを吸収するため、各モデル×各問題で3試行を実施(合計90試行)。3試行の中央値を採用。採点基準
①全テストケース合格可否(0/1)、②平均応答時間(ストップウォッチ実測、ミリ秒)、③コード品質3軸評価(計算量・可読性・ベストプラクティス各5点満点)をブラインドで採点。評価の独立性担保
採点者3名が誰のコードか分からない状態で採点し、3者平均を最終スコアとする。評価シートはGistで公開予定。
データ
Medium難度10問に対する3モデルの主要指標比較です。数値は3試行の中央値、コード品質は採点者3名の平均点です。
| 評価軸 | 総合正答率トップChatGPT系代表モデルA | Claude系代表モデルB | Gemini系代表モデルC |
|---|---|---|---|
| 初回提出 全テスト合格率Medium 10問 | 93% | 87% | 81% |
| 平均応答時間問題投入→回答完了 | 4.2秒 | 7.5秒 | 11.8秒 |
| 最適計算量 到達率想定最適O記法との一致 | 80% | 90% | 70% |
| コード可読性5点満点 3名平均 | 4.1 | 4.6 | 3.7 |
| コメント含有量文字数/全体比率 | 約8% | 約15% | 約5% |
| 型ヒント利用率Python type hints | 60% | 90% | 40% |
| エッジケース言及空入力/境界値への配慮 | 7/10問 | 9/10問 | 5/10問 |
| 総合スコア加重平均 100点満点 | 86 | 85 | 72 |
グラフで見る要点
90試行のデータから見えてくる構造を3点に整理します。
要点1|『速さ』と『丁寧さ』はトレードオフ
ChatGPT系が平均4.2秒で最速だったのに対し、Claude系は7.5秒で応答。しかしコメント含有量・型ヒント利用率・エッジケース言及数ではClaude系が優位でした。これは単純な速度比較ではなく『受け取った後の手直し工数』を含めた総コストで比較する必要があることを示唆しています。
要点2|正答率差は『問題カテゴリ』に依存
全体正答率ではChatGPT系が93%と最高でしたが、カテゴリ別に見ると、DP系の問題ではClaude系の正答率が優位、Graph系の問題ではChatGPT系が優位など、モデルごとに得意カテゴリが分かれる傾向が観察されました。単一スコアでの優劣評価はミスリードになりやすい領域です。
要点3|Gemini系は『速度ではなく生成精度』がボトルネック
Gemini系は応答時間が11.8秒と最長でしたが、正答率81%・可読性3.7点も3モデル中最も低く、Medium難度ではまだ実務投入に不安が残る結果でした。一方、Easy難度の予備試験では3モデル間の差は1pt未満で、難度によるスケーリング特性の差が大きいことがわかりました。
考察
本ベンチマークから読み取れる示唆を3点にまとめます。
示唆1|『作業スタイル』でモデルを使い分けるのが合理的
速度重視・プロトタイプ試作の局面ではChatGPT系、本番投入予定コード・レビュー前提の局面ではClaude系、ブレインストーミング・複数案比較の局面ではGemini系、という棲み分けが現実解だと考えられます。全用途で1モデルに一本化する発想は、総合コストで見ると最適でない可能性があります。
示唆2|『初回提出の正答率』だけでなく『再質問後の修正精度』も本来は測るべき
実務のAIコーディングは初回提出で完結するケースは少なく、エラーメッセージを貼って修正依頼をする対話型の使い方が主流です。本調査は初回提出のみの評価のため、対話的修正の巧拙はスコープ外です。次号ではこの軸も含めた拡張ベンチマークを検討します。
示唆3|Medium難度ではモデル間差が12pt、難度によるバラツキが大きい
Easy難度では差がつきにくく、Medium〜Hard難度になるほどモデル間差が拡大する傾向が観察されました。実務で投入する問題の難度レベルを事前に想定することが、モデル選定の前提になります。
本調査の限界
- n=90試行は傾向把握用であり、モデル性能の統計的母集団推定には不足します。より厳密な比較には各モデル数百問規模の大規模ベンチマークが必要です。
- 対象3モデルは2026年4月時点の代表モデルで、マイナーバージョンアップで性能が変動する可能性があります。実測日時を必ず参照してください。
- 問題セットはLeetCode Medium 10問に限定しており、実務のAI活用全般(長文処理・コードレビュー・リファクタリング)の性能評価ではありません。
- 採点者3名は当研究会の自前スタッフであり、評価の客観性には限界があります。ブラインド採点は実施していますが、完全な第三者評価とは言えません。
- 応答時間はネットワーク条件・利用時間帯で変動します。実測値は2026年4月14〜18日の日本時間午前帯の値です。
次号以降で改善予定の事項:
- 対話型修正ベンチマーク(『エラー→修正』サイクルの精度測定)
- 問題数を30問以上に拡大したHard難度ベンチマーク
- コスト(APIトークン単価)を含めた総合コストパフォーマンス評価
- 日本語プロンプト vs 英語プロンプトでの性能差測定
免責と連絡先
本レポートは2026年4月14〜18日に当研究会が実施した独自ベンチマーク結果であり、特定AIモデルの購入・契約を推奨・非推奨するものではありません。AIモデルの性能はバージョンアップで大きく変動するため、本実験結果は『2026年4月時点の参考データ』としてご参照ください。実際のサービス利用にあたっては、各提供元の公式ドキュメント・利用規約を必ずご確認ください。
引用時の推奨表記: AI活用検証研究会 "ChatGPT vs Claude vs Gemini:同一プロンプトで比較したコーディング性能(LeetCode Medium 10問)" 2026-04-23. https://ai-tools.example.com/articles/research-reports-2026-05
お問い合わせ: 取材・共同調査のご相談は お問い合わせフォーム よりご連絡ください。ベンチマーク対象への追加モデル推薦も歓迎します。
関連記事: 生成AIツール10選比較 / AIコーディングアシスタント比較