【月次レポート第1号｜2026年5月】ChatGPT vs Claude vs Gemini：同一プロンプトで比較したコーディング性能（LeetCode Medium 10問）

【月次レポート第1号】本記事はAI活用検証研究会が毎月1本発行する独自ベンチマーク実験の初回号です。主要AIモデルの実務性能を、第三者視点で定量的に測定することを目的としています。

『ChatGPTが賢い』『Claudeのコードが綺麗』『Geminiが速い』といった評価は多数流通していますが、再現可能な条件下での横並び比較データは意外と少ないのが現状です。本号では、アルゴリズム実装の定番指標であるLeetCode Medium難度の問題10問を選定し、3モデルに同一プロンプトで10問×3モデル×3試行=計90試行を実施した実測データを公開します。

この記事の要旨

87%3モデル平均の『初回提出で全テスト合格率』（90試行ベース）出典: 当研究会ベンチマーク 2026-04-14/18

4.2秒〜11.8秒平均応答時間のモデル間レンジ（問題長さ揃え）出典: 当研究会 n=30問/モデル

最大12pt差モデル間の正答率差（Medium難度問題）出典: 当研究会ベンチマーク

調査の目的と範囲

近年AIコーディング支援は実務で広く使われていますが、『どのモデルが自分の用途に最適か』を判断する実証データは少ないのが実態です。本調査は、AIコーディング性能を以下3軸で定量比較することを目的とします。

初回提出での正答率（全テストケース合格率）
平均応答時間（第1文字目までの時間含む）
コード品質（計算量・可読性・ベストプラクティス準拠）

対象はChatGPT系の代表モデル1つ、Claude系の代表モデル1つ、Gemini系の代表モデル1つの計3モデル。Medium難度10問 × 3モデル × 3試行 = 90試行の実測データに基づきます。

調査方法

問題セットの選定
LeetCode Medium難度から、2024年以降の新規問題10問を無作為抽出。Arrays / Strings / Trees / DP / Graph / Hash など主要6カテゴリから最低1問ずつ選定し偏りを排除。
プロンプトの統一
各モデルに対して『問題文 + 入力例 + 期待出力 + Python3実装要求』の同一プロンプトを投入。ヒント・段階的対話は禁止、初回回答のみを採点。
試行回数の設定
出力揺らぎを吸収するため、各モデル×各問題で3試行を実施（合計90試行）。3試行の中央値を採用。
採点基準
①全テストケース合格可否（0/1）、②平均応答時間（ストップウォッチ実測、ミリ秒）、③コード品質3軸評価（計算量・可読性・ベストプラクティス各5点満点）をブラインドで採点。
評価の独立性担保
採点者3名が誰のコードか分からない状態で採点し、3者平均を最終スコアとする。評価シートはGistで公開予定。

データ

Medium難度10問に対する3モデルの主要指標比較です。数値は3試行の中央値、コード品質は採点者3名の平均点です。

ChatGPT vs Claude vs Gemini コーディング性能ベンチマーク（LeetCode Medium 10問・各3試行）掲載順: 総合正答率順出典: 当研究会独自ベンチマーク 2026-04-14/18 / n=30試行/モデル
評価軸	総合正答率トップChatGPT系代表モデルA	Claude系代表モデルB	Gemini系代表モデルC
初回提出全テスト合格率Medium 10問	93%	87%	81%
平均応答時間問題投入→回答完了	4.2秒	7.5秒	11.8秒
最適計算量到達率想定最適O記法との一致	80%	90%	70%
コード可読性5点満点 3名平均	4.1	4.6	3.7
コメント含有量文字数/全体比率	約8%	約15%	約5%
型ヒント利用率Python type hints	60%	90%	40%
エッジケース言及空入力/境界値への配慮	7/10問	9/10問	5/10問
総合スコア加重平均 100点満点	86	85	72

グラフで見る要点

90試行のデータから見えてくる構造を3点に整理します。

要点1｜『速さ』と『丁寧さ』はトレードオフ

ChatGPT系が平均4.2秒で最速だったのに対し、Claude系は7.5秒で応答。しかしコメント含有量・型ヒント利用率・エッジケース言及数ではClaude系が優位でした。これは単純な速度比較ではなく『受け取った後の手直し工数』を含めた総コストで比較する必要があることを示唆しています。

要点2｜正答率差は『問題カテゴリ』に依存

全体正答率ではChatGPT系が93%と最高でしたが、カテゴリ別に見ると、DP系の問題ではClaude系の正答率が優位、Graph系の問題ではChatGPT系が優位など、モデルごとに得意カテゴリが分かれる傾向が観察されました。単一スコアでの優劣評価はミスリードになりやすい領域です。

要点3｜Gemini系は『速度ではなく生成精度』がボトルネック

Gemini系は応答時間が11.8秒と最長でしたが、正答率81%・可読性3.7点も3モデル中最も低く、Medium難度ではまだ実務投入に不安が残る結果でした。一方、Easy難度の予備試験では3モデル間の差は1pt未満で、難度によるスケーリング特性の差が大きいことがわかりました。

考察

本ベンチマークから読み取れる示唆を3点にまとめます。

示唆1｜『作業スタイル』でモデルを使い分けるのが合理的

速度重視・プロトタイプ試作の局面ではChatGPT系、本番投入予定コード・レビュー前提の局面ではClaude系、ブレインストーミング・複数案比較の局面ではGemini系、という棲み分けが現実解だと考えられます。全用途で1モデルに一本化する発想は、総合コストで見ると最適でない可能性があります。

示唆2｜『初回提出の正答率』だけでなく『再質問後の修正精度』も本来は測るべき

実務のAIコーディングは初回提出で完結するケースは少なく、エラーメッセージを貼って修正依頼をする対話型の使い方が主流です。本調査は初回提出のみの評価のため、対話的修正の巧拙はスコープ外です。次号ではこの軸も含めた拡張ベンチマークを検討します。

示唆3｜Medium難度ではモデル間差が12pt、難度によるバラツキが大きい

Easy難度では差がつきにくく、Medium〜Hard難度になるほどモデル間差が拡大する傾向が観察されました。実務で投入する問題の難度レベルを事前に想定することが、モデル選定の前提になります。

本調査の限界

n=90試行は傾向把握用であり、モデル性能の統計的母集団推定には不足します。より厳密な比較には各モデル数百問規模の大規模ベンチマークが必要です。
対象3モデルは2026年4月時点の代表モデルで、マイナーバージョンアップで性能が変動する可能性があります。実測日時を必ず参照してください。
問題セットはLeetCode Medium 10問に限定しており、実務のAI活用全般（長文処理・コードレビュー・リファクタリング）の性能評価ではありません。
採点者3名は当研究会の自前スタッフであり、評価の客観性には限界があります。ブラインド採点は実施していますが、完全な第三者評価とは言えません。
応答時間はネットワーク条件・利用時間帯で変動します。実測値は2026年4月14〜18日の日本時間午前帯の値です。

次号以降で改善予定の事項:

対話型修正ベンチマーク（『エラー→修正』サイクルの精度測定）
問題数を30問以上に拡大したHard難度ベンチマーク
コスト（APIトークン単価）を含めた総合コストパフォーマンス評価
日本語プロンプト vs 英語プロンプトでの性能差測定

免責と連絡先

本レポートは2026年4月14〜18日に当研究会が実施した独自ベンチマーク結果であり、特定AIモデルの購入・契約を推奨・非推奨するものではありません。AIモデルの性能はバージョンアップで大きく変動するため、本実験結果は『2026年4月時点の参考データ』としてご参照ください。実際のサービス利用にあたっては、各提供元の公式ドキュメント・利用規約を必ずご確認ください。

引用時の推奨表記: AI活用検証研究会 "ChatGPT vs Claude vs Gemini：同一プロンプトで比較したコーディング性能（LeetCode Medium 10問）" 2026-04-23. https://ai-tools.example.com/articles/research-reports-2026-05

お問い合わせ: 取材・共同調査のご相談はお問い合わせフォームよりご連絡ください。ベンチマーク対象への追加モデル推薦も歓迎します。

関連記事: 生成AIツール10選比較 / AIコーディングアシスタント比較