First Proofの“証明提出”を公開

2026年3月5日

数学に挑むAI、次のテストフィールドが開いた

OpenAIが研究レベル数学課題「First Proof」への証明提出物を公開しました。短答式ではなく、専門領域での長い推論鎖を必要とする課題に対する取り組みです。
AIがどこまで持続的に正しい論証を構築できるのか、その地力を問う試みとして注目を集めています。

提出は全10問の証明案で、専門家レビューに基づく自己評価も添えられています。競技型の正誤判定に比べ、正しさの検証が難しいとされる領域で、どのように透明性と再現性を担保するかが見どころです。

詳細は公式発表に整理され、各問題の背景やコメントリーへのリンクも提示。まずは原本に目を通し、全体像を掴むのが近道です。

“Based on feedback from experts, we believe at least five of the model’s proof attempts (problems 4, 5, 6, 9, and 10) have a high chance of being correct, and several others remain under review.”OpenAI: Our First Proof submissions

First Proofとは何か—“正しさ”の検証が難しい挑戦状

First Proofは、チェック可能な証明をAIが自力で構築できるかを試す、研究グレードの課題群です。短答や定型問題では測りづらい、抽象化の選択、定義や補題の導入、そして論証の堅牢性を問うのが特徴です。
問題は分野横断で、解答は人間専門家の精査が前提。ここが通常のベンチマークと決定的に違う点です。

OpenAIは、この枠組みを“フロンティア課題”として位置づけています。ベンチマークの点取りでは見えにくい、推論の持久力や曖昧性の扱いを露わにできるからです。
また、レビューの過程や修正の必要性そのものが、AIの失敗様式を学ぶための貴重なデータになります。

“Frontier challenges like First Proof help us stress-test those capabilities in settings where correctness is nontrivial to verify and the failure modes are informative.”OpenAI: Our First Proof submissions

今回の公開の中身—10本の提出と自己評価、そして訂正

公開は10問の証明案を中心に構成され、各提出について正解可能性の評価とレビュー状況が明示されました。専門家のフィードバックを踏まえ、少なくとも5問（4, 5, 6, 9, 10）は高い確度で正しいと自己評価。
一方で、問題2は当初「正しい可能性」から訂正され「誤りの見立て」に転じたと明記されています。

この自己修正は重要です。AIの推論は一度の成功・失敗で語れないため、レビューが進むごとに評価が更新されるのはむしろ健全です。
また、人手選別（best-of）を含む試行であったことも開示され、次回以降はよりクリーンな評価設計に向けた議論を主催側と進めるとしています。

提出物の読み方・使い方—どこを見ると学びが大きいか

まず「主張と骨格」を拾う

各提出は、主張（定理命題）と骨格（補題列・帰納の台・ケース分け）で読解が進みます。はじめに全体の補題関係をメモに落とし、どの橋を渡って結論に至るかを地図化しましょう。

曖昧性の処理と定義の選択を確認

研究級の問題は、定義の採り方が勝敗を分けます。用語の再定義や同値変形に飛躍がないか、必要条件と十分条件の切り分けが保たれているかを精査します。
矛盾導出・極限操作・測度の扱いなど、“暗黙の一手”が入っていないかもチェックポイントです。

コメントリーと突合する

公開リンクから公式コメントリーやコミュニティの考察に当たり、一致点と相違点を突き合わせます。合わない箇所は、局所修正で救えるのか、根本的破綻かを切り分けると学びが深まります。

主張→補題→技法の順にチェックリスト化
等価変形の往復で片方向の抜けがないか検査
境界条件・例外ケースの網羅性を確認

プロンプト設計と手順のヒント—長鎖推論を壊さない工夫

OpenAIは提出物と併せて、評価観点や進め方のメモを共有しています。細かなテンプレ全容は実装依存ですが、長い論証を壊さない一般原則は応用可能です。

構造化の明示：定義→補題→主定理の順でセクション見出しを促し、各節末に要約を強制
逆向き点検：結論から必要条件を洗い戻すbackward reasoningを指示
引用の自粛：既知定理の利用は名称・条件・出典を明示。ブラックボックス化を防ぐ
自己反駁：各ステップで反例探索を促し、失敗時はロールバック方針を定義
検証モード：最終稿の前に検査専用パスを走らせ、論理飛躍と未定義記号を洗う

実務では以下の運用パターンが有効です。
下書き生成→検証プロンプト→差分パッチ→再検証のサイクルを短く回し、“一撃で完璧”を狙わないこと。レビュー観点を先に宣言しておくと、モデルの注意配分が安定します。

研究評価のむずかしさ—ベンチでは測れない部分

OpenAIは、今回が完全に統制された評価ではないことを明言し、将来の厳密な設計に意欲を示しています。これは欠点の告白ではなく、研究現場のリアルです。
長鎖推論では、タスク設計・人手選別・レビュー揺らぎが不可避で、透明性の高い公開が信頼の基礎になります。

重要なのは、“誤りの種類”が見えること。定義の齟齬、境界条件の抜け、循環参照、事実誤認など、失敗様式がデータ化されると、次の改善が具体化します。誤りの訂正履歴が残る今回の公開は、その意味で価値が大きいと言えます。

“We initially believed our attempt for problem 2 was likely correct… we now believe it is incorrect.”OpenAI: Our First Proof submissions

開発者・研究者のための実践チェックリスト

問題分解：命題を定義・補題・ケースに割付け、各パーツで完結報告を強制
二重経路：正面と側面の二系統の証明スケッチを並走させ、収束点で合議
反例駆動：途中段階で最小反例の生成を要求し、設計の穴を早期顕在化
コメントリー突合：公開コメントや解説と差分レビューを行い、判断をログ化
評価の透明化：正しさの確率・未確認部分・依存定理をリストにして公開

そして、提出物を読む側も“白黒即断”より過程の観察を。失敗の仕方を学ぶことが、次の成功最短路になります。

まとめ—“正しさ”をめぐる共同作業へ

今回の公開は、AIが研究級の数学証明にどう取り組むかを社会に開く第一歩でした。
少なくとも5問で高い正答可能性が示される一方、誤りの自己訂正やレビュー継続も明確化。成功と失敗の両方を資産化する姿勢が見て取れます。

次は、評価設計の厳密化とプロンプト/検証プロセスの標準化です。提出・レビュー・訂正を循環させる共同作業が、“チェック可能で再現的なAI証明”を現実のものにしていくでしょう。
研究・開発の現場では、本稿のチェックリストを足場に、長鎖推論の設計と検証を一段引き上げていきたいところです。

よかったらシェアしてね！