GPT-5.4を発表

2026年3月13日

仕事が一段跳ねる日は今日だった

OpenAIが最新フロンティアモデル「GPT-5.4」を公開しました。
狙いははっきりしていて、専門業務の現場で“本当に使える”AIをデフォルト化すること。
推論・コーディング・ツール連携・PC操作を単一モデルに統合し、長文の前後関係も大幅に強化されました。

ChatGPTではThinkingとProの形で提供され、CodexやAPIでも同時展開。
実務タスクの“面倒な中間作業”をAIが前提として担う時代へ、踏み込みが進んだ印象です。
主要メディアや公式発表を横断しても、この方向性は明確です。

発表の全体像と位置づけ

OpenAI公式は、GPT-5.4を「汎用モデルとして初めてネイティブなコンピュータ操作を備え、最大100万トークンのコンテキストをサポート」と説明。
長い視野での計画・実行・検証を前提に、アプリをまたぐワークフローを扱えることが核になりました。

“GPT‑5.4 is the first general-purpose model we’ve released with native, state-of-the-art computer-use capabilities … It supports up to 1M tokens of context.” — OpenAI: Introducing GPT‑5.4

TechCrunchも「プロフェッショナルワーク向けで最も有能かつ効率的」と評価し、APIではTool Searchという新しいツール呼び出し管理の仕組みが導入されたと報じています。
これによりトークン効率と開発者体験の両面が前進しました。

“our most capable and efficient frontier model for professional work … introducing a new system called Tool Search.” — TechCrunch

何が強くなったのか：要点まとめ

コアのアップデート

コンピュータ操作（Computer Use）のネイティブ対応。ブラウザやアプリをまたいだ操作を自律的に遂行
コンテキスト最大100万トークン。長期計画・レビュー・監査など“長い会話/資料”に強い
コーディング統合。GPT‑5.3‑Codexの実力を継承しつつ、ツール横断や文書作業に最適化
Thinkingモードで思考の事前プラン提示。途中での軌道修正が可能になり、不要な追加ターンを削減
Deep Web Researchの精度向上。特に具体的・専門的なクエリでの調査が安定
トークン効率の改善。少ないトークンで問題解決に到達しやすく、速度/コストの両立に寄与
APIのTool Searchでツール定義の過剰送信を抑制し、呼び出しがスマートに

日本メディアも、窓の杜やPC Watch、ITmediaが一斉に報道。
実務タスクの統合処理に焦点を当て、Thinking/Proの使い分けや、Excel連携など周辺エコシステムの強化にも触れています。

実務ワークフローはこう変わる

資料作成×調査×表計算の往復を、GPT-5.4が一人称で繋ぎ直します。
検索・要約・引用抽出・データ整形・グラフ生成・スライド草案まで、長い前後関係を保持しながら一連で進行できます。
途中で方針が変わっても、Thinkingの事前プランに介入して指示を差し替えればOKです。

コーディングは設計レビューからテスト、ブラウザ経由の動作検証までを一気通貫。
Computer Useにより、Playwright等の操作自動化やスクリーンショット理解を活かし、手戻りの多いUI起因の不具合対応も滑らかになります。

金融・法務・R&Dの調査系でも武器になります。
長大なドキュメントの比較・差分指摘・根拠リンク付けを粘り強く続けられるため、下準備の時間を大幅に短縮できます。

はじめての使い方

ChatGPTで試す

Web/デスクトップ/モバイルのChatGPTにログインし、モデル選択で「GPT‑5.4 Thinking」を選ぶ（Plus/Team/Proなど対象プラン）
長考や調査系はThinking、スピード重視はProを選択すると体感が安定
回答開始時に事前プランが出たら、要らない工程をその場で削除/修正して発進

API / Codexで導入

モデルIDはgpt-5.4とgpt-5.4-pro（参考: AI総合研究所）
Tool Searchを前提に、ツール定義やポリシーを最小限で提示し、トークン効率を確保
長文前提のエージェントは1Mトークンを活かし、計画→実行→検証のループ設計を行う

Excelアドインのβやデータ連携も話題に。
表計算やモデル化の自然言語操作は、表処理の“最後の一押し”の手作業を大きく減らします（参考: ENSOU）。

検証から見えた実力と注意点

報道・検証記事では、GDPval 83.0%、OSWorld-Verified 75.0%、SWE‑Bench Pro 57.7%などの数値が並びます。
知識労働・PC操作・バグ修正いずれも前モデルを上回り、実務フィットが明確に進化しました（参考: ITmedia / 窓の杜）。

企業ユースでは、Boxの評価でメタデータ抽出の精度が+6ポイント（72%→78%）。
ヘルスケア領域でも+9ポイントの改善が示され、“長文×多段推論”の堅牢さが業務KPIに効くことが示唆されました。

“GPT‑5.4 showed a 6 percentage point improvement in overall metadata extraction accuracy (72% to 78%).” — Box Japan

一方で、高性能ゆえの安全配慮も公表されています。
Thinkingは長考系でリスクも相対的に高く、社内ポリシーやツール権限のスコープ最小化、レビューの標準化は必須です（参考: ビジネス+IT）。

プロンプト運用のコツ：短く、段取りを先に

GPT-5.4は段取り（Plan）を前に出すことで真価を発揮します。
最初の指示は目的・制約・優先度だけを短く共有し、出てきたプランに対して差分指示で研磨するのが近道です。

悪手：最初から長文で全要件を書き切る → 解釈の密度が薄まりやすい
良手：短いゴール共有 → プラン表示 → 余計な工程をその場で削除/変更
長文資料は章ごと/機能ごとに小分けで渡し、各ブロックで検収→次ブロックの反復を

検索や表計算など外部アクションを伴うときは、許可するドメイン/シート/フォルダを明示し、痕跡（ログ/メモ）を残すよう依頼文に入れておくと運用監査が楽になります。

業界別の実装アイデア

コンサル・企画

ヒアリング要旨→市場一次情報→類例比較→示唆→スライド化を一連で回す。
途中の前提変更にもThinkingで対応し、ドラフト→確度80%までを自動で。

開発・QA

Issueから再現→最小修正→テスト→ブラウザ検証→レポート作成までを操作込みで代理実行。
長いデバッグセッションでも1Mトークンで前後文脈を保持。

金融・法務

開示文書と端末内ファイルの交差照合、根拠リンク付きの差分表、条項の整合性チェックを定常化。
誤差最小の抽出はBoxの検証結果も後押し。

小さな注意と期待

すべての場面で“魔法”にはなりません。
計算や法的判断の最終責任は人が持つ前提で、根拠リンクと作業ログを必ず残す。
Computer Useは権限が強いぶん、実行範囲の分離と権限の最小化が鍵です。

それでも、GPT-5.4は「下準備と段取り」の自動化で、現場の手を確実に軽くします。
長い文脈、複数ツール、途中の方針変更という“実務の三重苦”にまっすぐ向き合ったモデルだからです。

まとめ：現場基準で“使えるAI”がデフォルトに

GPT-5.4は、推論・コーディング・ツール利用・検索・長文コンテキストを一体化し、専門業務に最適化した新フロンティア。
Thinkingで段取りに介入し、Proで速度を取り、APIではTool Searchで賢く統合する。

最初の一歩は簡単です。
いつもの課題を短いゴールで投げ、出てきた事前プランに赤入れをしてください。
その瞬間から、あなたのワークフローは“AI前提”に作り替わります。

参考リンク：
OpenAI /
TechCrunch /
Mashable /
窓の杜 /
PC Watch /
ITmedia /
Box Japan

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

AnthropicがResponsible Scaling Policyの誓約を撤回

この記事を書いた人

AI好きなラボの住人

GPT-5.4を発表

仕事が一段跳ねる日は今日だった

発表の全体像と位置づけ