コードが“動く”AIの夜明け
OpenAIがAgents SDKを刷新しました。Python向けにサンドボックス実行が加わり、エージェントがコンテナ内でファイル・コマンド・パッケージ・ポート・スナップショット・メモリを直接扱えます。外部ツール呼び出し中心の時代から、自ら手を動かす実行単位への転換が始まります。
発表では、モデルネイティブなハーネスと安全なサンドボックスが強調されました。長時間の処理やツール横断の作業で信頼性と再現性を高め、現場運用に耐える基盤を標準化します。更新内容はドキュメントとリポジトリでも整備され、すぐ試せる状態です。
We’re introducing new capabilities to the Agents SDK … plus native sandbox execution for running that work safely.
出典: OpenAI
今回のアップデートの核心
今回の進化は「モデルに最適化された実行ハーネス」×「ネイティブなサンドボックス」の二本柱です。前者はモデルの得意な進め方に沿ってツール実行やファイル操作を編成し、後者は安全に作業を走らせる隔離環境を提供します。両者が組み合わさることで、設計の自由度と運用の安全性が両立します。
- Sandbox Agents(Python): コンテナ化されたワークスペースでファイル・コマンド・パッケージ・ポート・スナップショット・メモリを扱える公式プリミティブ。開発者ドキュメントで詳細が公開。
- Model-native harness: モデルの自然な動作パターンに合わせて計画・実行・検証を回し、長時間・多段のタスクでも破綻しにくい。
- エンタープライズ対応: 隔離・権限制御・可観測性の強化で企業導入を後押し。TechCrunchも安全性強化を報告。
GitHubのopenai-agents-pythonにはSandboxAgentやトレーシングなど実用コンポーネントが実装済み。TypeScript版も並走しつつ、まずはPythonからサンドボックス機能が普及します。
はじめ方と基本の使い方
インストールと雛形
セットアップはシンプルです。Python 3.10+を用意し、SDKを導入。まずはローカルの小さなタスクから試し、環境・権限・ログの扱いを体で覚えましょう。
- Python 3.10以上を準備
- Agents SDKのインストールとAPIキー設定
- SandboxAgentで最小の実行環境を作成
pip install openai-agents
export OPENAI_API_KEY=<your_key>
from agents import SandboxAgent
agent = SandboxAgent(
name="researcher",
model="gpt-5-nano",
manifest={
"files": ["./workspace"],
"packages": ["pandas", "requests"],
"ports": [8000],
"memory": "2GiB"
}
)
res = agent.run("CSVを読み込み、集計して簡単な可視化を生成して")
print(res.output)
ポイント: マニフェストでリソース境界を明示し、必要最小限の権限で開始します。ポート開放やパッケージ追加は段階的に広げ、挙動を観測しながら進めるのがおすすめです。詳細は公式ガイドへ。
安全性とガバナンスの一歩先へ
サンドボックス統合により、エージェントは指定ワークスペース内でサイロ化され、対象外の資産やシークレットへは原則到達できません。ファイルやコードへのアクセスはジョブ単位で限定され、誤作動時の blast radius を最小化します。
エンタープライズ視点では監査・可視化・承認フローが鍵です。許可ツールのホワイトリスト、ネットワーク出口の制御、パッケージ供給元の固定、スナップショットでのリプロデュース可能性確保が有効です。こうした設計は、報道や公式発表でも重視されています。
- スナップショット: 途中状態を保存し、失敗時に迅速に再走可能。
- メモリ: 会話・コンテキストの保持で長期タスクを安定化。
- ポート: 明示的に開くことで内部ツールのプレビューや連携を安全に。
アーキテクチャの視点:ハーネスとランタイム
更新版Agents SDKの肝はハーネスです。エージェントの計画・ツール呼び出し・観測・反省を、モデルに適した順序で束ねます。これにより、ツールやファイル操作を跨ぎつつ長時間・高複雑度の仕事を破綻なく進められます。
さらに、TemporalのDurable Execution統合など、実運用の落とし穴(レート制限、ネットワーク断、ワーカー再起動)を越える仕掛けも整いつつあります。意図した作業が中断なく完走することは、社内自動化の信頼を左右する基盤要件です。
周辺エコシステムとの比較視点
エージェントはプラットフォーム戦の様相です。選択の軸はモデル親和性・実行基盤・拡張性・コスト。主要エコシステムを俯瞰して、自社要件と照合しましょう。
- OpenAI Agents SDK: モデル親和のハーネス+ネイティブSandbox。Python先行、TSも整備。公式: Docs / GitHub
- Cloudflare Agents: Durable Objects上で永続メモリ・スケジューリング・リアルタイムを提供。大規模水平展開に強み。Docs / 解説
- Claude Agent SDK: コード実行・Web検索・メモリ等の内蔵ツールが充実。Docs
- OpenHands: コーディング特化のOSS。任意LLM対応で柔軟。Docs
- Strands: 軽量プリミティブ中心で開発者主導の設計に回帰。Site
結論として、モデル親和性と安全な実行を重視するならOpenAIの進化版は有力候補です。他方で常時接続・超多並列が前提なら、Cloudflareの実行モデルが適合する場面もあります。
ユースケース:実務で光るパターン
サンドボックス機能で「ツール指示」から「自走する作業」へ。現場導入で見える勝ち筋をいくつか。
- コーディング・修繕: リポジトリをクローンし、テストを走らせ、差分PRを作成。並列サブエージェントで探索的に修正案を比較検証。参考: Modal Blog
- データOps: CSVやParquetの前処理、品質検査、簡易ダッシュボードの生成。スナップショットで同一結果を再現。
- 調査・レポート: ファイル収集→要約→可視化→PDF出力までを一括で。パッケージ制御で依存の安全性を確保。
- 社内IT自動化: ログ監査、設定検証、影響範囲の見積りを反復。ポート解放で一時UIを公開し、レビューを短縮。
これらはいずれも長時間・多段・再現性が鍵です。サンドボックス×ハーネス設計が、業務フローを“任せられる”水準に押し上げます。
実装のコツと落とし穴
導入は段階的に。まずは権限最小で動かし、観測・制御・ロールバックを固めてから横展開します。
- マニフェスト最小化: packages/ports/filesは必要最小から。外部通信は出口制御で限定。
- スナップショット設計: 再走の起点を明確化。大きな成果物は外部ストアに退避。
- メモリ戦略: モデルのコンテキストと永続メモリを使い分け。過学習的なバイアスに注意。
- 依存のピン止め: パッケージはバージョン固定。サプライチェーン対策をCIで自動検査。
- 可観測性: トレーシングとイベントログを標準化。失敗の理由を説明できることが運用の通貨です。
最後に、人間の承認ポイントを意図的に残すのが実務の現実解です。コスト・リスクの高い操作はゲーティングし、「安全に速く」を両立させましょう。
情報源と深掘り
- The next evolution of the Agents SDK(OpenAI公式)
- Agents SDK ガイド(Developer Docs)
- openai-agents-python(GitHub)
- TechCrunch: エンタープライズ向け安全性強化
- Temporal統合: Durable Execution
- Cloudflare Agents / Project Think
- Claude Agent SDK / 日本語ドキュメント(OpenAI)
- Modal Blog: サンドボックス活用例
締めくくり:ツールから作業単位へ
今回の進化は、エージェントを「外部ツールの呼び出し装置」から「実行可能な作業単位」へ引き上げました。コンテナ上で安全にコードを動かし、観測し、やり直せる。開発と運用の両輪が、ようやく標準装備で回り始めます。
まずは小さく、速く試す。スナップショットで再現し、メモリで文脈を保ち、ハーネスで粘り強く進める。現場で任せられるAIを、今日から育てていきましょう。

コメント