MENU

Agents SDKの進化版を公開

目次

コードが“動く”AIの夜明け

OpenAIがAgents SDKを刷新しました。Python向けにサンドボックス実行が加わり、エージェントがコンテナ内でファイル・コマンド・パッケージ・ポート・スナップショット・メモリを直接扱えます。外部ツール呼び出し中心の時代から、自ら手を動かす実行単位への転換が始まります。

発表では、モデルネイティブなハーネスと安全なサンドボックスが強調されました。長時間の処理やツール横断の作業で信頼性と再現性を高め、現場運用に耐える基盤を標準化します。更新内容はドキュメントとリポジトリでも整備され、すぐ試せる状態です。

We’re introducing new capabilities to the Agents SDK … plus native sandbox execution for running that work safely.

出典: OpenAI

今回のアップデートの核心

今回の進化は「モデルに最適化された実行ハーネス」×「ネイティブなサンドボックス」の二本柱です。前者はモデルの得意な進め方に沿ってツール実行やファイル操作を編成し、後者は安全に作業を走らせる隔離環境を提供します。両者が組み合わさることで、設計の自由度と運用の安全性が両立します。

  • Sandbox Agents(Python): コンテナ化されたワークスペースでファイル・コマンド・パッケージ・ポート・スナップショット・メモリを扱える公式プリミティブ。開発者ドキュメントで詳細が公開。
  • Model-native harness: モデルの自然な動作パターンに合わせて計画・実行・検証を回し、長時間・多段のタスクでも破綻しにくい。
  • エンタープライズ対応: 隔離・権限制御・可観測性の強化で企業導入を後押し。TechCrunchも安全性強化を報告。

GitHubのopenai-agents-pythonにはSandboxAgentやトレーシングなど実用コンポーネントが実装済み。TypeScript版も並走しつつ、まずはPythonからサンドボックス機能が普及します。

はじめ方と基本の使い方

インストールと雛形

セットアップはシンプルです。Python 3.10+を用意し、SDKを導入。まずはローカルの小さなタスクから試し、環境・権限・ログの扱いを体で覚えましょう。

  • Python 3.10以上を準備
  • Agents SDKのインストールとAPIキー設定
  • SandboxAgentで最小の実行環境を作成
pip install openai-agents
export OPENAI_API_KEY=<your_key>
from agents import SandboxAgent

agent = SandboxAgent(
    name="researcher",
    model="gpt-5-nano",
    manifest={
        "files": ["./workspace"],
        "packages": ["pandas", "requests"],
        "ports": [8000],
        "memory": "2GiB"
    }
)

res = agent.run("CSVを読み込み、集計して簡単な可視化を生成して")
print(res.output)

ポイント: マニフェストでリソース境界を明示し、必要最小限の権限で開始します。ポート開放やパッケージ追加は段階的に広げ、挙動を観測しながら進めるのがおすすめです。詳細は公式ガイドへ。

安全性とガバナンスの一歩先へ

サンドボックス統合により、エージェントは指定ワークスペース内でサイロ化され、対象外の資産やシークレットへは原則到達できません。ファイルやコードへのアクセスはジョブ単位で限定され、誤作動時の blast radius を最小化します。

エンタープライズ視点では監査・可視化・承認フローが鍵です。許可ツールのホワイトリスト、ネットワーク出口の制御、パッケージ供給元の固定、スナップショットでのリプロデュース可能性確保が有効です。こうした設計は、報道や公式発表でも重視されています。

  • スナップショット: 途中状態を保存し、失敗時に迅速に再走可能。
  • メモリ: 会話・コンテキストの保持で長期タスクを安定化。
  • ポート: 明示的に開くことで内部ツールのプレビューや連携を安全に。

アーキテクチャの視点:ハーネスとランタイム

更新版Agents SDKの肝はハーネスです。エージェントの計画・ツール呼び出し・観測・反省を、モデルに適した順序で束ねます。これにより、ツールやファイル操作を跨ぎつつ長時間・高複雑度の仕事を破綻なく進められます。

さらに、TemporalのDurable Execution統合など、実運用の落とし穴(レート制限、ネットワーク断、ワーカー再起動)を越える仕掛けも整いつつあります。意図した作業が中断なく完走することは、社内自動化の信頼を左右する基盤要件です。

周辺エコシステムとの比較視点

エージェントはプラットフォーム戦の様相です。選択の軸はモデル親和性・実行基盤・拡張性・コスト。主要エコシステムを俯瞰して、自社要件と照合しましょう。

  • OpenAI Agents SDK: モデル親和のハーネス+ネイティブSandbox。Python先行、TSも整備。公式: Docs / GitHub
  • Cloudflare Agents: Durable Objects上で永続メモリ・スケジューリング・リアルタイムを提供。大規模水平展開に強み。Docs / 解説
  • Claude Agent SDK: コード実行・Web検索・メモリ等の内蔵ツールが充実。Docs
  • OpenHands: コーディング特化のOSS。任意LLM対応で柔軟。Docs
  • Strands: 軽量プリミティブ中心で開発者主導の設計に回帰。Site

結論として、モデル親和性と安全な実行を重視するならOpenAIの進化版は有力候補です。他方で常時接続・超多並列が前提なら、Cloudflareの実行モデルが適合する場面もあります。

ユースケース:実務で光るパターン

サンドボックス機能で「ツール指示」から「自走する作業」へ。現場導入で見える勝ち筋をいくつか。

  • コーディング・修繕: リポジトリをクローンし、テストを走らせ、差分PRを作成。並列サブエージェントで探索的に修正案を比較検証。参考: Modal Blog
  • データOps: CSVやParquetの前処理、品質検査、簡易ダッシュボードの生成。スナップショットで同一結果を再現。
  • 調査・レポート: ファイル収集→要約→可視化→PDF出力までを一括で。パッケージ制御で依存の安全性を確保。
  • 社内IT自動化: ログ監査、設定検証、影響範囲の見積りを反復。ポート解放で一時UIを公開し、レビューを短縮。

これらはいずれも長時間・多段・再現性が鍵です。サンドボックス×ハーネス設計が、業務フローを“任せられる”水準に押し上げます。

実装のコツと落とし穴

導入は段階的に。まずは権限最小で動かし、観測・制御・ロールバックを固めてから横展開します。

  • マニフェスト最小化: packages/ports/filesは必要最小から。外部通信は出口制御で限定。
  • スナップショット設計: 再走の起点を明確化。大きな成果物は外部ストアに退避。
  • メモリ戦略: モデルのコンテキストと永続メモリを使い分け。過学習的なバイアスに注意。
  • 依存のピン止め: パッケージはバージョン固定。サプライチェーン対策をCIで自動検査。
  • 可観測性: トレーシングとイベントログを標準化。失敗の理由を説明できることが運用の通貨です。

最後に、人間の承認ポイントを意図的に残すのが実務の現実解です。コスト・リスクの高い操作はゲーティングし、「安全に速く」を両立させましょう。

情報源と深掘り

締めくくり:ツールから作業単位へ

今回の進化は、エージェントを「外部ツールの呼び出し装置」から「実行可能な作業単位」へ引き上げました。コンテナ上で安全にコードを動かし、観測し、やり直せる。開発と運用の両輪が、ようやく標準装備で回り始めます。

まずは小さく、速く試す。スナップショットで再現し、メモリで文脈を保ち、ハーネスで粘り強く進める。現場で任せられるAIを、今日から育てていきましょう。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

目次