AnthropicがResponsible Scaling Policyの誓約を撤回

2026年3月12日

安全か、速度か——RSP改定が突きつけた現実

AIの最前線で、倫理と競争の綱引きが強まっています。
AnthropicはResponsible Scaling Policyを更新し、象徴的だった「十分な安全策が保証できないなら訓練しない」という誓約を外しました。
TIMEの独占報道が火種となり、業界に大きな波紋が広がっています。

これは単なる文言変更ではありません。
開発の止め方から、開発の進め方と見せ方へのシフトです。
透明性の強化と外部監視を前面に、必要に応じて“遅らせる”運用へ舵が切られました。

安全の担保を先に置くか、技術の先行を守るか。
その二者択一を避けるための折衷案としての改定とも言えます。
ただし、実効性をどう確保するかがこれからの焦点です。

“In an abrupt shift, the company may release future AI models without ironclad safety guarantees.”
出典: TIME

何が起きたのか——「ハードストップ」から「条件付きディレイ」へ

従来のRSPでは、特定の能力閾値に達した場合に十分な安全対策が整うまで訓練や展開を停止する強い誓約が核でした。
今回のv3では、そのハードコミットメントが撤回。
代わりに、透明性と説明責任を強化し、状況次第で開発・展開を遅らせる運用へと再設計されました。

TIMEやCNNは、競争環境への適応が背景にあると指摘します。
Anthropicは「責任ある開発者だけが立ち止まる世界」は逆に危険だと示唆。
“止める”誓約から“見せて評価を仰ぎつつ、必要なら遅らせる”という約束へ、重心が移っています。

“Anthropic … is loosening its core safety principle in response to competition.”
出典: CNN

新方針の中身——公開・比較・遅延の3本柱

透明性の強化と公開サイクル

RSP v3は、3〜6カ月ごとのRisk Reportと、フロンティア領域の安全ゴールを示すSafety（Frontier Safety）Roadmapの定期公表を掲げます。
評価方法、未解決リスク、緩和計画を可能な範囲で開示し、外部レビューも取り入れる設計です。

「安全での立ち遅れ回避」のコミット

競合と比べて安全性の取り組みで後れを取らないというコミットを明示。
性能競争と同じ熱量で安全策を進めることを誓い、社内リソース配分や工程管理の再設計を滲ませます。

停止から「遅延」へ——条件付きのブレーキ

事前に安全を保証できない局面では、「停止」ではなく“遅延（delay）”による調整へ。
その判断根拠をリスクレポートで説明し、レビュー結果や規制当局の動向を踏まえて前進可否を決める流れです。

Risk Report: 3〜6カ月ごとに公開。モデル能力・悪用シナリオ・緩和状況を要約
Safety Roadmap: 次期モデル開発の安全KPIや技術整備計画を明確化
外部レビュー: 第三者評価を適宜受け、勧告と対応を追記

背景にある圧力——技術曲線と制度の遅れ

Anthropic自身、現行のセキュリティ標準が国の安全保障支援なしでは到達困難だと認めています。
モデル重みの保護や最先端機関への耐性確保は、民間だけでは限界があるという現実です。

“its ‘SL5’ security standard … is ‘currently not possible’ and ‘will likely require assistance from the national security community.’”
出典: Anthropic RSP v3

一方で、米政府との緊張や規制の遅れも無視できません。
安全基準の社会的合意が追いつかない中、企業はグローバル競争の速度にさらされます。
こうした圧力が、ハードストップから透明性と協調ガバナンスへの移行を後押ししました。

直近では国防総省との摩擦や訴訟も報じられました。
供給網指定や契約の緊張は、民間の安全設計と国家安全保障の接点を露出させています。
ガバナンスは企業単独では閉じません。

実務でどう活かすか——読み解き方と備え

企業や開発者は、透明性の“厚み”に着目してください。
レポートが「能力の伸び」「悪用経路」「緩和策の成熟度」をどこまで具体で示すかが、実効性の指標です。

監査可能性の確認: 公開KPIやエビデンスの再現性、第三者レビューの範囲を点検
モデル導入のゲーティング: 自社用の安全KPIと連動させ、レポート閾値を満たすまで本番適用を遅延
サプライチェーン連携: プロバイダ横断で脅威インテリジェンスとレートリミット運用を標準化
レッドチーミング予算: 公開評価に依存せず、社内ドメイン特化の攻撃シナリオで継続監査

特に次期モデルのSafety Roadmapは、導入計画の先回りに有用です。
能力更新の節目と緩和策の整備タイミングを読み、社内の検証・教育・権限設計を前倒ししましょう。

規制への連結——“規制はしご”の設計図

RSP v3は政策側への提案も含みます。
リスクが増すほど規制を段階的に強化するRegulatory Ladder（規制のはしご）の考え方です。
民間の自主管理と公的規制の結節点を用意することで、停止に頼らない安全の底上げを狙います。

“Publish a policy roadmap with concrete proposals for a ‘regulatory ladder’—policies that scale with increasing risk and that could help guide government AI policy.”
出典: Anthropic RSP v3

実装上は、能力・外部性・集中リスクに応じたアクセス制御、監査義務、重罰化の三層で設計するのが現実的です。
産業界は、評価基準の共通化と監査データの相互運用を急ぐべきでしょう。
その前提として、公開レポートの粒度標準を合意することが要になります。

重要な論点——“見せる安全”は十分か

誓約撤回は、安全の担保から安全の検証へのパラダイム転換です。
ただ、透明性は万能ではありません。
「見せ方が上手い企業」が得をするだけでは、実害の抑止になりません。

鍵は比較可能性と事後検証です。
共通ベンチ、独立レビュー、再現可能な監査ログ、導入停止の“自動トリガー”を束ねて初めて歯止めになります。
また、能力公開のペース管理と、二次利用制限の実効性も避けて通れません。

それでも、今回の改定は閉じた誓約から開かれた検証への一歩です。
競争の現実に向き合いながら、外部に計測可能な「安全の仕事量」を増やす。
私たち利用者側も、その情報を活かす準備が問われています。

参考リンク

まとめ——止める勇気から、測る勇気へ

RSPの改定は、AI安全のフェーズが変わったことを告げています。
止める勇気だけでなく、測り、見せ、直す勇気が問われる段階です。
その移行を本物にできるかどうかは、透明性の質と外部検証の強度にかかっています。

利用者・導入企業は、公開情報を“読む力”を強化し、導入判断をガバナンスで裏打ちしましょう。
規制当局と業界は、比較可能な評価軸とはしご型規制の実装に踏み出すべきです。
次の数カ月で公開されるRisk ReportとSafety Roadmapが、最初の試金石になります。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

AI好きなラボの住人

AnthropicがResponsible Scaling Policyの誓約を撤回

安全か、速度か——RSP改定が突きつけた現実

何が起きたのか——「ハードストップ」から「条件付きディレイ」へ