Zhipu AIが大規模LLM「GLM-5」を発表

2026年2月25日

コードを書くAIから、システムを組むAIへ

GLM-5は、単に文章やコードを書く道具ではありません。要件の分解から設計、実装、検証までを一気通貫でこなす“エージェント型”の作業者として打ち出されました。中国のZhipu AIが春節直前に投入し、市場も研究者も一気に注目しています。

背景には、長期タスクを安定して回す力、そして大規模Mixture-of-Expertsでの推論効率化があります。発表当日から株価やコミュニティの反応が動いたのは、性能主張に加えて“自律的に成果物を仕上げる”方向へ舵を切ったからです。

GLM-5の全体像

アーキテクチャとスケール

公開情報によれば、GLM-5は約744〜745B規模のMixture of Expertsで、推論時に約44Bがアクティブになる構成です。これにより総パラメータを巨大化しつつ、実行コストを抑えた“疎”な推論を実現します。長文・長期の意思決定に強いとされ、エージェントの計画や分割・統合で威力を発揮します。

さらに、オープンモデルとしての公開姿勢が強調されています。複数メディアがMIT系の寛容ライセンスやウェイト配布、FP8量子化版の提供に触れており、開発者が実機で試せる体制が整いつつあります。

学習・公開形態のポイント

報道ではHuawei Ascendでの学習完結がたびたび取り上げられました。NVIDIA依存からの脱却を意識したスタックで、MindSporeなど国産基盤の活用が示唆されています。これは地政学リスクの軽減だけでなく、推論時の最適化余地にも関わります。

実運用はZ.aiのAPIやプラットフォーム経由で即時に試せ、ローカル実行は重量級ながら、クラウド越しに“長い仕事”を任せる使い方が現実的です。

エージェント能力の進化

GLM-5は長期・多段のタスク実行を重要な差別化点として掲げます。Web探索や仕様調整、成果物の整形までを連続して回すことで、プロンプト→最終ドキュメントまでの“谷”を埋めます。

とくに注目は、Agent Modeのようなワークフロー機能です。素材テキストや調査結果から、.docx/.pdf/.xlsxなどの実用ドキュメントを直接生成できるとされ、オフィスワークの“最後の仕上げ”を自動化する方向です。

“The open-source GLM-5 model features enhanced coding capabilities and the ability to perform long-running agent tasks.” Reuters

“Zhipu AI says GLM-5 can take text and other sources and turn them directly into polished .docx, .pdf, and .xlsx files.” The Decoder

コーディング強化と実ベンチマーク

開発者目線では、GLM-5のコーディング性能が一番の関心事です。SWE-bench Verifiedでは77.8を記録し、Gemini 3 Proを上回り、Claude Opus 4.6に迫ると報じられました。実務の“バグ修正”に相当する評価で健闘しています。

また、社内評価ではエージェント性能とコーディングでオープンモデル最上位級を主張し、GoogleのGemini 3 Proを部分的に凌駕とする報道もあります。もちろん独立検証の積み上げは今後の課題ですが、“現場対応力”に振った設計は明確です。

“GLM-5 achieved industry-leading scores for open models in key areas such as coding and agentic performance … even surpassing Google DeepMind’s … Gemini 3 Pro.” South China Morning Post

長期タスクに強い設計：依存関係の多い実装や、マイクロサービス間の調整に有利。
成果物直行型ワークフロー：仕様→コード→テスト→文書化までをまとめて回せる。
オープン実行環境：ローカル検証やオンプレPoCが進めやすい。

一方で、推論の安定化や再現性、セキュリティ設計は導入側の運用スキルにも左右されます。“モデル単体の強さ”より“総合エンジニアリング”が問われる局面です。

使い方ガイド：まずはここから

クラウドで試す

Z.aiのオープンプラットフォームからAPIとコンソールで開始するのが最短です。コーディング向けのプランやエージェント向けユースケースが整理され、プロジェクト共有や権限管理も踏まえた使い勝手になっています。初期は小さな長期タスク（例：要件整理→ディレクトリ設計→雛形生成→Lint/テスト雛形）で挙動を掴むと良いです。

ローカルで検証する

Hugging Faceなどからウェイトを取得し、量子化版で推論を試すことも可能です。ただしフルモデルは約1.5TB級のメモリを要すると報じられ、実務では分散推論や軽量派生モデルの活用が現実的です。最初はサブセットや蒸留系でのPoCを推奨します。

クラウド：ZHIPU AI OPEN PLATFORM でプラン比較とAPIキー発行
ウェイト：GIGAZINE経由の配布情報を参照（MIT系ライセンス報道）
運用：プロンプト設計＋実行ポリシー（再試行、タイムアウト、検証）を最初に固める

特にエージェント運用では“検証・承認ステップ”を必ず入れてください。長期タスクは便利な反面、誤った前提で暴走するリスクを伴います。

技術解説：MoE・Sparse Attention・Ascend

GLM-5はMixture of Expertsで巨大化と効率を両立します。トークンごとに専門家サブネットを選ぶことで、計算量を抑えつつ表現力を引き上げます。さらにSparse Attentionの系譜を取り込み、長文でも計算量を制御。これは計画→実装→検証と段階的に進むエージェントの“長い文脈”で効いてきます。

ハード面ではHuawei Ascendでのフル学習が報じられ、国産フレームワークと合わせた最適化が示されました。依存分散、コスト分散の観点で大きい一歩です。

“GLM-5 was entirely trained using Chinese-made Huawei Ascend chips.” Silicon Republic

“It can process context windows of up to 200,000 tokens and uses the DeepSeek Sparse Attention mechanism for efficient processing of long sequences.” Trending Topics

学習データ規模の増強も報じられ、28.5兆トークン級への拡大で、実務的な知識の網羅と分布の更新が期待されます。これらが合わさり、GLM-5は“書くAI”から“作り上げるAI”へと舵を切った、と言えます。

競合比較と市場インパクト

中国勢の競争は激化しています。Moonshot AIのKimi 2.5やDeepSeek系と並走しつつ、GLM-5はオープンモデルでの最上位主張とエージェント実務志向で存在感を高めました。

市場面では、発表直後に株価が急伸したとの報道もあり、商用展開と性能主張が投資家心理に直撃。国内外の企業にとっても、閉鎖モデルへの一極依存を避ける選択肢が現実味を帯びます。

“Zhipu on Thursday released the latest iteration of its large language model, GLM-5, surpassing a rival … to claim the top spot among open-source models on benchmarking site Artificial Analysis.” Bloomberg

一方で、“主張”と“独立検証”の差は常に意識したいポイントです。ベンチマークの設計や評価対象の差、英語・中国語・多言語のバイアスなど、導入企業自身の内製評価が不可欠です。

導入の落とし穴とチェックリスト

GLM-5は強力ですが、運用要件も重いのが正直なところです。フルサイズのローカル運用はデータセンター級の設備を要し、クラウドでも長期タスクはコストとSLO設計がカギ。価格改定や推論待ちなど需給ひっ迫も織り込みましょう。

また、エージェントは便利な反面、誤情報の拡散・過剰権限・データ持ち出しといったリスクを伴います。ガバナンスと監査、人手による承認ゲートを必ず設けてください。

技術：プロンプト指針／再試行・タイムアウト／検証用テストの自動生成
セキュリティ：権限分離／シークレット管理／ネットワーク越境の制御
コスト：長期タスクの課金見積もり／失敗時の巻き戻し設計
法務：ライセンスとデータ取り扱い（MIT系の確認、第三者コンテンツの扱い）

特に長期ワークフローでは、途中成果の保存と検証を挟むことで、誤った分岐の損失を最小化できます。ここは“設計力”の勝負所です。

まとめ：GLM-5は“実務AI”の主役候補

GLM-5はエージェント×コーディングの実務領域で、強い存在感を放っています。巨大MoEとSparse Attention、Ascend基盤の最適化を背景に、長い工程を任せられるAIとしての像が見えてきました。

一方で、主張の大きさゆえに独立検証と運用設計の重要性は増しています。まずは小さな長期タスクから始め、評価指標と監査の枠組みを整えながら、徐々に適用範囲を広げていく。“AIが仕事を進め、人が合意と品質を担保する”体制づくりが肝要です。

参考リソースと追加情報

最新の主張やベンチマークは日々更新されます。複数ソースでクロスチェックし、自社評価を重ねて精度を高めてください。以下は記事作成時点の主要ソースです。

日本語の概説記事も増えています。全体像の把握にはTECH NOISYも参考になります。最終判断は、自社データ・自社タスクでのPoC結果を基礎にしてください。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

AI好きなラボの住人

Zhipu AIが大規模LLM「GLM-5」を発表

コードを書くAIから、システムを組むAIへ