静止画が息をする—キャラクター“丸ごと”を動かす新時代
キャラクターの動きと表情を、ひとつのモデルで一気に仕上げる。Wan2.2-Animate-14Bは、その理想を現実に近づけました。
画像からのアニメーション生成と、動画内の人物置換を統合。動きの滑らかさと表情のニュアンスの両立が難しかった課題に、統合設計で踏み込みます。
2025年9月19日、モデル重みと推論コードが公開。ローカルでも運用可能な点が、制作フローを大きく変えます。
“Sep 19, 2025: We introduce Wan2.2-Animate-14B, a unified model for character animation and replacement with holistic movement and expression replication. We released the model weights and inference code.”
Hugging Face: Wan-AI/Wan2.2-Animate-14B
統合モデルの要点—何ができるのか
アニメーション生成と人物置換の二刀流
Wan2.2-Animate-14Bは、静止画→動画のキャラアニメーションと既存動画のキャラ置換を単一アーキテクチャで扱います。
参照動画からポーズとテンポを抽出し、ソース画像のキャラクターへ転写。置換時は被写体の境界や光を保ちながら自然に合成します。
- Holistic replication: 全身のモーション+表情の再現
- Pose retargeting: 体格やアングル差を吸収するリターゲット
- Relighting/色調整: シーンの照明になじむルック
公式の案内と動作例は以下が詳しいです。
深掘り—動きと表情の“同時制御”を支える技術
MoE設計と二段の専門家モデル
Wan2.2系のA14Bシリーズは、拡散過程の初期と後期に特化した二つのエキスパートを持ちます。初期は構図やレイアウト、後期は細部の質感と一貫性に強い設計です。
各エキスパートは約14Bで、総計は約27B相当ながら、ステップごとにアクティブなのは14B。推論コストを抑えつつ、ディテールまで粘る画づくりを実現します。
表情とポーズのホリスティック複製
スケルトン信号と暗黙的な顔特徴を組み合わせ、画面全体の動きと微表情を同時に追従。いわゆる“顔だけ上手い/体が硬い”問題を減らし、ショットの説得力を高めます。
分散推論ではFSDPやUlyssesの実装を活用。Hopper世代ではFlashAttention-3対応で大規模生成を安定化します。詳細はモデルカードの推奨設定が参考になります。
- 参考: モデルカードの推論パラメータ
セットアップと基本の使い方—最短ルート
前提
- Python 3.10+、PyTorch環境
- GPU推奨(14Bは24GB VRAM目安)。単GPUでもオフロードで可
- Hugging Face もしくは ModelScope からモデル取得
モデルの取得
# Hugging Face
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-Animate-14B \
--local-dir ./Wan2.2-Animate-14B
# ModelScope
pip install modelscope
modelscope download Wan-AI/Wan2.2-Animate-14B \
--local_dir ./Wan2.2-Animate-14B
前処理と生成(公式実装の例)
# アニメーション(動作模倣)用 前処理
python ./wan/modules/animate/preprocess/preprocess_data.py \
--ckpt_path ./Wan2.2-Animate-14B/process_checkpoint \
--video_path ./examples/wan_animate/animate/video.mp4 \
--refer_path ./examples/wan_animate/animate/image.jpeg \
--save_path ./examples/wan_animate/animate/process_results \
--resolution_area 1280 720 \
--retarget_flag \
--use_flux
# 人物置換用 前処理
python ./wan/modules/animate/preprocess/preprocess_data.py \
--ckpt_path ./Wan2.2-Animate-14B/process_checkpoint \
--video_path ./examples/wan_animate/replace/video.mp4 \
--refer_path ./examples/wan_animate/replace/image.jpeg \
--save_path ./examples/wan_animate/replace/process_results \
--resolution_area 1280 720 \
--iterations 3 --k 7 --w_len 1 --h_len 1 \
--replace_flag
# 生成(単一GPU)
python generate.py --task animate-14B \
--ckpt_dir ./Wan2.2-Animate-14B/ \
--src_root_path ./examples/wan_animate/animate/process_results/ \
--refert_num 1
# 生成(分散/FSDP)
python -m torch.distributed.run --nnodes 1 --nproc_per_node 8 generate.py \
--task animate-14B --ckpt_dir ./Wan2.2-Animate-14B/ \
--src_root_path ./examples/wan_animate/animate/process_results/ \
--refert_num 1 --dit_fsdp --t5_fsdp --ulysses_size 8
手順の詳細は日本語レビューも参考になります。
制作ワークフローとプロンプト設計の勘所
2つの代表タスク
- キャラアニメーション: 参照動画からタイミングとポーズを抽出。表情の変化量が豊富な素材ほど結果が伸びます
- 人物置換: 肌色、衣装トーン、光源方向が近い素材を選ぶと合成の境界が目立ちにくいです
コツ
- 顔の一貫性: 解像度を過剰に落とさず、顔領域の情報量を確保
- ポーズの適合: リターゲット有効時も、極端な体格差は避ける
- 照明合わせ: 置換時はシーンの色温度に近い参照を用意
- 反復試行: 参照枚数やフレーム長を少しずつ調整して最適点を探る
コミュニティではRelighting LoRAなどの連携も言及が増えています。合成馴染みの最適化に挑戦したい方は、関連Tipsを追ってみるとよいです。
パフォーマンスと環境—どのGPUでどこまで動くか
14Bは24GB VRAMが目安。RTX 4090やA100クラスが快適です。単一GPUでも–offload_modelやdtype変換で実行可能ですが、速度は落ちます。
低VRAM環境ではGGUF量子化などの選択肢もあります。品質はやや下がりますが、16GB級でもテスト可能との報告があります。
- 参考: ローカル導入の実測メモ
- 参考: Reddit: Wan2.2環境相談スレ
- 参考: Reddit: 14B GGUF検証
分散推論ではFSDP/Ulysses活用でスループットを底上げ。Hopper以降はFlashAttention-3が効きます。
現場適用のアイデア—小さく始めて大きく伸ばす
- UGC動画の強化: SNS用に静止画キャラを短尺モーション化
- マーケ施策: 製品キャラのダンスやジェスチャー差し替え
- 実写置換: テスト動画でタレント差し替えの雰囲気確認
- アニメ調MV: 表情のキレを生かしたリップシンク演出
- VTuber/デジタルヒューマン: 収録素材の表情リッチ化
プロトタイプは短尺から。参照動画は明瞭なポーズ変化があるものを選び、失敗要因を一つずつ潰すと、安定して品質が上がります。
ライセンスと倫理—安心して使うために
- ライセンス確認: 商用利用や再配布の可否は、モデルカードのライセンス記載を必ず確認
- 肖像権/著作権: 実在人物やキャラクター置換は許諾を明確に
- コンテンツ配慮: 誤用・誤認を誘う合成は避ける。クレジットや生成開示の検討
プロジェクトのポリシー文書を整備し、データと生成物の取り扱いをチーム内で共有しておくと安全です。
まとめ—“動きと表情の一体化”が新しい標準に
Wan2.2-Animate-14Bは、モーションと表情の両輪を高水準で統合したモデルです。9/19公開の重みと推論コードにより、現場導入のハードルが下がりました。
まずは短い参照動画で、顔の一貫性と照明合わせに集中。成果が出たら分散推論やLoRA連携に広げる。そんな段階的導入が、最速の成功ルートです。
最新情報は以下から。実装と運用の両面で、継続的にアップデートを追いましょう。
コメント