|
Alibaba の Tongyi Labs が、最新かつ最も強力なビデオ生成モデルである Wan2.1 シリーズを正式にオープンソース化しました。 Wan2.1のハイライト✨ 複雑なモーション: ビデオの動きがよりスムーズで自然になり、複雑なシーンも簡単に処理できます。 🧲 物理シミュレーション:よりリアルなオブジェクトのインタラクション、より没入感のあるビデオ 🎬映画のような品質: 視覚効果が新たなレベルに引き上げられ、より豊かなディテールとより優れた芸術性を実現しました。 ✏️ 制御可能な編集:より強力な編集機能とより広い創造空間 ✍️ ビジュアルテキスト: 中国語と英語の両方で動的なテキスト生成が可能になり、アプリケーションシナリオが拡大します。 🎶 サウンドと音楽: 非常に魅力的なビデオを備えた統合されたオーディオビジュアル体験。 Wan2.1 シリーズのモデルは、さまざまなニーズを持つユーザーにさまざまな選択肢を提供します。Wan2.1-I2V-14B :画像から動画への変換 (I2V) 技術の最高峰! 140億のパラメータ、720P HD 品質、最先端 (SOTA) の I2V パフォーマンス! Wan2.1-T2V-14B :テキストから動画への変換 (T2V) 技術のパフォーマンスの王者! 140億のパラメータ、720P HD 品質、最先端 (SOTA) の T2V パフォーマンス! 中国語と英語のテキスト生成を排他的にサポート! Wan2.1-T2V-1.3B :コンシューマーグレードのグラフィック カードの最高のパートナー! 13億のパラメータ、スムーズな 480P 再生、8GB の VRAM があれば、素晴らしいゲーム体験が得られます! 一部のクローズド ソースの大規模モデルに匹敵するパフォーマンス! AlibabaはWan2.1の技術レポートも添付しました。技術レポートによると、Wan2.1 の画期的な進歩は主に次の主要な革新によるものです。 コアイノベーション 1: 3D 変分オートエンコーダー (VAE) – ビデオ圧縮と品質の完璧なバランス! Wan2.1チームは、動画生成に特化した革新的な3D因果VAEアーキテクチャを提案しました。複数の戦略を巧みに統合し、時空間圧縮、メモリ制御、時間的因果関係の最適なバランスを見つけることで、VAEの効率性とスケーラビリティを向上させ、DiT拡散モデルと完璧に融合しています。 長時間動画処理の秘密:特徴キャッシュ機構:任意の長さの動画を効率的に処理するため、Wan2.1のVAEは因果畳み込みモジュールに特徴キャッシュ機構を導入しました。この機構は、動画フレームシーケンス(1+T形式)を1+T/4のチャンクに分割し、各チャンクは潜在特徴に対応します。モデルはチャンクワイズ戦略を用いて動画を処理し、各エンコード/デコード処理において、1つの潜在特徴に対応する動画チャンクのみを処理します。各チャンクのフレーム数は最大4フレームに制限されているため、GPUメモリオーバーフローを効果的に防ぎます。 パフォーマンスが飛躍的に向上:速度2.5倍向上!実験により、Wan2.1のビデオVAE性能は抜群で、動画品質と処理効率の両方において優れています。同じハードウェア環境(A800 GPU 1基)において、Wan2.1のVAE再構成速度は最先端技術であるHunYuanVideoの2.5倍の速度を実現しました。高解像度では、速度の優位性はさらに顕著になります。 コアイノベーション 2: ビデオ拡散トランスフォーマー (DiT) – 強力な生成機能の源! Wan2.1は、主流の拡散TransformerパラダイムとFlow Matchingフレームワークに基づいて、動画拡散モデルDiTを構築します。T5 Encoderを巧みに活用して多言語テキストをエンコードし、各Transformerブロックに相互注意を付与することで、テキスト情報をモデル構造に深く統合します。 効率的なパラメータ最適化:線形層 + SiLU層 + 共有MLP :Wan2.1は、線形層とSiLU層を用いて時間埋め込みを処理し、6つの変調パラメータを予測します。重要なのは、すべてのTransformerブロックで共有MLPが使用され、各ブロックが異なるバイアスのみを学習することです。実験では、この手法により、パラメータサイズを維持しながらモデル性能が大幅に向上することが示されています。そのため、1.3Bモデルと14Bモデルの両方でこのアーキテクチャが採用されています。 コアイノベーション3:モデルのスケーリングとトレーニング効率の最適化 - モデルの大規模化、スピードの向上 より大規模な Wan2.1 モデルをトレーニングし、トレーニングと推論の効率を向上させるために、チームはさまざまな並列戦略を採用しました。 トレーニング加速:FSDP + コンテキスト並列処理(CP) :Wan2.1はトレーニング中に、モデルシャーディングにFSDP(Fully Sharded Data Parallel)とコンテキスト並列処理(CP)を組み合わせます。FSDPグループとCPグループはネストではなく交差します。FSDPでは、データ並列処理(DP)サイズはFSDPサイズをCPサイズで割った値に等しくなります。DPは、メモリと単一バッチのレイテンシ要件を満たした後、スケーリングに使用されます。 推論アクセラレーション:コンテキスト並列処理(CP) :推論中、単一ビデオ生成のレイテンシを削減するため、Wan2.1は分散アクセラレーションとしてコンテキスト並列処理(CP)を選択します。14Bのような大規模モデルでは、モデルシャーディング(FSDP)も必要です。ビデオシーケンスは一般的に長いため、FSDPはテンソル並列処理(TP)よりも通信オーバーヘッドが低く、計算と通信をオーバーラップさせることができます。 並列化戦略の詳細:2Dコンテキスト並列化:学習と推論の両方に同じ2Dコンテキスト並列化戦略が使用されています。RingAttentionは外部層間で使用され、Ulyssesはマシン内層で使用されます。実験では、Wan 14Bの大規模モデルにおいて、DiTは2D CPおよびFSDP並列戦略を用いることでほぼ線形の高速化を達成しました。 コアイノベーション 4: 画像からビデオ (I2V) – 画像駆動型、正確かつ制御可能! Wan2.1は、画像から動画への変換(I2V)タスクにおいても優れたパフォーマンスを発揮し、優れた制御性を実現します。主なI2Vテクノロジーには以下が含まれます。 条件画像ガイダンス:条件画像はビデオの最初のフレームとして使用され、時間軸に沿ってゼロパディングフレームと接合されてガイダンスフレームを形成します。 VAE 圧縮条件情報: ガイド フレームは、3D VAE を使用して条件潜在表現に圧縮されます。 生成領域を制御するバイナリマスク:バイナリマスクが導入され、1は保持するフレーム、0は生成するフレームを表します。マスクの空間サイズは条件付き潜在表現と一致し、時間的長さは対象ビデオと同じです。マスクは、VAEの時間ステップに対応する特定の形状に再形成されます。 融合メカニズム: ノイズ潜在表現、条件付き潜在表現、および再形成されたマスクがチャネル軸に沿って連結され、DiT モデルに入力されます。 I2V 専用投影レイヤー: I2V DiT モデルには T2V モデルよりも多くの入力チャネルがあるため、追加の投影レイヤーが追加され、ゼロ値で初期化されます。 CLIP画像エンコーダ + MLPグローバルコンテキスト:CLIP画像エンコーダ**は、条件画像の特徴表現を抽出します。これらの特徴は、3層MLP**を用いてグローバルコンテキストに投影され、その後、分離クロスアテンション**を介してDiTモデルに注入されます。 大規模で高品質なデータセット – モデルパフォーマンスの基礎です。強力なWan2.1モデルをトレーニングするために、Tongyi Labsは15億本の動画と100億枚の画像を含む大規模で高品質なデータセットを構築しました。データソースには、著作権で保護された社内データと公開データが含まれています。 4段階のデータクリーニングプロセス:膨大な量のデータを精査し、高品質で多様なデータを抽出するために、チームは4段階のデータクリーニングプロセスを設計しました。このプロセスでは、基本的な寸法、視覚品質、モーション品質に基づいてデータを厳密にフィルタリングし、トレーニングデータの純度と有効性を確保します。(4段階プロセスの詳細な説明については、公式の技術レポートをご覧ください!) 結論は:AI業界は現在、競争が激しすぎます。アリババのオープンソースへの取り組みは誠意を感じさせますが、主流に食い込むには主力製品が必要だと感じます。DeepSeekのオーラはあまりにも眩しいです。 |
ソラを超える!アリババは最新かつ最強のビデオ生成モデル、Wan2.1を正式に完全オープンソース化しました。
関連するおすすめ記事
-
89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">resource ( s )
2022/07/02 13:17:33 1 つのリソースを作成しています
2022/07/02 13:17:33 1 つのリソースを作成しています
2022/07/02 13:17:33 検出キャッシュをクリアしています
2022/07/02 13:17:33 タイムアウト1 分で4つのリソースの待機を開始
2022/07/02 13:17:39 43個のリソースを作成しています( s )
2022/07/02 13:17:39 5分0 秒のタイムアウトで43のリソースの待機を開始
2022/07/02 13:17:40 デプロイメントの準備ができていません: argocd / argocd - applicationset - controller 。 予想される1 個のポッドのうち0 個が準備ができています
2022/07/02 13:17:42 デプロイメントの準備ができていません: argocd / argocd - applicationset - controller 。 予想される1 個のポッドのうち0 個が準備ができています
……
2022/07/02 13:19:44 デプロイメントの準備ができていません: argocd / argocd - applicationset - controller 。 予想される1 個のポッドのうち0 個が準備ができています
2022/07/02 13:38:27 デプロイメントの準備ができていません: argocd / argocd - dex - server 。 1 個のポッドのうち0 個が準備完了です
2022/07/02 13:38:30 リリースインストールに成功しました: argocd / argo - cd - 4.9.11
2022-07-02 13:38:30 ✔ [ 成功] ツール( argocd / default ) の作成が完了しました。
2022 - 07 - 02 13 : 38 : 30 ℹ [ 情報] -------------------------- [ 処理の進行状況: 4/4 。 ] --------------------------
2022 - 07 - 02 13 : 38 : 30 ℹ [ INFO ] 処理中: ( argocdapp / default ) -> 作成...
2022-07-02 13:38:31 ℹ [ INFO ] application . argoproj . io / dtm - test - go が作成されました
2022-07-02 13:38:31 ✔ [ 成功] ツール( argocdapp / default ) の作成が完了しました。
2022-07-02 13:38:31 ℹ [ 情報] -------------------- [ 処理が完了しました。 ] --------------------
2022-07-02 13:38:31 ✔ [ 成功] すべてのプラグインが正常に適用されました。
2022-07-02 13:38:31 ✔ [ 成功] 申請が完了しました。適用プロセス中、実行状態は定義された状態バックエンドストレージに保存されます。例えば、ローカルストレージを使用している場合、実行状態はルートディレクトリのdevstream.stateファイルに保存されます。合計4つのツールチェーンがあり、最初の2つが完了し、最後の2つが認識された場合、最初の2つのプラグインの状態がこのファイルに保存されます。次回の再適用時には、最後の2つのツールチェーンのみを実行する必要があります。
上記で定義したツールチェーンは、最終的に GitHub 上に Golang Web 用のスキャフォールディングされたアプリケーション コード リポジトリを作成します。
GitHub Actions は、CI 操作と Docker イメージの構築に使用されます。
CI プロセスは最終的にイメージを Docker Hub にプッシュします。
その後、ArgoCD が Kubernetes にデプロイされます。
$ kubectl get pods -n argocd
名前準備完了ステータス再起動年齢
argocd - アプリケーション- コントローラー- 0 1 / 1 実行中0 5 分55秒
argocd - アプリケーションセット- コントローラー- 64 d8c477f4 - 2 wrg6 1 / 1 実行中0 5 分55秒
argocd - dex - サーバー- dbdbf5499 - krmfz 1 / 1 実行中0 5 分35秒
argocd - 通知- コントローラー- b67c4bdb4 - 22 t9l 1 / 1 実行中0 5 分55秒
argocd - redis - df9db799b - 8 gbpv 1 / 1 実行中0 5 分55秒
argocd - リポジトリ- サーバー- 56769 cdd47 - zs65j 1 / 1 実行中0 5 分55秒
argocd - サーバー- 7 d4745f689 - w5pp7 1 / 1 実行中0 5 分55秒最後に、ArgoCDを使用してCD操作を実行し、サンプルアプリケーションをKubernetesクラスターにデプロイします。基本的には、ArgoCDアプリケーションオブジェクトを作成します。
$ kubectl アプリケーションを取得- n argocd
名前同期ステータスヘルスステータス
dtm - テスト- go 不明健康ArgoCD を通じて、デプロイされたアプリケーションの詳細を表示することもできます。
最後に、ツールチェーン全体を削除する場合は、`dtm delete` コマンドを実行するだけです。
プロセス全体は非常にスムーズでした(ただし、何らかの理由でGitHubへのアクセスが非常に遅かった点を除けば)。必要なプラグインを設定ファイルで定義するだけで済みます。プラグインの設定方法の詳細については、公式ドキュメント(https://docs.devstream.io/en/latest/plugins/plugins-list/)をご覧ください。
YAML設定ファイルに必要なDevOpsツールを定義するだけで、たった1つのコマンドでDevOpsツールチェーンとSDLCワークフロー全体を構築できます。DevStreamはまさに魔法のツールと言っても過言ではありません。
Git リポジトリ: https://github.com/devstream-io/devstream。
-
DataLink: 軽量でオープンソースのIoT可視化ルールエンジン
-
-
-
Google はヒントン カプセル理論のコードを公式にオープンソース化しました。今すぐ TensorFlow で実装しましょう。
-
オープンソーステクノロジーは最大の脅威にどのように対処できるでしょうか?