中国の国産基盤モデルにより、兵馬俑でもダンス?

ソース:人民網日本語版作者: 2024-01-15 15:40

 兵馬俑、イーロン・マスク氏、そして各地のネットユーザーによる「科目三」ダンスやネット有名人によるダンスなどの動画がこのところ、中国のSNSで流行している。これらの10秒ほどの動画に生身の人間は出演せず、いずれも基盤モデルで生成されたものだ。多くのネットユーザーがこのハードルの低い「ダンス」を体験するようになり、ダンスを競うブームが巻き起こった。中央テレビ網が伝えた。

 これは阿里雲(アリクラウド)の「通義千問」アプリがリリースした無料の機能で、アプリ内で「通義舞王」「全民舞王」などの言葉を入力すると体験ページに入ることができる。ユーザーが表示に従い画像をアップロードすると、指定したダンスのような動きで踊る動画が十数分で生成され、元の画像の表情や体形、ファッション、そして背景などの特徴はそのまま動画に反映される。「通義千問」は第1弾としてユーザーに「科目三」「モンゴルダンス」「パドルステップ」「メルボルンシャッフル」などの12種の人気ダンステンプレートを提供している。

 この機能を支えるアルゴリズムは、阿里通義実験室が開発した動画生成モデル「Animate Anyone」だ。この研究は早くも昨年11月末の時点でX(旧ツイッター)やユーチューブなどの海外SNSで人気になり、関連する動画の再生数が1億回以上、開発者のためのコミュニティであるGithubのスター数はわずか数日で1万を超え、最近の基盤モデル分野で最も人気の基盤モデルアルゴリズムの一つとなった。海外の開発者とネットユーザーはこのアルゴリズムの効果を称賛し、「体験の入口を開放してほしい」と呼び掛けた。

 公開された論文によると、Animate Anyoneは複数のイノベーション技術を集積し、ReferenceNetを導入し、元の画像の情報を捕捉・保存し、人物、表情、ファッションの細部を高度に再現できる。また同アルゴリズムは高効率の姿勢ガイド「Pose Guider」を利用し、動きの精度と制御性を保証。さらに順序生成モジュールにより、動画のフレーム間の滑らかさを効果的に保証した。同じデータセットを使ったテストでは、Animate Anyoneの性能は中国内外の同類モデルを大きく上回った。

編集:董丽娜

文章と写真の著作権は元の作者に属します。侵害があれば、削除に連絡してください。