音声駆動型顔面ビデオ生成技術JoyVASA、小動物キャラクターに対応

最近、研究者らはJoyVASAという新しい技術を発表しました。これは、音声駆動による画像アニメーションの効果を高めることを目的としています。深層学習と拡散モデルの進歩に伴い、音声駆動による人物アニメーションは、ビデオ品質と口パクの精度において著しい進歩を遂げてきました。しかし、既存のモデルは複雑であるため、訓練と推論の効率に問題があり、ビデオの長さとフレーム間の連続性にも制限がありました。

JoyVASAは二段階のデザインを採用しています。第一段階では、動的な顔の表情と静的な3次元顔モデルを分離する、解耦合された顔表現フレームワークを導入しました。

この分離により、システムは任意の静的な3次元顔モデルと動的な動作シーケンスを組み合わせ、より長いアニメーションビデオを生成できます。第二段階では、研究チームは、音声の手がかりから直接動作シーケンスを生成できる拡散トランスフォーマーを訓練しました。このプロセスは、キャラクターのアイデンティティとは無関係です。最後に、第一段階で訓練されたジェネレーターは、3次元顔モデルと生成された動作シーケンスを入力として、高品質のアニメーション効果をレンダリングします。

注目すべきは、JoyVASAは人物アニメーションに限定されず、動物の顔もシームレスにアニメーション化できることです。このモデルは、独自の中国語データと公開されている英語データの両方を組み合わせた混合データセットで訓練されており、優れた多言語サポート能力を示しています。実験結果は、この方法の有効性を証明しています。今後の研究では、リアルタイム性能の向上と表情制御の精密化に重点を置き、画像アニメーションにおけるこのフレームワークの適用範囲をさらに拡大していく予定です。

JoyVASAの登場は、音声駆動アニメーション技術における重要なブレークスルーであり、アニメーション分野における新たな可能性を切り開きました。

プロジェクト入口：https://jdh-algo.github.io/JoyVASA/

要点：
🎨 JoyVASA技術は、顔の表情と3次元モデルを分離することで、より長いアニメーションビデオの生成を実現します。
🔊 この技術は、音声の手がかりに基づいて動作シーケンスを生成でき、人物と動物のアニメーションの両方の能力を備えています。
🌐 JoyVASAは、中国語と英語のデータセットで訓練されており、多言語サポートを備え、世界中のユーザーにサービスを提供します。

NVIDIAとArc研究所、世界最大のバイオAIモデルEvo2を発表、ゲノム研究開発を促進

Arc InstituteとNVIDIAは、スタンフォード大学、カリフォルニア大学バークレー校、カリフォルニア大学サンフランシスコ校の研究者らと協力し、世界最大のバイオAIモデルEvo2を発表しました。128,000以上のゲノムデータ、9.3兆個のヌクレオチドに基づいてトレーニングされたEvo2は、最強の生成AI言語モデルに匹敵する規模を誇ります。深層学習能力により、Evo2は様々な生物の遺伝子配列を迅速に識別できます。

精度80%！Meta、非侵襲型ブレイン・コンピュータ・インターフェースを開発、思考だけで文字入力

ソーシャルメディア大手Metaは最近、脳の神経信号を読み取って文字入力が可能な新しいデバイスを開発したと発表しました。この研究成果はMetaの科学者らによる2つの研究で詳細に説明されており、高度な脳スキャン技術と深層学習AIモデルを用いて、タイピング時の脳波信号を解読し、完全な文章を再構築することに成功しました。具体的には、この技術はMEG（磁気脳波計）と呼ばれるスキャナーに依存しており、脳から発せられる微弱な磁気信号を捉えることができます。埋め込みを必要とする…

DeepSeek、年収100万で採用！インターンシップ月給10万円超え

著名なAI企業DeepSeekは、ユーザー数の急増に伴い、積極的に人員拡大を進めています。ある求人プラットフォームによると、杭州深度求索人工智能（AI）基礎技術研究有限公司（DeepSeek）は、深層学習研究員、コアシステム開発エンジニア、ベテランUIデザイナーなど、複数の職種の求人情報を公開しており、勤務地は北京または杭州となっています。

音声駆動型顔面ビデオ生成技術JoyVASA、小動物キャラクターに対応

関連推奨

世界中のAI医療画像市場が急成長：2032年には130億ドルを突破する見込み

百度文心大モデルX1.1の発表：ディープラーニング能力がさらに向上

NVIDIAとArc研究所、世界最大のバイオAIモデルEvo2を発表、ゲノム研究開発を促進

精度80%！Meta、非侵襲型ブレイン・コンピュータ・インターフェースを開発、思考だけで文字入力

DeepSeek、年収100万で採用！インターンシップ月給10万円超え