CAP4D：参考画像をアップロードするだけで高品質な4Dキャラクタアバターを生成

最近、トロント大学とベクトル研究所の研究チームが、任意枚数の参照画像からリアルな4Dアバターを生成できる新しい技術、CAP4Dモデルを発表しました。これは、変形多視点拡散モデル（MMDM）に基づいた技術です。

このモデルは二段階の手法を採用しています。まず、MMDMを使って様々な視点と表情の画像を生成し、次にこれらの生成画像と参照画像を組み合わせることで、リアルタイムで制御可能な4Dアバターを再構築します。

CAP4Dのワークフローでは、ユーザーは任意枚数の参照画像を入力できます。これらの画像は、変分オートエンコーダーの潜在空間にエンコードされます。次に、既存の顔トラッキング技術であるFlowFaceを使用して、各参照画像の3D変形モデル（FLAME）を推定し、頭部の姿勢、表情、カメラの視点などの情報を抽出します。MMDMは、ランダムサンプリングによって、各反復生成プロセスにおいて、入力された参照画像を組み合わせ、複数の異なる画像を生成します。

研究チームは、単一参照画像、少数の参照画像、そしてテキストプロンプトやアートワークからのアバター生成というより困難なシナリオを含む、CAP4Dによって生成された様々なアバターを公開しました。複数の参照画像を使用することで、単一の画像では見えないディテールや形状を復元し、再構築精度が向上します。さらに、CAP4Dは既存の画像編集モデルと組み合わせることができ、ユーザーは生成されたアバターの外見や照明を編集できます。

アバターの表現力をさらに高めるために、CAP4Dは生成された4Dアバターと音声駆動アニメーションモデルを組み合わせ、音声駆動のアニメーション効果を実現できます。これにより、アバターは静的な視覚効果だけでなく、音声を通じてユーザーと動的にインタラクトすることも可能になり、仮想アバターアプリケーションの新たな領域を切り開きます。

要点:
🌟 CAP4Dモデルは、任意枚数の参照画像から高品質な4Dアバターを生成でき、二段階のワークフローを採用しています。
🖼️ この技術は、様々な視点のアバターを生成でき、画像の再構築精度とディテールの表現が大幅に向上します。
🎤 CAP4Dは音声駆動アニメーションモデルと組み合わせることで、音声駆動のダイナミックなアバターを実現し、仮想アバターの応用範囲を広げます。

OpenAIのo3モデル：1タスクあたり5箱分のガソリンに相当するエネルギー消費

人工知能の進歩に伴い、イノベーションと持続可能性のバランスが重要な課題となっています。最近、OpenAIはこれまでで最も強力なAIモデルであるo3を発表しました。しかし、これらのモデルを実行するためのコストに加えて、環境への影響も広く懸念されています。ある研究によると、o3の各タスクは約1,785キロワット時の電力を消費し、これはアメリカの平均的な家庭の2ヶ月分の電力消費量に相当します。SalesforceのAIサステナビリティに関する取り組みなど...

ロボットが「脳みそアップグレード」！星動紀元、ネイティブ大規模言語モデルERA-42を発表、100種類以上の巧みな操作を実現

ロボット分野に大きなブレイクスルー！星動紀元は先日、同社が独自開発したエンドツーエンドのネイティブロボット大規模言語モデルERA-42を発表し、独自開発の5本指の巧みなハンド星動XHAND1と組み合わせることで、具象大規模言語モデル1つだけで、100種類を超える複雑で精密な操作タスクを駆動することに初めて成功しました。これには、ねじを取り上げてドリルで締め付ける、ハンマーで釘を打つ、コップを立て直して水を注ぐなど、高度な動作が含まれ、ロボットの知能化レベルが新たな段階に達したことを示しています。ERA-42の強みは…

マスクのxAI社、GrokチャットボットのiOS独立アプリをテスト中

マスク氏の人工知能企業xAIは現在、Grokという独立したiOSアプリをテストしています。このチャットボットは以前はXプラットフォームのユーザーのみに利用可能でしたが、Grokアプリはオーストラリアなど一部の国でテスト段階に入り、ユーザーはアプリを通じてリアルタイムデータを取得し、より豊富なインタラクション体験を得ることができます。Grokはユーザーからの質問に答えるだけでなく、画像生成機能も備えています。アプリの説明によると、Grokの機能にはテキストの書き換え、長い…

画像超解像度が新たなブレイクスルー！InvSRツールで、ぼやけた写真をワンクリックで高画質に

ぼやけた写真に悩んでいませんか？新しく登場した画像超解像度ツールInvSRを使えば、簡単な手順で画像を鮮明にできます。このツールの強みは、大規模な事前学習済み拡散モデルに蓄積された豊富な画像の事前知識を活用し、効率的で高品質な画像解像度向上を実現している点です。InvSRの中核技術は、革新的な部分ノイズ予測戦略にあります。拡散モデルの中間状態を巧みに構築し、サンプリングプロセスの開始点として活用。深層ノイズ予測器を用いて…

中国国産大規模言語モデルが巨額資金調達！階躍星辰が数億ドル規模のシリーズBラウンドを実施、マルチモーダルとAGIに賭ける