Hume AIがオープンソースのTADAをリリース：5倍速のゼロフイクションTTSで700秒間のオーディオをスマホで動作

Hume AIは最近、最新の音声生成モデルTADA（Text-Acoustic Dual Alignment）をオープンソースとして公開しました。これは大規模言語モデルを基盤としたテキストから音声への変換（TTS）システムで、革新的なテキスト-音響二重同期アーキテクチャを採用し、生成効率、信頼性、および適用シーンを大幅に向上させています。

公式説明によると、TADAはテキストトークンと音響表現を1:1で厳密に同期することで、従来のLLMベースのTTSシステムでよく見られるトークンレベルの内容の幻覚（hallucination）問題を完全に解決しています。1000以上のテストサンプルでの評価では、このモデルはコンテンツの幻覚がゼロであることを示しました。

性能面では、TADAの生成速度は同クラスのLLM TTSシステムより5倍以上速く、リソース消費も非常に少ないです。1秒あたりの音声には2〜3フレームの計算リソースで済み、従来の方法では通常12.5〜75フレームが必要です。これにより、モデルはスマートフォンやエッジデバイスなどの低電力ハードウェアでローカルで推論することが可能となり、クラウドサーバーに依存する必要がありません。

TADAは中国語を含む多数の言語をサポートしており（多言語バージョンはLlama3.23Bのパラメータ規模に基づいています）、1B（主に英語向け）と3Bの多言語プレトレーニングモデルを提供します。モデルは2048トークンのコンテキストウィンドウを採用しており、一度に約700秒の連続音声を生成できます。これは従来の方法では同じトークン制限下で約70秒しかサポートできなかったものに比べてはるかに優れています。

もう一つの重要なイノベーションは、同期転記機能です。モデルは音声を生成する際に直接対応するテキストの転記を出力し、別途音声認識（ASR）プロセスを実行する必要がありません。これにより、追加の遅延なしに文字出力を実現できます。この特徴は、リアルタイム字幕、音声インタラクション、コンテンツ作成などのアプリケーションにおいて大きな価値があります。

人間による主観的評価では、TADAの自然さと音色の類似度ランキングは第2位であり、パラメータ規模や訓練データ量がより大きい多くのシステムを上回り、非常に競争力のある音声品質を示しています。

URL：https://huggingface.co/collections/HumeAI/tada

マスクのxAIが音声APIをリリース：AIの口代わり争いが再び進化

マスクが率いるxAI社は、Grokテキストから音声変換Speech APIを正式にリリースしました。これにより、AIアシスタントは音声によるインタラクションが可能になります。この動きは、Grokのマルチモーダル機能を拡張し、開発者に便利なインターフェースを提供するだけでなく、会話能力をさまざまなアプリケーションに統合できるようにし、AIエコシステムがより人間らしい方向へと進化させることになります。

マイクロソフトが VibeVoice-Realtime-0.5B を発表：0.5B のパラメータでほぼリアルタイムの自然な音声生成を実現

マイクロソフトは、リアルタイムのテキストから音声への変換モデルである VibeVoice-Realtime-0.5B をリリースしました。0.5B のパラメータで約300ミリ秒以内に発声を開始し、ほぼリアルタイムでのスムーズな音声生成を実現しています。このモデルは中英両方の言語を対応しており、中国語の表現は英語に比べてやや劣るものの、全体としては高いスムーズさと再現性を保っています。自然な音質が注目されています。

Hume AIがオープンソースのTADAをリリース：5倍速のゼロフイクションTTSで700秒間のオーディオをスマホで動作

関連推奨

マスクのxAIが音声APIをリリース：AIの口代わり争いが再び進化

Grokも喋れるようになった！マスクのxAIが音声APIをリリース：AIの口替え争いが再び激化

マイクロソフトが VibeVoice-Realtime-0.5B を発表：0.5B のパラメータでほぼリアルタイムの自然な音声生成を実現

Hume AI音声変換機能がリリースされました。一度のキャプチャであなたの声の魂を完璧に再現します

ElevenLabsがv3 Alpha APIをリリース：70種類以上の言語と無制限の仮想キャラクターをサポート