Hume AIは最近、最新の音声生成モデルTADA(Text-Acoustic Dual Alignment)をオープンソースとして公開しました。これは大規模言語モデルを基盤としたテキストから音声への変換(TTS)システムで、革新的なテキスト-音響二重同期アーキテクチャを採用し、生成効率、信頼性、および適用シーンを大幅に向上させています。

公式説明によると、TADAはテキストトークンと音響表現を1:1で厳密に同期することで、従来のLLMベースのTTSシステムでよく見られるトークンレベルの内容の幻覚(hallucination)問題を完全に解決しています。1000以上のテストサンプルでの評価では、このモデルはコンテンツの幻覚がゼロであることを示しました。

性能面では、TADAの生成速度は同クラスのLLM TTSシステムより5倍以上速く、リソース消費も非常に少ないです。1秒あたりの音声には2〜3フレームの計算リソースで済み、従来の方法では通常12.5〜75フレームが必要です。これにより、モデルはスマートフォンやエッジデバイスなどの低電力ハードウェアでローカルで推論することが可能となり、クラウドサーバーに依存する必要がありません。

TADAは中国語を含む多数の言語をサポートしており(多言語バージョンはLlama3.23Bのパラメータ規模に基づいています)、1B(主に英語向け)と3Bの多言語プレトレーニングモデルを提供します。モデルは2048トークンのコンテキストウィンドウを採用しており、一度に約700秒の連続音声を生成できます。これは従来の方法では同じトークン制限下で約70秒しかサポートできなかったものに比べてはるかに優れています。

もう一つの重要なイノベーションは、同期転記機能です。モデルは音声を生成する際に直接対応するテキストの転記を出力し、別途音声認識(ASR)プロセスを実行する必要がありません。これにより、追加の遅延なしに文字出力を実現できます。この特徴は、リアルタイム字幕、音声インタラクション、コンテンツ作成などのアプリケーションにおいて大きな価値があります。

人間による主観的評価では、TADAの自然さと音色の類似度ランキングは第2位であり、パラメータ規模や訓練データ量がより大きい多くのシステムを上回り、非常に競争力のある音声品質を示しています。

URL:https://huggingface.co/collections/HumeAI/tada