音声制作の門檻は完全に打ち破られました。国内のAIユニコーン企業であるステップスターラン(StepStepFun AI)は11月9日に、世界をリードするLLM級の音声編集モデル「Step-Audio-EditX」を正式に発表しました。このモデルは、「自然言語の指示で音声を編集する」革命的な体験を初めて実現しました。ユーザーは「この文章を川渝のラッパーの誇らかさのあるトーンに変えて」とか「最後に恥ずかしそうな笑いを追加して」と入力するだけで、音色や感情、リズム、さらには呼吸の間を正確に調整でき、音声編集が文書の編集のように直感的で効率的になります。

30億パラメータ、性能は向上

Step-Audio-EditXの核心的な突破点は、極めて効率的なモデル圧縮技術です。チームは元の130億パラメータのモデルをわずか30億にまで絞り込み、これにより導入コストを大幅に削減しただけでなく、重要な指標においても上回りました。モデルはゼロサンプルの音声クローンをサポートしています。参考音声1つがあれば、対象人物の訓練データを一切必要とせず、高精度でその声を再現できます。また、複数回の反復編集にも対応し、ユーザーは連続して詳細な指示を出すことができます(例えば「もう少し優しくして」「笑いを0.3秒長くして」など)、徐々に理想の結果に近づけます。

image.png

方言と感情、完璧に扱う

このモデルは中国語の文脈に対する理解が特に驚くべきもので、普通話、英語、四川語、広東語をスムーズにサポートし、地方言語表現における地域的な感情や使用習慣が自然かつリアルです。盲測テストでは評価者全員が「川渝のセリフの日常感」「広東語の助詞の細かさ」が同類製品よりも優れていると一致して認めました。

閉鎖型商用モデルと直接対決、3つの指標で全面優位

AIbaseが取得した比較データによると、Step-Audio-EditXはMinimaxや字節跳動のDoubaoなどの閉鎖型ソリューションに対して三大主要次元で圧倒的な性能を示しています:

自然度スコア:4.72/5(Minimax4.51、Doubao4.38)

感情の正確度:93.7%(第二位より6.2ポイント優位)

音色保持度:98.1%、ほぼ損なわれずに再現

image.png

応用シーン爆発:ビデオから障がい者向けサービスまで

この技術は新たなコンテンツ形態を生み出しています:

ビデオブロガーは一括で「元気な少女」「毒舌の講師」など人設の声を切り替えることができます。

オーディオブックの作成者は一人で多役の感情対話を完成させることができます。

四川語のコメディビデオはAIによって再構築され、瞬時にアメリカン・トークショー風に海外展開されます。

聴覚障害者の音声合成システムは初めて「感情の温かさ」を持ち、これまでの冷たい機械的なものとは異なります。

AIbaseは、Step-Audio-EditXの意味は単なるツールのアップグレードを超えていると考えています。これは音声コンテンツの生成ロジックを再構築しているのです。音声が「録音したら決定的な」線形メディアではなく、何度も磨き上げられる「生きているテキスト」になるとき、何千万ものクリエイターは以前になかった表現の自由を得ることになります。次段階として、もしステップスターランがAPIを公開したり、スマートフォンシステムに統合されれば、「AIマジックカット手」が実際に誰のポケットに入るかもしれません。そして、すべての発声が再び想像できるようになります。

製品へのアクセス:https://stepaudiollm.github.io/step-audio-editx/