音声AI「一気に完成」！階躍、1300億パラメーターの支配級音声モデルをオープンソース化、リアルタイム会話＋感情複製で衝撃の登場

音声対話分野に画期的なブレークスルーが到来！中国のAI企業Step Audioが最近、衝撃的な1300億パラメーターの超大型音声モデルをオープンソース化し、業界の注目を集めています。この「支配的」と評される強力なモデルは、業界初の音声理解と生成制御を一体化した製品レベルのリアルタイム音声対話システムであり、その機能の包括性と技術の先進性は驚異的で、音声AI技術の発展が新たな高みに「一気に」到達する可能性を示唆しています。

このオープンソースモデルの最も重要な特徴は、その一体型設計と強力な制御能力にあります。ユーザーの音声指示を正確に理解するだけでなく、音声生成プロセスを柔軟に制御し、かつてないほどパーソナライズされた音声対話体験を実現します。

言語サポートにおいて、このモデルは驚異的な多言語能力を示し、中国語、英語、日本語をスムーズに切り替え、クロスリンガルのコミュニケーションシーンにも対応します。さらに驚くべきことに、方言にも深く対応しており、現在広東語、四川語などの主要な方言をカバーし、音声対話をより生活に密着させ、人間味あふれるものにします。

言語に加えて、このモデルは音声感情を細かく制御することもでき、ユーザーは音声の感情的なトーン（例：喜び、悲しみなど）を自由に設定し、AIの表現により感情的な豊かさを持たせることができます。話速とリズムも自由に調整でき、さまざまなシーンでの表現ニーズに対応します。さらに、ラップやハミングなど、より創造的な音声形式にも対応し、コンテンツ制作の可能性を無限に広げます。

さらに驚くべきことに、このモデルは音声クローン機能も備えています。これは、ユーザーがこの技術を利用して、非常にパーソナライズされた音声アシスタントを作成し、音声の「複製」と「継承」を実現できることを意味します。

Step Audioがこれほど強力な音声モデルをオープンソース化したことは、業界全体の技術進歩と応用革新を大きく促進するでしょう。音声AI技術の応用障壁を大幅に下げるだけでなく、将来の音声対話がよりインテリジェントで自然でパーソナライズされ、人々の日常生活に真に溶け込むことを示唆しています。

プロジェクトアドレス：https://github.com/stepfun-ai/Step-Audio/tree/main

AIの才女羅福莉氏、新ポストに就任　以前は雷軍氏から数千万の年収でヘッドハンティング

先日、国内メディアが羅福莉氏の親族から得た情報によると、この95年生まれのAI天才少女は新たなキャリアをスタートさせ、新ポストで働き始めたとのことです。しかしながら、具体的な就職先については、現時点では明らかになっていません。2024年末を振り返ると、テクノロジー業界では大きな波紋が起きました。小米グループ創業者雷軍氏が、AI大規模言語モデル研究の突破を目指して、羅福莉氏を数千万の年収という破格の条件でチームに迎え入れるため誘ったのです。この動きは瞬く間にネット上で大きな話題となりました。

最高効果！階躍星辰オープンソースStep-Video-T2V動画生成モデル

本日、階躍星辰と吉利汽車集団は、階躍Stepシリーズのマルチモーダル大規模モデル2つ——Step-Video-T2V動画生成モデルとStep-Audio音声モデル——を共同でオープンソース化すると発表しました。その中で、階躍Step-Video-T2V動画生成モデルは、パラメータ数と性能において世界をリードするレベルにあります。このモデルは300億個のパラメータを持ち、204フレーム、540Pの高解像度動画を直接生成でき、生成されたコンテンツの情報密度が高く、一貫性が高いことを保証します。評価結果によると、

テンセント電子署名、AI契約書作成機能を近日ローンチ　混元、DeepSeekなどの大規模モデルを導入

テンセント電子署名の公式アカウントが、AIによる契約書作成機能の近日ローンチを発表しました。この革新的な機能は、テンセントの混元、DeepSeekなどの大規模言語モデル技術を活用し、ワンクリックで契約書を作成できる利便性を提供します。

蘇州政府外部ネットワークにDeepSeek大規模言語モデルの展開が成功、デジタル行政インテリジェントアシスタントが稼働開始

先日、蘇州市政府外部ネットワークにおいて、DeepSeek R1671B大規模言語モデルの全機能展開が完了しました。これは、蘇州におけるデジタル行政サービスにおける重要な一歩を意味します。今回の展開は、各政府部門および関連部門により効率的でインテリジェントなサービスを提供し、行政の透明性とサービス品質をさらに向上させることを目的としています。新システムの稼働開始と同時に、蘇州数字科技集団はDeepSeekなどの大規模言語モデルに基づいた「デジタル行政インテリジェントアシスタント」を開発・発表しました。この革新的なアプリケーションは、行政サービスナレッジベースを…

テンセント、混元大規模言語モデル Hunyuan T1 のクローズドベータテストを実施

DeepSeek R1 へのアクセスに続き、テンセントのHunyuan T1大規模言語モデルがテンセント元宝において小規模なクローズドベータテストを開始しました。ユーザーは必要に応じてモデルを選択して利用できます。テンセントは最近、QQ音楽AIアシスタント、微信AI検索、テンセントクラウドAIコードアシスタントなど、複数の製品にDeepSeek技術を導入したと発表しました。

音声AI「一気に完成」！階躍、1300億パラメーターの支配級音声モデルをオープンソース化、リアルタイム会話＋感情複製で衝撃の登場

関連推奨

AIの才女羅福莉氏、新ポストに就任 以前は雷軍氏から数千万の年収でヘッドハンティング

最高効果！階躍星辰オープンソースStep-Video-T2V動画生成モデル

テンセント電子署名、AI契約書作成機能を近日ローンチ 混元、DeepSeekなどの大規模モデルを導入

蘇州政府外部ネットワークにDeepSeek大規模言語モデルの展開が成功、デジタル行政インテリジェントアシスタントが稼働開始

テンセント、混元大規模言語モデル Hunyuan T1 のクローズドベータテストを実施

AIの才女羅福莉氏、新ポストに就任　以前は雷軍氏から数千万の年収でヘッドハンティング

テンセント電子署名、AI契約書作成機能を近日ローンチ　混元、DeepSeekなどの大規模モデルを導入