1文で音声を即座に調整！アリババ通義が音声2モデルを発表：「FreeStyle」自然言語コントロールに対応

アリババ・チュンイー研究所の音声チームは、本日2つの革命的な音声生成モデル「Fun-CosyVoice3.5」と「Fun-AudioGen-VD」を発表しました。これらのモデルの最大の特徴は、「FreeStyle」コマンドをサポートしている点で、ユーザーは複雑なパラメータ調整を行う必要がなく、自然言語での一文の説明だけで、音声の表現スタイルを正確に制御したり、ゼロから複雑なオーディオシーンを作成することが可能です。

この2つのモデルにはそれぞれ異なる機能の焦点があります:

Fun-CosyVoice3.5: 多言語復元と詳細な制御

このモデルは以前のCosyVoiceのアップグレード版であり、音声表現の「理解力」において大きな突破を遂げました。

コマンド式生成:ユーザーは「より強い口調で」「語速を遅くして感情の起伏を加えて」といった指示を入力し、モデルはリアルタイムで出力を調整します。
言語拡充:タイ語、インドネシア語、ポルトガル語、ベトナム語など新たにサポートされる言語が追加され、13の言語における転写誤り率（WER）と音色の類似度では業界のトップクラスを維持しています。
生僻字最適化:特別な調整により、生僻字の読み間違い率は15.2%から大幅に減少し、5.3%まで下がりました。
性能向上:初回パケットの遅延は35%低下し、リアルタイムでのインタラクティブなシナリオにおいても非常にスムーズになりました。

Fun-AudioGen-VD: あらゆるシーンの音声デザイン

このモデルはまるで「音声監督」のような存在で、説明に基づいて「人物 + 場面」の一体化したオーディオを生成できます。

音色カスタマイズ:性別や年齢、アクセントを指定することができ、さらに「かすれた声、磁気のある声、低音の声」などの特徴まで細かく指定できます。
感情と役割:カスタマーサポート、ニュースキャスター、子供など様々な役割を模倣でき、また「表面的には冷静だが、内心では震えている」というような複雑な心理状態も再現可能です。
環境の没入感:背景音（戦場の轟音、カフェの賑わい）や空間エフェクト（大聖堂の反響、水中の聴覚）を重ねて適用でき、全方位の空間シミュレーションが可能です。

通義研究所は、これらのモデルのリリースによって、高品質な音声創作の障壁がさらに低くなると述べています。これは、ポッドキャスト、ゲーム開発、映画の後工程などさまざまな分野に強力なAIの支援を提供することになります。

人間の対局体験がさらにアップグレード！無料でオープンソースなAIチェスエンジン「Maia 3」が正式リリース

Maia Chessチームはオープンソースなチェスエンジン「Maia 3」を発表しました。このエンジンは2億5,000万局の人間同士の対局データに基づいてトレーニングされ、Elo評価は約1800ポイントで、前バージョンより約300ポイント向上しています。このエンジンは無料でオープンソースであり、ローカル環境での導入にも対応しており、人間の意思決定モデルを模倣することに注力し、AIチェスエンジンの一般化を推進しています。

空談の約束を拒否せよ！多数の政府が大規模モデル公開前のセキュリティ評価新制度を実施

世界的なAIの爆発的発展に伴い、各国政府は大規模モデル監視を原則的な宣言から実質的な実施へと移行させている。英国、米国、オーストラリアは最近、最先端のAIモデルが公開前に政府主導のセキュリティ脆弱性とリスク境界テストを通過することを義務付けた。英国AI安全研究所が提案したレッドチームテストとリスク評価プロセスは、世界的な政策のモデルとなっている。....

Hyper3D Rodin Gen-2.5の発表：4秒で百万面を生成、世界初の千万面級3D生成モデル。細部は製品レベルに近づく

3D生成AI分野において大きな進歩が見られ、Hyper3DはRodin Gen-2.5モデルを発表しました。これは世界一強と称されるモデルであり、4秒で百万面のモデルを生成し、初めて千万面級の3D生成を実現しました。細部には毛穴や皮膚の微細構造を表現できることから、その性能が際立ちます。このモデルの核心的な革新点は、タスクの複雑さに応じて計算リソースを動的に調整する「適応的思考努力メカニズム」を導入したことです。これにより、AIによる3D生成は「見るだけ」から「使える」段階へと進化したことを示しています。

隠された悪意の週報！マイクロソフト Copilot が間接プロンプトインジェクションの脆弱性リスクを暴露

マイクロソフトのOffice 365のAIアシスタントであるCopilot Coworkに深刻なセキュリティ脆弱性が発覚しました。攻撃者は「間接プロンプトインジェクション」という技術を使い、オフィステンプレートに悪意のあるコマンドを埋め込み、ユーザーの承認なしに企業クラウドストレージの機密ファイルを盗み出すことが可能になります。また、ユーザーに代わってメールを送信したり、Teamsメッセージを投稿したりすることができ、組織のデータセキュリティに大きな脅威を与えます。

ペンティアム4復活戦：20年前の古董CPUがメタLlama3大モデルを実行

YouTubeのテクノロジーカンパニーFully Bufferedは最近、2006年のペンティアム4 641プロセッサーでメタの最新のLlama 3.2 3B大モデルを成功裏に実行しました。現代のAIと20年前の古いハードウェアを結びつけたこのテストは、LLMの下位互換性の限界を示しています。このハードコアなテストにより、ネットユーザーは「モアの法則がAI時代において時空を超えて握手した」と感嘆し、ハードウェアの考古学的な構成として最高のものとなりました。