小米が自社開発のMiMo-V2-TTS音声合成大モデルを発表　複数の関西弁と感情の深い制御を実現

小米は自社開発の音声合成大規模モデル「Xiaomi MiMo-V2-TTS」を正式に発表し、これは高制御性と高い表現力を持つ音声生成分野において重要な進展を示しています。このモデルは自社開発のAudio Tokenizerおよび多コードブック音声-テキスト連合モデリング構造に基づいています。

数億時間に及ぶ音声データによる大規模な事前学習を通じて、全体的なスタイルの調整から個別的な微細な感情の正確な調整までを実現しました。従来のTTSとは異なり、MiMo-V2-TTSは1文内でトーンの転換や感情の変化を処理する能力を持ち、人間の会話の自然なリズムを高精度で再現し、音高とリズムの正確度が求められる歌詞の合成もサポートしています。技術面では、生成の安定性と表現力を両立させるために多次元強化学習を導入しました。モデルは標点、語尾の語感、強調マークなどのテキスト信号を自動的に認識し、追加の手作業によるラベリングなしに適切な音声出力に変換できます。また、このモデルは非常に高い地域間適応性を持ち、東北語、四川語、河南語、広東語、台湾語などの多様な方言に対応し、キャラクター化された表現にも対応しています。

小米の音声技術ロードマップにおける重要な節目となるMiMo-V2-TTSは、将来さらに多言語へのカバーを拡大し、MiMo-V2-Omniのマルチモーダル理解機能と深く統合していきます。単一の音声合成からマルチモーダルな感知と表現の協調へと進化するこのプロセスは、AIエージェントが単なる意味のやり取りから、より人間らしい感情共鳴を持つ人間と機械のインタラクションへと進化していることを示しており、スマートカー内やスマートホームなどのシーンにおけるユーザー体験を大幅に向上させることになります。

国家標準委員会が『AI倫理セキュリティガイドライン1.0』を発表、大規模モデルの実装に安全ブレーカーを設置

全国网安标委会が「人工知能応用倫理安全ガイドライン1.0」を発表。アリババ、ファーウェイ、DeepSeekなどが共同起草し、AI倫理安全が「トップレベルの提言」から「技術基準の具体化」へ移行。原則的・参考的な技術文書で、AI産業チェーンの各主体に実行可能な倫理安全指針を提供する。....

価格が75％も低下！DeepSeek V4が永久的な割引を発表し、世界のAIコストパフォーマンス第1位に輝く

DeepSeekはその旗艦大規模モデルV4-Proの価格を75％永久的に引き下げたことを発表しました。元々のタイムリーな2.5倍割引が永続的な価格に変更されました。第三者の評価では、このモデルが価格引き下げにより世界のAIコストパフォーマンス第1位に登頂し、性能で米系競合を圧倒しています。これにより、中国のAIがコストと効率において絶対的な優位性を示しています。

グーグルCEOピチャイ：AI検索の転換に慎重な戦略を取り、プログラミング分野での遅れを率直に認める

グーグルCEOのピチャイはI/Oカンファレンス後のポッドキャストインタビューで、AI競争について率直に語った。彼はグーグルが全体的な知能とマルチモーダル能力ではリードしていることを認めつつ、エージェント型プログラミングや複雑な長期タスクにおいては遅れを認めた。また、検索モードの変化やAIの安全性についても言及し、AIレースにおける課題に直面しながらもオープンな姿勢を示している。

強力な提携！テキサス州でAIの電力需要急増に対応する2.5ギガワットの原子力・ガス併用発電所建設が計画中

米国のエネルギー企業ブルー・エナジーはGE VERNOVAと提携し、テキサス州に2.5ギガワット規模の併用発電所を建設する計画を進めている。このプロジェクトでは原子力と天然ガス発電設備を同時に導入し、AIデータセンターの急増する電力需要に対応する。このプロジェクトは「ガス転換原子力」のモデルを初めて採用しており、天然ガスによる迅速な電力供給から段階的に原子力へと移行することで、従来の原子力発電所の承認や建設にかかる時間が長いという課題を効果的に解決する。高エネルギー消費産業に柔軟で安定した電力供給ソリューションを提供するものである。

業界初のケース！有名声優・津田健次郎がTikTokにAIボイスの不正使用を提訴

日本の有名声優である津田健次郎がTikTok運営会社を相手に、声の著作権侵害を主張して提訴し、生成AIによる声紋の不正使用に対抗する業界初の事件となった。津田は『呪術返し』の吹き替えで知られており、その特徴的な声は彼の職業的資産とされている。灰色市場では不法に声紋を使い利益を得ており、1日で数万円の利益を得ているとされ、議論を呼んでいる。