アリババ・トンイー研究所が音声認識大モデル「Fun-ASR1.5」を発表。30の言語・方言、古詩も瞬時に変換！

人工知能音声分野において、汎用性と正確さのバランスは業界が長年取り組んできた課題でした。4月20日、アリババ・トングイ研究所は音声認識の大規模モデル「Fun-ASR1.5」を正式にリリースしました。このモデルは統一された大規模なアーキテクチャにより、多言語、多関方言および複雑な文脈において飛躍的な進歩を遂げました。

据えている情報によると、Fun-ASR1.5の「聴力」性能は非常に万能です。世界で30種類の主要言語をカバーしており、中国語の7つの主要方言体系と20種類以上の地方訛りにも深く対応しています。さらに注目されているのは、このモデルが伝統文化分野においても優れたパフォーマンスを発揮していることです。古詩歌の朗読のように調子が起伏し、区切りが独特な場合でも、高い精度でリアルタイムでの変換が可能です。

現在、Fun-ASR1.5はアリババクラウドの百煉プラットフォームに正式に掲載されています。アリババ・トングイ研究所は、このモデルが教育、メディア、金融、テクノロジー、文化などの多くの業界のお客様に高効率な音声技術のサポートをAPIサービスを通じて提供し、各産業がスマートオフィスやコンテンツ制作のアップグレードを実現するお手伝いをすると述べています。

爱奇艺がAI芸人ライブラリをリリースし論議を巻き起こす：コスト削減と効率化のツールであるのか、業界自身が墓穴を掘る行為なのか？

爱奇艺は「AI芸人ライブラリ」をリリースし、芸人は権利を許可してデジタルバーチャルイメージを作成できる。一部の有名俳優がすでに参加している。この技術は芸人のイメージデータ化を行い、肖像権を保護しながら、ショートドラマやインタラクティブ動画の制作に使用される。

国内の大規模モデルがさらに進化：Qwen3.6-35B-A3Bが正式にオープンソースとなり、高効率とマルチモーダルな思考を強調

国内のAIモデルであるQwen3.6-35B-A3Bが正式にオープンソースとなり、混合エキスパートアーキテクチャを採用しています。総パラメータ数は350億ですが、推論時には30億のパラメータのみが活性化され、「小勝大」という効率的な性能を実現し、計算資源コストを大幅に削減しています。

開発者注意！アリババクラウドのバイレンプラットフォームAPIのスラッティングポリシーに重要な変更が行われます

アリババクラウドは、2026年4月28日から、大モデルサービスポータル「バイレン」のマルチモーダルインタラクション開発キットに対してスラッティングを実施する予定であり、新規接続数は統一して10 QPSに調整されます。この取り組みは、リソースの最適な配分とサービスの安定性を確保するためです。

アリババクラウドがバイレン多モーダル開発キットのAPI呼び出し制限を最適化

アリババクラウドは、バイレン多モーダルインタラクション開発キットのデフォルトのAPI制限を調整し、2026年4月28日から効力が生じます。新たな制限は1秒当たり10回（QPS）となり、リソースのスケジューリングとサービスの安定性を最適化します。同時に、1分間で600コネクション、1時間で36,000コネクションの新規接続をサポートし、ほとんどの開発やテスト、および日常的な業務の要件に適合しています。

アリババがQwen3.6-Max-Previewを発表：プログラミングの知能の新基準