記事本文

0.2秒未満の遅延！Mistral AI、Voxtral Transcribe 2音声モデルをリリース。中国語リアルタイム変換をサポート

公開AI二ュ-ス

時間 :Feb 5, 2026

読む :1分

フランスの人工知能スタートアップ企業Mistral AIは、新しい音声からテキストへの変換モデルシリーズ「Voxtral Transcribe2」を近日発表しました。このシリーズには、異なるアプリケーションに最適化された2つのモデルが含まれており、音声インタラクションにおける高い遅延とコストの課題を解決することを目的としています。

特に注目されているのは、「Voxtral Realtime」というリアルタイム転写モデルです。このモデルは4B（40億）のパラメータを持ち、革新的なストリーミングアーキテクチャを採用しています。そのコアの特徴は極めて迅速な応答速度で、音声入力の瞬間に同時に転写を行うことができます。公式データによると、転写遅延は200ms（0.2秒）未満にまで短縮されています。これは、リアルタイムでの会話や同声翻訳のシナリオにおいて、ユーザーが処理の停止を感じることはないことを意味します。開発者コミュニティのエコシステム構築を促進するために、Mistral AIはこのモデルの重みをApache2.0ライセンスに基づいて正式に公開しています。

もう一つのモデル「Voxtral Mini Transcribe V2」は、大量処理と非常に高いコストパフォーマンスを特徴としています。このモデルは長時間の音声を処理するために特別に設計されており、一度のリクエストで最大3時間の録音ファイルをサポートします。正確性に関しては、Mistral社はこのモデルがGPT-4o mini TranscribeやGemini2.5Flashを上回っていると発表しています。

言語サポートとコスト面では、これらの新モデルは優れた普遍性を持っており、中国語を含む13種類の主要言語をサポートしています。価格戦略も非常に競争力があります。オフラインバッチ処理版APIの価格は1分あたり0.003ドルであり、最高性能を求めるリアルタイム版APIの価格は1分あたり0.006ドルです。

ポイント：

⚡ 極めて低い遅延: Voxtral Realtimeモデルは転写遅延を200ms以内にまで引き下げ、音声の即時転写をサポートし、モデルの重みもオープンソース化されています。
🏆 高コスト効果: Voxtral Mini版は、GPT-4o miniなどと比較して高い正確性を持ち、3時間以上の超長時間録音をサポートし、価格が非常に優れています。
🌐 多言語対応: 全シリーズのモデルは中国語を含む13種類の言語をネイティブにサポートしており、グローバルな音声作業やリアルタイムインタラクションのシナリオに広く適応しています。

テンセントが WorkBuddy Bench を発表：コード、ウェブページ、オフィス作業、セキュリティをすべてワンパッケージにしたコードインテリジェントテストケース

テンセントが WorkBuddy Bench 多分野評価キットを発表しました。論文は arXiv に掲載されています。これはコードインテリジェントの評価においてそれぞれの分野が独立していること、および生成基準が透明ではないという状況を打ち破り、コードエンジニアリングのリポジトリレベル、フロントエンド製品、オフィス自動化などの4つの業務シーンを統合したものです。最大の特徴は問題数ではなく、問題の根源的な設計によって答えを覚えることを排除し、インテリジェントが異なる分野で汎用性と移行能力を実際の評価で反映できることを確保しています。

Jul 24, 2026

29.9k

NVIDIAが15億ドルを投資し、Amkorと提携して先進パッケージングの生産拡大を進め、AI演算力サプライチェーンを先手で確保

NVIDIAとAmkorが約15億ドルの複数年契約を締結。アリゾナ州の先進パッケージング生産能力拡張をNVIDIAが前払いで支援。AI・データセンター加速コンピューティング向け高密度相互接続や異種統合などの封止技術を共同開発し、マルチプロセスチップの効率的統合を図る。....

Jul 24, 2026

154.5k

OpenAIがChatGPT Health機能を全面的に公開：Apple Healthと電子カルテを統合、毎週3億ユーザーが健康に関する質問を投稿

OpenAIがChatGPT Health機能を全面開放し、待機リストを廃止、全米18歳以上のユーザーがWebおよびiOSで全バージョン利用可能に。Apple Healthと電子カルテに接続し健康データを統合。週間健康相談件数は2.3億から3億超に増加、AI健康管理の需要が旺盛。....

Jul 24, 2026

139.5k

マスク、Grok 4.5の全プラットフォームでのリリースを発表：Fableに勝てないが、早く、安くて仕事ができる

マスク氏がGrok 4.5の全プラットフォーム提供を発表。性能はFableに劣るが、高速・高コスパ・タスク遂行力を強調。コスト重視の現在、実用主義を掲げ「最速・最安・最高の成果」を売りにする。....

Jul 24, 2026

174.2k

StripeがAIモデルを集約するプラットフォームOpenRouterを買収、評価額は13億ドルから100億ドルに急騰

決済大手StripeがAIモデル集約プラットフォームOpenRouterの買収を交渉中。早ければ近日発表も、破談や競合の可能性あり。評価額は約13億ドルだが、買収成立なら約100億ドルに急騰し約8倍のプレミアム。同社はOpenAIやAnthropicなど複数モデルを統合APIで提供する「AIモデルルーター」。....

Jul 24, 2026

107.6k

インテリジェントな未来、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご

0.2秒未満の遅延！Mistral AI、Voxtral Transcribe 2音声モデルをリリース。中国語リアルタイム変換をサポート

関連推奨

テンセントが WorkBuddy Bench を発表：コード、ウェブページ、オフィス作業、セキュリティをすべてワンパッケージにしたコードインテリジェントテストケース

NVIDIAが15億ドルを投資し、Amkorと提携して先進パッケージングの生産拡大を進め、AI演算力サプライチェーンを先手で確保

OpenAIがChatGPT Health機能を全面的に公開：Apple Healthと電子カルテを統合、毎週3億ユーザーが健康に関する質問を投稿

マスク、Grok 4.5の全プラットフォームでのリリースを発表：Fableに勝てないが、早く、安くて仕事ができる

StripeがAIモデルを集約するプラットフォームOpenRouterを買収、評価額は13億ドルから100億ドルに急騰