アリババ・テンセントがQwen3-ASR-Toolkitを発表し、音声・動画の字幕作成に新たな突破を遂げた

最近、アリーバイトゥンイーQwenチームは、Qwen3-ASR-ToolkitというオープンソースのPythonコマンドラインツールを公開しました。このツールは、ユーザーにより便利な音声・映像のトランスクリプションサービスを提供することを目的としており、特に音声の長さにおいて、Qwen3-ASR-Flash APIの3分制限を突破し、数時間にわたる高速トランスクリプションが可能になります。この新しいツールの登場により、大規模な音声トランスクリプションが必要なユーザーにとって強力なサポートとなります。

Qwen3-ASR-Flashは、通義千問シリーズにおける最新の音声認識モデルで、膨大なマルチモーダルデータおよび数千時間規模の自動音声認識（ASR）データに基づいて訓練されています。その高性能により、高精度な音声認識機能をユーザーに提供し、長い音声や動画のコンテンツを効果的にテキストに変換することが可能になり、作業効率を大幅に向上させます。

Qwen3-ASR-Toolkitは、スマートな静音切分技術（VAD）を使用しており、トランスクリプション中に文の完全性を保証します。また、任意のサンプリングレートの音声ファイルを16kHzモノラルに自動的にリサンプルし、処理効果を向上させます。さらに、複数スレッドによる並列アップロードと分割の機能をサポートしており、これにより全体の時間が著しく短縮され、ユーザーの利用体験がよりスムーズになります。

対応するメディア形式については、Qwen3-ASR-ToolkitはFFmpegを基盤としており、MP4、MOV、MKV、MP3、WAV、M4Aなど、すべての主要な音声および動画形式をほぼカバーしています。これは、ユーザーが音声・動画のトランスクリプションを行う際、ファイル形式を柔軟に選択できるようにし、フォーマット互換性の問題を心配する必要がなくなることを意味します。

github:https://github.com/QwenLM/Qwen3-ASR-Toolkit

ポイント:
📌 アリーバイトゥンイーがQwen3-ASR-Toolkitをリリースし、音声トランスクリプションの時間制限を突破し、数時間にわたるトランスクリプションをサポートしています。
🎤 このツールは最新のQwen3-ASR-Flashモデルに基づき、高精度な音声認識を確保しています。
💻 多様な音声・動画形式をサポートし、ユーザーは柔軟に選択でき、音声・動画のトランスクリプション効率を向上させます。

Google Play ゲームにGemini AIアシスタントを導入し、プレイヤーのゲーム体験をサポート

Google PlayはモバイルゲームにGemini AIアシスタントを導入し、サイドバーに直接統合されたGemini Live機能により、プレイヤーが窓を切り替えることなくゲームのヒントを受け取れるようにします。このアシスタントは視覚認識機能を持ち、リアルタイムでゲーム画面を分析して正確な提案を行い、ゲーム体験の利便性とインタラクティブ性を向上させます。

グーグルAI検索戦争の激化：AIモードがスペイン語市場に進出、OpenAIと直接対決

グーグルはAI検索機能をスペイン語ユーザーに拡大し、世界中の数億人がインタラクティブな検索を体験できるようになりました。ユーザーは自然言語で質問し、会話形式のフィードバックを受け取ることで、没入感を高めることができます。これは8月の世界規模での展開に続く新たな進展であり、人工知能検索分野の競争を強化しています。

アリババ・テンセントがQwen3-ASR-Toolkitを発表し、音声・動画の字幕作成に新たな突破を遂げた

関連推奨

通義千問が新音声認識モデル「Qwen3-ASR-Flash」をリリースし、音声からテキストへの技術を革新

メルセデスがビットテクノロジーと提携し、ドウバオ大モデルを搭載した新型純電動CLAを共同で発表

Google Play ゲームにGemini AIアシスタントを導入し、プレイヤーのゲーム体験をサポート

グーグルAI検索戦争の激化：AIモードがスペイン語市場に進出、OpenAIと直接対決

メタ、スーパーポリティカルアクションコミッteeを設立してAI規制政策に抗う