最近、アリーバイトゥンイーQwenチームは、Qwen3-ASR-ToolkitというオープンソースのPythonコマンドラインツールを公開しました。このツールは、ユーザーにより便利な音声・映像のトランスクリプションサービスを提供することを目的としており、特に音声の長さにおいて、Qwen3-ASR-Flash APIの3分制限を突破し、数時間にわたる高速トランスクリプションが可能になります。この新しいツールの登場により、大規模な音声トランスクリプションが必要なユーザーにとって強力なサポートとなります。

Qwen3-ASR-Flashは、通義千問シリーズにおける最新の音声認識モデルで、膨大なマルチモーダルデータおよび数千時間規模の自動音声認識(ASR)データに基づいて訓練されています。その高性能により、高精度な音声認識機能をユーザーに提供し、長い音声や動画のコンテンツを効果的にテキストに変換することが可能になり、作業効率を大幅に向上させます。
Qwen3-ASR-Toolkitは、スマートな静音切分技術(VAD)を使用しており、トランスクリプション中に文の完全性を保証します。また、任意のサンプリングレートの音声ファイルを16kHzモノラルに自動的にリサンプルし、処理効果を向上させます。さらに、複数スレッドによる並列アップロードと分割の機能をサポートしており、これにより全体の時間が著しく短縮され、ユーザーの利用体験がよりスムーズになります。
対応するメディア形式については、Qwen3-ASR-ToolkitはFFmpegを基盤としており、MP4、MOV、MKV、MP3、WAV、M4Aなど、すべての主要な音声および動画形式をほぼカバーしています。これは、ユーザーが音声・動画のトランスクリプションを行う際、ファイル形式を柔軟に選択できるようにし、フォーマット互換性の問題を心配する必要がなくなることを意味します。
github:https://github.com/QwenLM/Qwen3-ASR-Toolkit
ポイント:
📌 アリーバイトゥンイーがQwen3-ASR-Toolkitをリリースし、音声トランスクリプションの時間制限を突破し、数時間にわたるトランスクリプションをサポートしています。
🎤 このツールは最新のQwen3-ASR-Flashモデルに基づき、高精度な音声認識を確保しています。
💻 多様な音声・動画形式をサポートし、ユーザーは柔軟に選択でき、音声・動画のトランスクリプション効率を向上させます。
