効率的で軽量化：IBMがGranite 4.0 1B Speechマルチモーダル音声大規模モデルを発表

IBMは、この度、Granite4.01B Speechを正式にリリースしました。これはエッジコンピューティングおよびエンタープライズデプロイメントに特化したコンパクトな音声言語モデルで、多言語の自動音声認識（ASR）と双方向の自動音声翻訳（AST）機能を高効率で提供することを目的としています。

前世代のモデルと比較して、Granite4.01B Speechのパラメータ数は前世代の半分ですが、パフォーマンスは大幅に向上しています。新しいモデルは日本語ASRのサポートを追加し、キーワードバイアス機能を導入し、英語のトランスクリプションの正確性を大きく向上させました。コア能力を損なうことなく、メモリ使用量、推論遅延、計算コストを大幅に削減することが、このモデルの主要な設計目標です。

このモデルは、画期的な「2段階設計」アーキテクチャを採用しています。システムはまず音声をテキストに変換し、その後専用のGranite言語モデルを使用して推論処理を行います。このモジュール式の設計により、開発者はニーズに応じて処理フローを柔軟に編成できます。現在、このモデルは英語、フランス語、ドイツ語、スペイン語、ポルトガル語、日本語などの複数言語間の相互翻訳をサポートしており、英語から中国語（普通話）への翻訳タスクも対応しています。

性能テストでは、Granite4.01B Speechは優れた性能を示し、OpenASRランキングで首位を記録しました。平均文字誤り率（WER）はわずか5.52です。現在、IBMはApache 2.0ライセンスに基づいてこのモデルをオープンソースとして公開しており、開発者はTransformersやvLLMなどの主要なフレームワークを通じてローカルにデプロイ可能です。これにより、リソースが限られたモバイル端末やエッジデバイスに強力なAI音声サポートを提供できます。

プロジェクト: https://huggingface.co/ibm-granite/granite-4.0-1b-speech

OpenAIはトランプ大統領のAI行政命令を支持：モデル公開前に政府によるセキュリティ評価を受け入れる意思

OpenAIはトランプ大統領が署名したAIモデル公開前の審査に関する大統領令に従うと表明。グローバル担当責任者がSXSWで命令に署名し評価に参加する意向を示し、責任を真摯に受け止め、強力な技術を持つ企業として慎重に行動する必要性を強調した。....

OpenAIのCEOサム・オルトマン：積極的なAIが今後のトレンドとなる

OpenAIのCEOサム・アルトマンはAI製品の三段階発展理論を提唱：第一段階はチャットモデル（ChatGPT）、第二段階はエージェントベースのシステム（Codex）、第三段階は「積極的なAI」でバックグラウンドで自動実行。現在のエージェント段階が最大の製品カテゴリーだが、ユーザー利用には限界がある。....

AI音楽創作の新しいトレンド：杭州の男性が1か月で数十万円を稼ぐ 40秒で一首の曲を生成

杭州のあるクリエイターがAI音楽ツールを活用し、画像をアップロードして40秒で完全な楽曲を生成。多彩なジャンルとリアルなボーカルで真偽を見分けがたい。低コストで大量制作し、音楽・ショート動画プラットフォームに配信、月収10万元以上を達成。AI技術の音楽創作における商業的可能性を示している。....

ゼロから楽理の基礎を学び、AIを使って曲を作成し、月収10万円以上を達成した男性。40秒で全曲風の楽曲を生成可能

浙江省杭州市の男性が、音楽の基礎知識がないにもかかわらず、AIツールを活用して月収十数万元を達成し、注目を集めている。彼はアイデアや鼻歌を提供するだけで、AIが作詞、作曲、編曲、歌唱を自動で行い、音楽制作のハードルを大幅に下げた。生成AIが音楽分野で示す革新的な効率性と変革を象徴している。....

MiniMax は新しいモデルの料金体系の変更により謝罪します：コミュニケーションが不十分だったことを認知し、古いユーザーに対する補償と返金計画を発表しました