グーグルは最近、AIを基盤とするファイル形式検出システム「Magika 1.0」をリリースしました。これは最新の安定版であり、性能およびセキュリティ面での大幅な向上を示しています。なぜなら、コアエンジンがRust言語に全面的に移行したからです。昨年オープンソース化されて以降、Magikaはオープンソースコミュニティで広く利用され、月間ダウンロード数は100万回を超えています。

新しいバージョンのMagikaはアーキテクチャ全体を再構築しており、処理速度とメモリの安全性が著しく向上しています。グーグルによると、このツールは単一コアプロセッサで1秒間に数百ファイルを識別でき、マルチコアCPUを使用すると1秒間に数千ファイルまで拡張可能です。Magika 1.0はONNX Runtimeを用いてモデル推論を行い、Tokioフレームワークにより非同期処理を実現し、効率的な動作を確保しています。
ファイル形式のサポートにおいて、Magika 1.0の検出能力は200種類以上のファイル形式に拡大され、初期バージョンの約2倍になりました。新たに追加されたファイル形式には、データサイエンスや機械学習におけるJupyter Notebooks、Numpy、PyTorch、現代的なプログラミングやウェブ開発におけるSwift、Kotlin、TypeScriptなどがあります。さらに、DevOps関連のファイルや、SQLiteやAutoCADなどのさまざまなデータベースおよびグラフィック形式ファイルもサポートされています。
Magika 1.0は似たような形式のファイルの認識能力を向上させ、またCとC++、JavaScriptとTypeScriptなどの異なるプログラミング言語のファイルの区別も改善しました。グーグルは技術実装において多くの課題に直面しました。それは訓練データの膨大さや一部のファイル形式のサンプルが少ないことでした。そのため、グーグルは独自のデータセットライブラリであるSedPackを開発し、Geminiという生成型AIツールを使って高品質な合成訓練データを作成し、モデルの汎化能力を向上させました。
注目すべきは、MagikaがPythonとTypeScriptモジュールを更新し、開発者がより簡単に統合できるようになったことです。ユーザーは簡単なコマンドで異なるオペレーティングシステム上でMagikaをインストールでき、グーグルは開発者たちがプロジェクトに参加し、ツールの機能を引き続き最適化・拡張することを奨励しています。
重要なポイント:
🌟 Magika 1.0はRust言語で再構築され、パフォーマンスとセキュリティが大幅に向上しました。
📂 200種類以上のファイル形式に対応し、データサイエンスやプログラミング言語の新規形式が追加されました。
⚙️ 開発者の統合プロセスが簡略化され、コミュニティによるプロジェクト最適化を奨励しています。
