急速に発展する人工知能(AI)分野において、小型言語モデル(LLM)の重要性が増しています。消費レベルのハードウェアでも効率的に動作し、完全にオフラインのアプリケーションシナリオにも対応できます。H2O.aiチームは、複数の学術的、チャット、ファインチューニングベンチマークで高い競争力を示す、小型言語モデルシリーズであるH2O-Danube3を発表しました。

H2O-Danube3には、H2O-Danube3-4B(4億パラメーター)とH2O-Danube3-500M(5千万パラメーター)の2つのモデルが含まれています。これらのモデルは、それぞれ6Tと4Tのトークンで事前トレーニングされており、高品質のウェブデータ(主に英語トークン)を使用し、3段階の異なるデータミックスを経て、チャットバージョンに対応するために監督調整が行われました。

技術的ハイライト:

  • 効率的なアーキテクチャ:H2O-Danube3のアーキテクチャ設計は、パラメーターと計算効率に重点を置いており、最新のスマートフォンでも効率的に動作し、ローカル推論と高速処理を実現します。

  • オープンソースライセンス:すべてのモデルはApache2.0ライセンスの下で公開され、大規模言語モデル(LLM)の普及をさらに促進します。

  • 多様なアプリケーションシナリオ:H2O-Danube3は、チャットボット、研究、特定のユースケースのファインチューニングなど、モバイルデバイスでのオフラインアプリケーションにも使用できます。

image.png

H2O-Danube3は、CommonsenseQAやPhysicsQAなどで最高スコアを達成し、GSM8K数学ベンチマークでは50.14%の精度を達成するなど、複数の学術ベンチマークで優れたパフォーマンスを示しています。さらに、チャットベンチマークやファインチューニングベンチマークでも強力な性能を発揮しています。

小型言語モデルのもう1つの一般的な用途はファインチューニングです。H2O-Danube3は、テキスト分類タスクでファインチューニングされた後、優れた適応性と性能を示しました。パラメーター数が少ない500Mモデルでも、ファインチューニング後には高い競争力を発揮します。

エッジデバイスでのアプリケーションをさらに促進するために、H2O-Danube3は、性能を維持しながらモデルサイズを大幅に削減する量子化バージョンを提供しています。

H2O-Danube3の発表は、オープンソースの小型言語モデルのエコシステムを豊かにするだけでなく、さまざまなアプリケーションシナリオに強力なサポートを提供します。チャットボットから特定のタスクのファインチューニング、モバイルデバイスでのオフラインアプリケーションまで、H2O-Danube3はその幅広い適用性と効率性を示しています。

モデルダウンロードアドレス:https://top.aibase.com/tool/h2o-danube3

論文アドレス:https://arxiv.org/pdf/2407.09276