急速に発展する人工知能(AI)分野において、小型言語モデル(LLM)の重要性が増しています。消費レベルのハードウェアでも効率的に動作し、完全にオフラインのアプリケーションシナリオにも対応できます。H2O.aiチームは、複数の学術的、チャット、ファインチューニングベンチマークで高い競争力を示す、小型言語モデルシリーズであるH2O-Danube3を発表しました。
H2O-Danube3には、H2O-Danube3-4B(4億パラメーター)とH2O-Danube3-500M(5千万パラメーター)の2つのモデルが含まれています。これらのモデルは、それぞれ6Tと4Tのトークンで事前トレーニングされており、高品質のウェブデータ(主に英語トークン)を使用し、3段階の異なるデータミックスを経て、チャットバージョンに対応するために監督調整が行われました。
技術的ハイライト:
効率的なアーキテクチャ:H2O-Danube3のアーキテクチャ設計は、パラメーターと計算効率に重点を置いており、最新のスマートフォンでも効率的に動作し、ローカル推論と高速処理を実現します。
オープンソースライセンス:すべてのモデルはApache2.0ライセンスの下で公開され、大規模言語モデル(LLM)の普及をさらに促進します。
多様なアプリケーションシナリオ:H2O-Danube3は、チャットボット、研究、特定のユースケースのファインチューニングなど、モバイルデバイスでのオフラインアプリケーションにも使用できます。

H2O-Danube3は、CommonsenseQAやPhysicsQAなどで最高スコアを達成し、GSM8K数学ベンチマークでは50.14%の精度を達成するなど、複数の学術ベンチマークで優れたパフォーマンスを示しています。さらに、チャットベンチマークやファインチューニングベンチマークでも強力な性能を発揮しています。
小型言語モデルのもう1つの一般的な用途はファインチューニングです。H2O-Danube3は、テキスト分類タスクでファインチューニングされた後、優れた適応性と性能を示しました。パラメーター数が少ない500Mモデルでも、ファインチューニング後には高い競争力を発揮します。
エッジデバイスでのアプリケーションをさらに促進するために、H2O-Danube3は、性能を維持しながらモデルサイズを大幅に削減する量子化バージョンを提供しています。
H2O-Danube3の発表は、オープンソースの小型言語モデルのエコシステムを豊かにするだけでなく、さまざまなアプリケーションシナリオに強力なサポートを提供します。チャットボットから特定のタスクのファインチューニング、モバイルデバイスでのオフラインアプリケーションまで、H2O-Danube3はその幅広い適用性と効率性を示しています。
モデルダウンロードアドレス:https://top.aibase.com/tool/h2o-danube3
