近年、人工知能の分野における開発者は通常、大規模なクラウドコンピューティング集約に依存してきました。しかし、小規模で中規模な言語モデルがますます強力になってきた現在、開発者たちは疑問を抱くようになりました。「もし小さなモデルでも多くのことができるなら、なぜAI開発は依然として遠隔で高価なインフラに依存しているのでしょうか?」
ローカル計算の進歩は遅れており、ハイエンドワークステーションですらこれらの高度なモデルを読み込む際にメモリのボトルネックに直面しています。30億パラメータまたは70億パラメータのモデルを扱うチームは、しばしばモデル圧縮やスラッシング、外部GPUサーバーなどのソリューションを使用せざるを得ません。また、規制業界では、こうしたデータ処理手段は簡単ではありません。さらに、スタートアップ企業や研究者は、クラウドコンピューティングインスタンスへのアクセスにおいて高い費用と反復速度への影響を抱えています。
こうした問題を解決するために、ハードウェアメーカーであるデルは投資を増やすことにしました。デルが最新に出したPro MaxとGB10の組み合わせは、開発者により強力なローカルAI計算能力を提供し、ハードウェアの制限を突破するためのものです。デルは、70億以上のパラメータを持つモデルを訓練するには、ほとんどのハイエンドワークステーションの計算リソースを超える必要があると述べています。
ナビダのGrace Blackwellアーキテクチャをデスクトップ形式に組み込むことで、デルはハードウェアをこの新世代の小規模だが計算集約的なAIワークロードと組み合わせることを望んでいます。デルPro MaxとGB10の構成には、128GBの統一LPDDR5Xメモリが含まれており、Ubuntu LinuxおよびNVIDIA DGX OSを動作させ、CUDA、Docker、JupyterLab、およびNVIDIA AIエントープライズスタックが事前構成されています。
デルによると、このシステムは秒間最大1000テラフロップスのFP4 AI性能を提供し、開発者がローカルで200億パラメータのモデルを微調整およびプロトタイピングできるようにします。このような強力な計算能力をわずか1.2kg、サイズは150mm x 150mm x 50.5mmのデバイスに詰め込むことは、エンジニアリング上の偉業を示しています。
統一メモリにより、開発者は単一のアドレス空間内で大規模なモデルを処理でき、CPU/GPUメモリプール間のボトルネックを回避できます。学術実験室は共有クラスターに依存することなくMetaのオープンソースLlamaモデルを実行でき、スタートアップ企業は初期の研究開発段階でローカルでの実験を行うことができ、クラウドコストを最初から支払う必要はありません。
デルは、より大きな計算能力が必要なチームのために、2つのGB10システムを組み合わせて1つのノードにすることが可能で、400億パラメータまでのモデルをサポートすることも述べています。DGX OSが事前に構成されているため、チームは迅速にトレーニングタスクを開始でき、追加のSDKとオーケストレーションツールを使って操作することができます。
ポイント:
🌟 デルがPro MaxとGB10をリリースすることで、ローカルAI開発者に強力な計算能力を提供し、ハードウェアの制限を突破しました。
💻 新しいデバイスは128GBの統一メモリを備えており、最大200億パラメータのモデルの微調整をサポートし、現代のAIのニーズに対応しています。
🚀 2つのGB10システムを組み合わせれば、最大400億パラメータのモデルを処理でき、チームにとってより大きな計算能力の選択肢を提供します。
