中国発のAI研究機関DeepSeekは、今週突然世界の注目を浴びることとなり、そのチャットボットアプリがApple App StoreおよびGoogle Playのダウンロードランキングでトップに躍り出た。この会社は計算効率の高い技術を用いてAIモデルを訓練しており、ウォールストリートのアナリストやテクノロジー業界の人々が、アメリカがAIの先導地位を維持できるか、またAIチップの需要が持続可能であるかについて疑問を投げかけている。
DeepSeekの背景には、中国の量化対冲ファンド「幻方量化(High-Flyer Capital Management)」がある。このファンドはAI技術を取引意思決定の補助として活用しており、AI愛好家の梁文鋒によって2015年に共同設立された。報道によると、梁文鋒は浙江大学在学中に取引分野に関心を持ち、2019年に幻方をAIアルゴリズムの開発・運用に特化した対冲ファンドへと転換した。
2023年、幻方はDeepSeekプロジェクトを開始し、金融業務とは独立したAIツールの研究ラボとして運営した。その後、幻方の投資により、このラボは独立会社としてDeepSeekに分割された。
設立当初から、DeepSeekは自前のデータセンタークラスターを構築し、モデルのトレーニングに使用してきた。しかし他の中国のAI企業と同様に、DeepSeekも米国のハードウェア輸出制限の影響を受けている。最新のモデルをトレーニングする際には、米国企業が利用できるH100チップよりも性能が劣るNVIDIA H800チップを使用せざるを得なかった。
知られている限り、DeepSeekの技術チームは若年層が多く、中国のトップ大学からAI分野の博士研究者を積極的に採用している。ニューヨークタイムズの報道によると、DeepSeekはコンピューターサイエンスのバックグラウンドを持たない人物も雇っており、技術チームが幅広い学問領域をより良く理解する手助けをしている。
DeepSeekは2023年11月に最初のモデルであるDeepSeek Coder、DeepSeek LLM、DeepSeek Chatをリリースした。しかし昨年の春に新世代のDeepSeek-V2シリーズモデルを発表したことで、AI業界がこの会社に本格的に注目し始めた。
DeepSeek-V2は、汎用的なテキストおよび画像分析システムであり、複数のAIベンチマークテストで優れた性能を示し、運用コストは当時の類似モデルよりも大幅に低かった。これにより、ByteDanceやアリババなどの国内競合企業は一部のモデルの使用料を削減し、一部のモデルは完全に無料で公開することになった。
2024年12月にリリースされたDeepSeek-V3は、同社の知名度をさらに高めた。内部のベンチマークテストによると、DeepSeek V3の性能はMetaのLlamaなどのダウンロード可能なオープンソースモデル、そしてOpenAI GPT-4oなどのAPI経由でのみアクセス可能な閉鎖型モデルを上回っていた。
同様に印象的だったのは、DeepSeekのR1推論モデルである。このモデルは今年1月にリリースされ、DeepSeekはその重要なベンチマークテストでのパフォーマンスがOpenAIのo1モデルと同等であると主張している。
R1は推論モデルであり、自身の答えを検証することができ、いくつかの一般的なエラーを回避するのに役立つ。推論モデルは解決策を得るために数秒から数分かかることが多いが、物理、科学、数学などの分野ではより信頼性が高い。
ただし、DeepSeekのモデルにも限界がある。中国で開発されたAIシステムであるため、これらのモデルは中国のインターネット規制当局による基準テストを受け、応答が「社会主義核心価値観」を反映していることを確認する必要がある。DeepSeekのチャットアプリでは、天安門広場や台湾の自治に関する敏感な質問には答えない。
3月にDeepSeekの訪問数は1,650万回を超えた。Similarweb編集長のDavid CarrはTechCrunchに対して、「3月にDeepSeekは第2位にランクインしたが、毎日のアクセス数は2月に比べて25%減少していた。」と語った。それでも、その数字はChatGPTのものとは大きく異なる。同社は3月に週間アクティブユーザーが5億人以上だった。
5月、DeepSeekは開発者プラットフォームHugging Face上でR1推論モデルのアップデート版をリリースした。9月には、長文のコンテキスト処理における推論コストを大幅に削減することを目的とした実験モデルV3.2-expをリリースした。
もしDeepSeekにビジネスモデルがあるとすれば、それは現在まだ明確ではない。同社の製品およびサービスの価格は市場価格よりもはるかに低く、一部のサービスは無料で提供されている。ベンチャーキャピタルの関心は高いが、同社は外部からの投資を受け入れていない。
DeepSeekは効率性の突破により極端なコスト競争力を持つと主張しているが、一部の専門家は同社が提供するデータに疑問を抱いている。
いずれにしても、開発者はDeepSeekのモデルを広く採用している。これらのモデルは伝統的な意味でのオープンソースとは言えないが、商業用途が許可された緩やかなライセンスが適用されている。Hugging FaceのCEOであるClem Delangueは、同プラットフォーム上の開発者がR1の派生モデルを500個以上作成し、総ダウンロード数が250万回に達していると述べた。
DeepSeekがより大規模で成熟した競合企業に成功したことは、「AI業界を混乱させた」とも「過度に盛り上がっている」とも評価されている。同社の成功は少なくとも一部の原因となって、1月にNVIDIAの株価が18%下落し、OpenAIのCEOであるSam Altmanが公に反応した。
3月には、ロイター通信の報道によると、米国商務省の各局が職員にDeepSeekを政府機器で使用しないように通知した。
マイクロソフトは、Azure AI FoundryサービスでDeepSeekを提供すると発表した。第1四半期の財務電話会議で、DeepSeekがMeta AI支出に与える影響について尋ねられたCEOのザッカーバーグは、AIインフラストラクチャへの支出がMetaにとって「戦略的な優位性」であると述べた。3月には、OpenAIはDeepSeekが「国家補助金を受けている」かつ「国家に支配されている」とし、米国政府がDeepSeekモデルの禁止を検討するよう勧告した。
英伟达の第4四半期の財務電話会議では、CEOの黄仁勲はDeepSeekの「卓越した革新性」を強調し、同社および他の推論モデルが英伟達にとって有利であると述べた。これは、それらがより多くの計算リソースを必要とするからである。
一方で、韓国などいくつかの企業や国がDeepSeekを禁止している。ニューヨーク州も政府機器でのDeepSeek使用を禁止している。5月、マイクロソフトの副会長兼社長であるBrad Smithは参議院聴證会で、データセキュリティと宣伝の懸念から、マイクロソフトの従業員はDeepSeekを使用できないと述べた。
DeepSeekの将来の方向性は不明瞭である。モデルの改善は必然的だが、米国政府は外国の有害な影響を懸念する傾向が強まっている。3月にワールド・ジャーナルの報道によると、米国は政府機器でDeepSeekを禁止する可能性がある。
