最新版のDeepSeek V4中国語大モデル評価において、SuperCLUEチームの結果は、DeepSeek-V4-Proが優れた総合的なパフォーマンスにより国内第1位を再び獲得したことを示しています。一方、Flashバージョンはそれに続き2位となりました。この実績は、国内オープンソースモデルにおける技術的な新たな突破を示しています。

今回の評価では、数学推論、科学推論、コード生成、インテリジェントエージェントのタスク計画、指示の遵守、幻覚制御の6つの次元がカバーされました。DeepSeek-V4-Proは70.98点という高い得点でリードし、Flashバージョンも68.82点という優れた成績を収めています。両者の得点は、国内の他の同種モデルに比べて大幅に上回っています。
DeepSeek V4シリーズは、新開発された注目メカニズムを採用しており、百万単位の長文を扱うことが可能であり、計算能力とメモリ使用量を効果的に節約しています。これにより、国内チップと組み合わせた場合、全体的な効率が顕著に向上しています。前世代のV3.2と比較して、Proバージョンではインテリジェントエージェントの能力が20ポイント以上向上し、数学的推論がほぼ10ポイント向上し、指示の遵守点数が約12ポイント増加し、幻覚制御にも明確な改善が見られます。

Flashバージョンに関しては、効率的な推論を維持しながら、インテリジェントエージェントと数学的推論の面で大幅な向上を遂げており、コストパフォーマンスが突出しています。Proバージョンは高性能を重視しており、複雑なタスクや専門的なシナリオに適しています。価格は100万トークンあたり15元です。一方、Flashバージョンは高速で低コストであることで知られており、API価格は100万トークンあたり1.25元で、日常的な使用に最適です。
DeepSeek V4は多くの面で優れた性能を発揮しているものの、評価ではコード生成や複雑な指示の実行などの分野では、海外のトップモデルと比較してまだ一定の課題があると指摘されています。全体的に見れば、DeepSeek V4はバランスの取れた能力と合理的なコストを持つことで、国内市場で安定した地位を確保しており、日常的な業務、開発作業、および長文処理の優れた選択肢となっています。
重要なポイント:
🌟 DeepSeek-V4-Proは最新の評価で国内第1位となり、Flashバージョンはそれに続きました。
🧠 評価は数学的推論、科学的推論など6つの次元をカバーし、Proバージョンの得点は70.98点でした。
