DeepSeek V4 中文大モデル評価：国内最高峰を再び達成！

最新版のDeepSeek V4中国語大モデル評価において、SuperCLUEチームの結果は、DeepSeek-V4-Proが優れた総合的なパフォーマンスにより国内第1位を再び獲得したことを示しています。一方、Flashバージョンはそれに続き2位となりました。この実績は、国内オープンソースモデルにおける技術的な新たな突破を示しています。

今回の評価では、数学推論、科学推論、コード生成、インテリジェントエージェントのタスク計画、指示の遵守、幻覚制御の6つの次元がカバーされました。DeepSeek-V4-Proは70.98点という高い得点でリードし、Flashバージョンも68.82点という優れた成績を収めています。両者の得点は、国内の他の同種モデルに比べて大幅に上回っています。

DeepSeek V4シリーズは、新開発された注目メカニズムを採用しており、百万単位の長文を扱うことが可能であり、計算能力とメモリ使用量を効果的に節約しています。これにより、国内チップと組み合わせた場合、全体的な効率が顕著に向上しています。前世代のV3.2と比較して、Proバージョンではインテリジェントエージェントの能力が20ポイント以上向上し、数学的推論がほぼ10ポイント向上し、指示の遵守点数が約12ポイント増加し、幻覚制御にも明確な改善が見られます。

Flashバージョンに関しては、効率的な推論を維持しながら、インテリジェントエージェントと数学的推論の面で大幅な向上を遂げており、コストパフォーマンスが突出しています。Proバージョンは高性能を重視しており、複雑なタスクや専門的なシナリオに適しています。価格は100万トークンあたり15元です。一方、Flashバージョンは高速で低コストであることで知られており、API価格は100万トークンあたり1.25元で、日常的な使用に最適です。

DeepSeek V4は多くの面で優れた性能を発揮しているものの、評価ではコード生成や複雑な指示の実行などの分野では、海外のトップモデルと比較してまだ一定の課題があると指摘されています。全体的に見れば、DeepSeek V4はバランスの取れた能力と合理的なコストを持つことで、国内市場で安定した地位を確保しており、日常的な業務、開発作業、および長文処理の優れた選択肢となっています。

重要なポイント:

🌟 DeepSeek-V4-Proは最新の評価で国内第1位となり、Flashバージョンはそれに続きました。

🧠 評価は数学的推論、科学的推論など6つの次元をカバーし、Proバージョンの得点は70.98点でした。

Claudeの音声モードがついにOpusを採用しました：気軽な質問からツール調整や言語変更ができるリアルタイムなアドバイザーへと進化

AnthropicがClaudeの音声モードを大幅強化。Opus、Sonnet、Haikuの3モデルに対応し、GmailやSlackなどの接続ツールと連携。言語サポートも拡大。ハンズフリー会話の追加後、ユーザーは複雑な長会話を音声で処理し、タイピングの課題を解消している。....

アリババがオープンソースの0.8Bドキュメント解析モデルOvisOCR2を発表、エンドツーエンドソリューションがOmniDocBenchで首位に

7月24日、アリババは0.8Bパラメータの文書解析モデルOvisOCR2をオープンソース化。OmniDocBenchで96.58点を獲得しトップに立ち、従来のパイプラインを初めて全面的に上回り、文書インテリジェンスのパラダイムシフトを推進。....

テンセントが WorkBuddy Bench を発表：コード、ウェブページ、オフィス作業、セキュリティをすべてワンパッケージにしたコードインテリジェントテストケース

テンセントが WorkBuddy Bench 多分野評価キットを発表しました。論文は arXiv に掲載されています。これはコードインテリジェントの評価においてそれぞれの分野が独立していること、および生成基準が透明ではないという状況を打ち破り、コードエンジニアリングのリポジトリレベル、フロントエンド製品、オフィス自動化などの4つの業務シーンを統合したものです。最大の特徴は問題数ではなく、問題の根源的な設計によって答えを覚えることを排除し、インテリジェントが異なる分野で汎用性と移行能力を実際の評価で反映できることを確保しています。

NVIDIAが15億ドルを投資し、Amkorと提携して先進パッケージングの生産拡大を進め、AI演算力サプライチェーンを先手で確保

NVIDIAとAmkorが約15億ドルの複数年契約を締結。アリゾナ州の先進パッケージング生産能力拡張をNVIDIAが前払いで支援。AI・データセンター加速コンピューティング向け高密度相互接続や異種統合などの封止技術を共同開発し、マルチプロセスチップの効率的統合を図る。....

OpenAIがChatGPT Health機能を全面的に公開：Apple Healthと電子カルテを統合、毎週3億ユーザーが健康に関する質問を投稿