関連推奨
顧全全が字節のSeedチームを離職確認、SeedFoldとSeed2.0トレーニングシステムの構築を主導
字節跳動のSeedチームのコア研究者である顧全全が離職を確認した。彼女はソーシャルメディアで3年間のAI創薬および大規模言語モデルの事前学習分野での研究成果を振り返った。彼女が主導して開発した生物分子構造予測モデルのSeedFoldは、複数の公開ベンチマークテストで優れたパフォーマンスを示した。今回の離職は、字節のAIビジネスの商業化が加速する中で起こり、AI for Scienceのスタートアップブームへの関心を引き起こした。
単一ラウンドの愚か者の質問にさようなら!雲知声がネイティブなエージェント大モデルU2を発表、百段階の複雑なワークフローを自主的に解決
生成AIはチャットツールから「スーパーデジタル社員」へ進化。6月8日、雲知声が次世代汎用大規模モデルU2を発表。個人、開発者、企業向けに設計され、従来の単一対話の限界を突破。高知能密度と高トークン価値に焦点を当て、実践的な提供能力を向上させる。....
テンセントと人民大学高嶺が共同でオープンソース計画評価フレームワークのPlanningBenchを発表
テンセントの混元チームと中国人民大学などが共同で、大規模言語モデルの計画能力を評価・訓練するフレームワーク「PlanningBench」をオープンソース化。30以上の計画タスクタイプをカバーし、データ生成と検証をサポート。タスク、制約、難易度を体系的に抽象化し、モデルの実践的な計画能力を評価することを目指す。....
GPT 5.5がAIバグチャレンジで優勝、DeepSeekがコストパフォーマンス最高を獲得
セキュリティ研究者Kasra Rahjerdiが、脆弱性を含む書籍レビューアプリを構築し、主要な大規模言語モデルのセキュリティ推論能力をテスト。Googleモバイルバックエンドサービスの認証情報を意図的に露出させ、モデルに解凍とデータベースアクセスを要求。2時間、予算10ドルの厳格な条件下でトップモデルのパフォーマンスを評価した。....
GPT-5.5が利用効率で優勝、DeepSeek V4 Proがコストパフォーマンスの王座を獲得!大規模言語モデルのサイバーセキュリティ攻防テスト結果が公開
大規模言語モデルはサイバーセキュリティ分野における推論能力に厳しいテストを受けています。セキュリティ研究者であるKasra Rahjerdi氏は、コアな脆弱性を含む図書レビューAPKを構築し、主流の大規模言語モデルを模擬ハッキングテストしました。このテストでは、各モデルがセキュリティ推論と脆弱性の利用において実際にどの程度の性能を持っているかを明らかにしています。テストは2時間の制限時間、1回あたり予算が10ドルで行われ、複雑な論理的チャレンジにおける各モデルの実際のパフォーマンスが明確に示されています。
