相關推薦
字節開源全新代碼大模型評估基準“FullStack Bench”
12月5日,字節豆包大模型團隊推出了最新的代碼大模型評估基準——FullStack Bench,涵蓋了超11類真實場景,支持16種編程語言,幷包含3374個問題。這一基準相比之前的評估標準,在更廣泛的編程領域中能更準確地評估大模型的代碼開發能力,推動了模型在現實世界編程任務中的優化。目前的主流代碼評估基準,如HumanEval和MBPP,通常集中在基礎和高級編程問題,而DS-1000則專注於數據分析和機器學習任務,且僅支持Python。xCodeEval則側重於高級編程和數學領域,存在較大的應用場景和語言覆蓋限
DeepSeek 發佈開源代碼大模型 DeepSeek Coder
["DeepSeek(深度求索)發佈了開源代碼大模型 DeepSeek Coder","DeepSeek Coder 是一個智能代碼助手,可以生成各種代碼","DeepSeek Coder 已經在 Hugging Face 和 GitHub 上開源","DeepSeek Coder 在國際權威數據集的測試中表現出色","DeepSeek 致力於探索 AGI 的本質,將推出更多研究成果"]
OpenAI表態支持特朗普AI行政令:願在模型發佈前接受政府安全評估
OpenAI表示將遵守特朗普簽署的人工智能模型發佈前審查行政命令。公司全球事務負責人喬治·奧斯本在倫敦SXSW活動上確認,將簽署這項自願性命令並參與評估。他強調OpenAI對自身責任“非常嚴肅”,並指出作爲掌握強大技術的公司,需謹慎行事。
OpenAI CEO 薩姆・奧特曼:積極主動的 AI 將成爲未來趨勢
OpenAI首席執行官薩姆·奧特曼提出AI產品發展三階段理論:第一階段是聊天模型(如ChatGPT),第二階段爲基於代理的系統(如Codex),第三階段是“積極主動的AI”,即後臺持續運行、自動執行任務的AI。當前代理階段是最大產品類別,主要響應客戶需求,但用戶使用中仍存在侷限。
騰訊與人大高瓴聯合推出開源規劃評測框架 PlanningBench
騰訊混元團隊與中國人民大學等機構聯合開源了PlanningBench,這是一個用於評測和訓練大語言模型規劃能力的框架。它系統化地抽象了任務、約束和難度,覆蓋30多種規劃任務類型,支持數據生成與驗證,旨在評估模型的實際規劃能力。
