隨着ChatGPT熱潮,國內外大模型評測榜單陸續推出,但參數規模相近的大模型在不同榜單中的排名差異巨大。產業界和學界分析認爲,這主要與評測集的不同有關,還與主觀題比例上升導致評測公正性受質疑相關。因此,第三方評測機構如OpenCompass和FlagEval開始受關注。但業內認爲,要做出真正全面有效的大模型評測,還需要考量模型魯棒性、安全性等其他維度,目前仍在探索中。
相關推薦
“百模大戰”家家第一,大模型“跑分”作弊何時休?
["📊 <b>大模型的評測體系</b>:當前的大模型評測體系存在開源數據集可刷題、封閉評測數據集引發公平性問題以及評測指標不夠科學全面等問題。","💡 <b>大模型的應用趨勢</b>:文章提到大模型已經從模型端發展到應用端創新。","🔎 <b>大模型的商業化問題</b>:對大模型團隊來說,是否能實現商業化遠比排名和參數更重要。"]
螞蟻集團發佈面向 DevOps 領域的大模型評測基準
["螞蟻集團聯合北京大學發佈面向 DevOps 領域的大語言模型評測基準","評測基準包含計劃、編碼、構建、測試、發佈等 8 個類別的選擇題","共計 4850 道題目","基準還針對 AIOps 任務做了細分","評測結果顯示各模型得分相差不大"]
告別“無聲視頻”尷尬!字節AI音效生成模型SeedFoley上線即夢 一鍵生成大片感音效
還在爲短視頻配音效抓耳撓腮?還在苦苦尋找合適的BGM卻總是差強人意?現在,字節跳動直接放出王炸級AI黑科技,一舉打破視頻創作的最後一道靜音魔咒!他們最新推出的SeedFoley音效生成模型,如同爲視頻注入了聲命之魂,只需輕輕一點,就能爲你的視頻智能匹配專業級音效,瞬間讓你的作品從默片變身有聲大片,效果堪稱驚豔!更令人振奮的是,這項AI音效神技已火速上線字節跳動旗下視頻創作平臺即夢,人人都能秒速體驗一鍵音效加持的神奇魔力!SeedFoley究竟是如何做到如此聲入人心的?其核
谷歌全面升級Flash Thinking2.0,深度研究功能開放全體用戶
谷歌近日宣佈對其推理模型Flash Thinking2.0進行重大升級,同時將深度研究功能的訪問權限擴展至所有用戶。此次更新帶來了多項實用功能,顯著提升了人工智能系統的處理能力和用戶體驗。根據官方介紹,Flash Thinking2.0最新版本新增了文件上傳功能,並大幅提高了處理速度。對於Gemini Advanced用戶而言,該系統現在能夠在單個上下文窗口中處理高達100萬個標記的信息量,這意味着AI可以同時分析和理解更大規模的數據集。與此同時,谷歌通過Flash Thinking2.0對深度研究功能進行了優化。升級後的
軟銀收購夏普舊廠,聯手OpenAI改造爲運營AI智能體數據中心
日本顯示器產業迎來重大變革。曾經是電視用大型LCD面板生產巨頭的夏普公司,其旗下的堺顯示器產品公司(SDP)已於2024年全面停止生產,這標誌着日本本土電視大尺寸液晶面板製造時代的終結。然而,昔日沉寂的工廠即將迎來全新的生命力。據《日經新聞》報道,軟銀集團已於本週五正式簽署協議,將投入大約1000億日元(摺合人民幣約48.77億元)收購夏普位於大阪府堺市的這座舊工廠及其部分土地。軟銀此舉旨在將其改造成爲一個大規模的數據中心,並計劃與人工智能領域的創新領導者
