智源研究院推出全球首箇中文大模型辯論平臺FlagEval Debate

北京智源人工智能研究院（BAAI）最近推出了全球首個中文大模型辯論平臺FlagEval Debate。這一新平臺旨在通過模型辯論這一競爭機制，爲大語言模型的能力評估提供新的度量方式。它是智源模型對戰評測服務FlagEval大模型角鬥場的擴展，目標是甄別大語言模型之間的能力差異。

現有的大模型對戰存在一些問題，如模型對戰結果往往平局，難以區分模型間的差異;測試內容依賴用戶投票，需要大量用戶參與;現有對戰方式缺乏模型間的交互。爲了解決這些問題，智源研究院採用了大模型辯論的形式進行評估。

辯論作爲一種語言類智力活動，能夠體現參與者的邏輯思維、語言組織、信息分析與處理能力。模型辯論能夠展現大模型在信息理解、知識整合、邏輯推理、語言生成和對話能力等方面的水平，同時測試其在複雜語境中的信息處理深度和遷移應變能力。

微信截圖_20240930140737.png

智源研究院發現，辯論這種交互性對戰形式能夠凸顯模型之間的差距，並可以基於少量數據樣本計算模型有效排名。因此，他們推出了基於衆測的中文大模型辯論平臺FlagEval Debate。

該平臺支持兩個模型圍繞辯題展開辯論，辯題由平臺隨機抽取，辯題庫主要由熱搜話題、評測專家以及頂級辯論專家命制的辯題構成。所有用戶均可在平臺上對每場辯論進行評判，以提高用戶體驗。

每場模型辯論包括5輪意見發表，正反雙方各有一次機會。爲避免正反方位置帶來的偏差，兩個模型都會各做一次正方一次反方。每個大模型會與其他模型進行多場辯論，最終根據獲勝積分計算模型排名。

模型辯論對戰採取開放性衆測和專家評測兩種方式，其中專家評審團由專業辯論賽的選手和評委組成。開放性衆測觀衆可以自由鑑賞和投票。

智源研究院表示，將繼續探索模型辯論的技術路徑與應用價值，堅持科學、權威、公正、開放的原則，不斷完善FlagEval大模型評測體系，爲大模型評測生態提供新的洞察與思考。

FlagEval Debate官網:

https://flageval.baai.org/#/debate

百度發佈首款中文大模型AI眼鏡：45克輕量設計，續航達56小時

百度在2024世界大會上首次亮相其最新AI硬件產品——小度AI眼鏡。這款被稱爲"全球首款搭載中文大模型的原生AI眼鏡"的產品，展現了百度在可穿戴設備領域的創新實力。從硬件規格來看，小度AI眼鏡在輕量化設計上取得突破，整機重量僅45克，確保佩戴舒適度。配備16MP超廣角攝像頭，集成AI防抖算法，可實現穩定的第一視角拍攝。在續航方面，官方數據顯示待機時間可達56小時，支持超過5小時的持續聆聽模式，同時具備30分鐘快充能力。聲學系統採用四麥克風陣列設計，配合開放式防漏音揚

智譜 AI 發佈中文 LLM 對齊評測基準 AlignBench

["智譜 AI 發佈了針對中文大模型的評測基準 AlignBench","AlignBench 能夠在多維度上細緻評測模型和人類意圖的對齊水平","數據集分爲 8 個大類，包括知識問答、寫作生成、角色扮演等多種類型的問題","開發者可以利用 AlignBench 進行評測，並使用評價能力較強的打分模型進行評分","通過登錄 AlignBench 網站，提交結果可以使用 CritiqueLLM 作爲評分模型進行評測"]

B 站董事長陳睿：AI是年輕人在B站上最關注的內容

在最近舉行的2024年中國國際智能傳播論壇上，嗶哩嗶哩的董事長兼 CEO 陳睿發表了以 “通過 B 站看 AI” 爲主題的演講，分享了關於年輕人對 AI 內容關注的現狀。陳睿表示，AI是年輕人在B站上最關注的內容，也是增長最快的科技內容。作爲一種普惠技術，AI最終會讓所有人都從中受益。數據顯示，人工智能（AI）已經成爲年輕用戶在 B 站上最熱衷的話題之一，尤其是在90後羣體中，68% 的年輕人活躍在這個平臺。他提到，目前每個月有超過8000萬用戶在 B 站觀看與 AI 相關的內容，過去一年中，

英偉達2.5億美元收購OctoAI，劍指企業級AI部署市場

英偉達再次展現了其在人工智能領域的雄心壯志。這家GPU巨頭以2.5億美元的價格收購了總部位於西雅圖的初創公司OctoAI，這不僅是英偉達2024年的第五筆收購，更是其在AI基礎設施領域鞏固領導地位的戰略性舉措。OctoAI成立於2019年，源自華盛頓大學的Apache TVM項目，專注於優化AI模型性能。在首席執行官Luis Ceze的帶領下，公司成功從AI模型優化轉型爲生成式AI領域的關鍵玩家。OctoAI的核心產品OctoStack爲企業提供了一個全面的解決方案，能夠在多種環境中輕鬆部署和擴展生成式AI模型。這家初創公

智源研究院推出全球首箇中文大模型辯論平臺FlagEval Debate

相關推薦

百度發佈首款中文大模型AI眼鏡：45克輕量設計，續航達56小時

智譜 AI 發佈中文 LLM 對齊評測基準 AlignBench

8 月榜單！SuperCLUE 中文大模型評測基準最新排名發佈

B 站董事長陳睿：AI是年輕人在B站上最關注的內容

英偉達2.5億美元收購OctoAI，劍指企業級AI部署市場

智源研究院推出全球首箇中文大模型辯論平臺FlagEval Debate

相關推薦

百度發佈首款中文大模型AI眼鏡：45克輕量設計，續航達56小時

智譜 AI 發佈中文 LLM 對齊評測基準 AlignBench

8 月榜單！SuperCLUE 中文大模型評測基準最新排名發佈

​B 站董事長陳睿：AI是年輕人在B站上最關注的內容

英偉達2.5億美元收購OctoAI，劍指企業級AI部署市場

B 站董事長陳睿：AI是年輕人在B站上最關注的內容