大型語言模型 (LLM) 在自然語言處理 (NLP) 領域取得了顯著進展,使其在文本生成、摘要和問答等應用中大放異彩。然而,LLM 對令牌級處理(一次預測一個詞)的依賴也帶來了一些挑戰。這種方法與人類的交流方式形成對比,後者通常在更高層次的抽象層面運作,例如句子或想法。



大型語言模型 (LLM) 在自然語言處理 (NLP) 領域取得了顯著進展,使其在文本生成、摘要和問答等應用中大放異彩。然而,LLM 對令牌級處理(一次預測一個詞)的依賴也帶來了一些挑戰。這種方法與人類的交流方式形成對比,後者通常在更高層次的抽象層面運作,例如句子或想法。


AI數據分析公司WisdomAI完成5000萬美元A輪融資,由Kleiner Perkins領投,NVentures跟投。創始人表示資金將用於技術研發和市場拓展。公司專注於從各類數據中提取商業洞察。
微博AI部門推出開源大模型VibeThinker-1.5B,擁有15億參數。該模型基於阿里Qwen2.5-Math-1.5B優化,在數學和代碼任務表現優異。現已在Hugging Face等平臺免費開放,遵循MIT許可證,支持商業使用。
韓國延世大學“自然語言處理與ChatGPT”課程曝出大規模作弊醜聞,數百學生涉嫌在期中考試中使用ChatGPT等AI工具作弊。教授聲明作弊者成績清零,受影響人數或超選課學生(約600人)半數。該課程爲線上授課,期中考試於10月15日通過在線平臺進行。
MiniMax M2模型採用全注意力機制,放棄線性或稀疏注意力技術。開發團隊認爲,儘管後者能節省計算資源,但全注意力在工業應用中更高效,能提升模型性能。這一決策旨在優化實際部署效果,推動AI技術發展。
Meta與愛丁堡大學合作開發CRV技術,通過分析大型語言模型內部推理電路,預測其推理正確性並修復錯誤。該方法構建模型激活計算圖,高精度檢測推理錯誤,提升AI可靠性。