相关推荐
微博推出 VibeThinker-1.5B,低成本 AI 模型挑战大型语言模型
微博AI部门推出开源大模型VibeThinker-1.5B,拥有15亿参数。该模型基于阿里Qwen2.5-Math-1.5B优化,在数学和代码任务表现优异。现已在Hugging Face等平台免费开放,遵循MIT许可证,支持商业使用。
2025年11月13号 9:14
160.2k
揭开MiniMax M2的神秘面纱:为何选择全注意力机制?
MiniMax M2模型采用全注意力机制,放弃线性或稀疏注意力技术。开发团队认为,尽管后者能节省计算资源,但全注意力在工业应用中更高效,能提升模型性能。这一决策旨在优化实际部署效果,推动AI技术发展。
2025年11月6号 16:01
167.6k
Meta 研究人员揭开大语言模型黑箱,修复 AI 推理缺陷
Meta与爱丁堡大学合作开发CRV技术,通过分析大型语言模型内部推理电路,预测其推理正确性并修复错误。该方法构建模型激活计算图,高精度检测推理错误,提升AI可靠性。
2025年10月31号 8:57
147.9k
应对模型推理缺陷:苹果MIND团队加紧招聘AI人才
苹果公司正加紧招聘推理模型领域专家,以解决其研究揭示的大型语言模型重大缺陷。招聘聚焦开发更准确高效的新型架构,重点强化推理、规划、工具使用和基于代理的LLM能力。
2025年10月23号 9:00
88.0k
AI 驱动的“数字孪生”解放工作效率:初创公司 Viven 获3500万美元种子轮融资,解决员工“不在场”痛点
人工智能初创公司Viven利用大型语言模型和数据隐私技术,打造员工数字孪生,解决因休假或时区差异导致的关键信息缺失问题,避免项目停滞,降低时间成本。
2025年10月16号 9:13
143.3k
