相关推荐
字节开源全新代码大模型评估基准“FullStack Bench”
12月5日,字节豆包大模型团队推出了最新的代码大模型评估基准——FullStack Bench,涵盖了超11类真实场景,支持16种编程语言,并包含3374个问题。这一基准相比之前的评估标准,在更广泛的编程领域中能更准确地评估大模型的代码开发能力,推动了模型在现实世界编程任务中的优化。目前的主流代码评估基准,如HumanEval和MBPP,通常集中在基础和高级编程问题,而DS-1000则专注于数据分析和机器学习任务,且仅支持Python。xCodeEval则侧重于高级编程和数学领域,存在较大的应用场景和语言覆盖限
DeepSeek 发布开源代码大模型 DeepSeek Coder
["DeepSeek(深度求索)发布了开源代码大模型 DeepSeek Coder","DeepSeek Coder 是一个智能代码助手,可以生成各种代码","DeepSeek Coder 已经在 Hugging Face 和 GitHub 上开源","DeepSeek Coder 在国际权威数据集的测试中表现出色","DeepSeek 致力于探索 AGI 的本质,将推出更多研究成果"]
以色列 AI 公司 AI21Labs 澄清与英伟达无交易协议
AI21Labs CEO澄清与英伟达交易传闻,称双方未达成具体协议。公司虽与包括英伟达在内的多方洽谈合作,但讨论仍在进行中。此前媒体曾报道其估值达20-30亿美元。
小米大模型 MiMo 公测延长,用户可免费体验至 2026 年!
小米宣布将自研大模型MiMo-V2-Flash的公测限免期延长20天,至2026年1月20日。该模型参数量达3090亿,激活参数150亿,在推理和代码生成方面表现优异。此举旨在为用户提供更长的体验时间,并展现小米在AI领域的持续投入与信心。
印度数据中心迅猛发展,但实施进展缓慢
印度数据中心行业增长迅速,但面临落实挑战。卡纳塔克邦等新兴地区政策推进缓慢,而孟买、钦奈等成熟市场仍占主导。行业瓶颈包括政策碎片化、电力限制、人才短缺及基础设施不足,制约了资本密集型项目的进一步发展。
