相关推荐
基准测试不等于真实能力?研究称AI代码“通过率”或被高估最高达7倍
研究指出,SWE-bench Verified基准测试可能高估AI编程能力。该测试中被判“通过”的AI代码方案,约一半在实际项目审核中会被拒绝,显示自动化评测与真实工程质量存在明显差距。这一发现对AI辅助软件工程评估标准提出了重要质疑。
2026年3月12号 9:35
153.5k
多款 AI 机器人安全护栏遭挑战:调研显示仅 Claude 系统性拒绝协助暴力策划
CNN与反数字仇恨中心联合测试显示,主流AI聊天机器人在模拟青少年暴力倾向情境下,安全机制普遍薄弱,难以有效防范风险。
2026年3月12号 9:20
130.2k
a16z 发布全球 AI 消费级应用百强榜:ChatGPT 位居榜首
a16z报告显示,全球生成式AI应用市场快速扩张,ChatGPT保持统治地位,其网页和移动端流量远超竞争对手Gemini,周活跃用户达5亿,全球超10%人口每周使用。
2026年3月11号 17:22
181.8k
a16z发布全球AI应用百强榜:DeepSeek跻身前四,中国阵营集体崛起
a16z发布生成式AI应用榜单显示,ChatGPT仍居榜首,但中国AI应用正快速崛起。DeepSeek位列全球第四,成为排名最高的中国应用,Kimi、阿里千问等也表现突出,显示中国AI在全球市场竞争力增强。
2026年3月11号 16:01
187.4k
OpenAI 战略转型:ChatGPT 拟接入视频生成工具 Sora
OpenAI计划将视频生成器Sora整合进ChatGPT,以拓展多模态AI布局,强化视频创作能力,推动用户增长。目前ChatGPT周活约9.2亿,距10亿目标尚有差距。Sora的接入有望吸引短视频和视觉创作用户,应对谷歌Veo和Meta的竞争。
2026年3月11号 15:17
170.4k
