相关推荐
中科院推出类脑大模型 SpikingBrain:以2% 数据实现百倍速度突破
近日,中国科学院自动化研究所的李国齐与徐波团队联合发布了全球首款大规模类脑脉冲大模型 ——SpikingBrain1.0。该模型在处理长文本时展现出惊人的速度,能够以超过当前主流 Transformer 模型100多倍的速度处理400万 token 的超长文本,且仅需2% 的数据量。当前主流的大语言模型,如 GPT 系列,普遍基于 Transformer 架构。尽管 Transformer 以其强大的自注意力机制而闻名,但其计算复杂度却是一个致命的短板。在文本长度增加时,计算量呈现出平方级别的暴涨,使得长文本的处理变得异常耗时和耗
姚班学霸、OpenAI姚顺雨:AI发展已从模型创新到产品思维
随着人工智能(AI)技术的不断成熟,业内专家提出,AI 发展的重心正在发生显著转变。从早期的模型训练和算法创新,转向更加关注任务定义与评估优化。这一观点由 OpenAI 的研究员姚顺雨提出,他强调,在 AI 的下半场,产品思维将成为推动技术应用和商业化的关键。在 AI 的上半场,研究者们专注于构建强大的模型,例如 Transformer 和 GPT-3等,这些模型在各种基准任务中表现出色。此阶段的核心在于方法论,研究人员主要关注如何设计和优化算法,而任务的定义往往被视为次要。因此,尽
挑战传统:无归一化层的 Transformer 架构新突破
在深度学习领域,归一化层被视为现代神经网络中不可或缺的组件之一。最近,一项由 Meta FAIR 研究科学家刘壮主导的研究成果 ——“没有归一化层的 Transformer” 引发了广泛关注。这项研究不仅提出了一种名为动态 tanh(Dynamic Tanh,DyT)的新技术,还展示了在不使用传统归一化层的情况下,Transformer 架构依然可以实现高效的训练和推理。归一化层,尤其是层归一化(Layer Normalization,LN),在过去的十年中对优化深度学习模型起到了至关重要的作用。LN 层通过将输入激活进行缩放和压缩,从
Sesame发布CSM模型:实时情感定制 AI语音合成迈向新高度
3月13日,Sesame公司推出其最新语音合成模型CSM,引发业界关注。据官方介绍,CSM采用端到端基于Transformer的多模态学习架构,能够理解上下文信息,生成自然且富有情感的语音,声音效果贴近真人,令人惊艳。该模型支持实时语音生成,可处理文本和音频输入,用户还能通过调整参数控制语气、语调、节奏及情感等特性,展现高度灵活性。CSM被认为是AI语音技术的重要突破。其语音自然度极高,甚至“无法分辨是人工合成还是真人”。有用户录制视频展示CSM几近无延迟的表现,称其为“体验
无需训练!Q-Filters 实现 KV 缓存高效压缩,提升推理性能
近年来,基于 Transformer 架构的大型语言模型(LLMs)取得了显著进展,诸如 Gemini-Pro1.5、Claude-3、GPT-4和 Llama-3.1等新模型能够处理成百上千的token。然而,这些扩展的上下文长度带来了实际应用中的一些重大挑战。随着序列长度的增加,解码延迟上升,内存限制也成为了一个严重的瓶颈。KV 缓存在推理过程中储存上下文信息,随着上下文长度的增加,缓存的大小也呈比例增长,这导致内存饱和,严重影响了处理长输入序列的效率,因此迫切需要优化解决方案。虽然市场上存在一些无训练的方
