DeepSeek最新论文介绍新机制:AI模型成本还能降

今日头条
Toutiao
最新回复:2025年2月19日 0点43分 PT
  返回列表
67551 阅读
9 评论
财联社

2月18日,DeepSeek团队发布一篇论文介绍了新的注意力机制NSA(Natively Sparse Attention,原生稀疏注意力机制)。

NSA专为长文本训练与推理设计,能利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现,特别是提升长上下文的推理能力,在保证性能的同时提升了推理速度,并有效降低了预训练成本。

DeepSeek创始人梁文锋现身论文著作者之中,在作者排名中位列倒数第二。

其他研究人员来自DeepSeek、北大和华盛顿大学,其中第一作者Jingyang Yuan(袁景阳)是在DeepSeek实习期间完成的这项研究。

资料显示,袁景阳目前为北京大学硕士研究生。他的研究领域包括大型语言模型(LLM)、人工智能在科学中的应用(AI for Science)。他是DeepSeek-V3技术报告的主要作者之一,还参与了DeepSeek-R1项目,该项目旨在通过强化学习激励大型语言模型的推理能力。

在论文中,DeepSeek团队表示,随着大型语言模型的发展,长上下文建模变得越来越重要,但传统注意力机制的计算复杂度随着序列长度的增加而呈平方级增长,成为制约模型发展的关键瓶颈。

NSA便是为高效处理长上下文任务而生的一种技术路径,其核心创新在于:

1)动态分层稀疏策略:结合粗粒度的Token压缩和细粒度的Token选择,既保证全局上下文感知,又兼顾局部信息的精确性。

2)硬件对齐与端到端训练:通过算术强度平衡的算法设计和硬件优化,显著提升计算速度,同时支持端到端训练,减少预训练计算量。

实验表明,NSA不仅在通用任务和长上下文任务中表现出色,还在链式推理等复杂任务中展现了强大的潜力,且推理速度加快。在通用基准测试、长文本处理以及基于指令的推理任务中,NSA的表现均能达到甚至超越传统全注意力(Full Attention)模型的水平,其以性价比极高的方式,罕见地在训练阶段应用稀疏性,在训推场景中均实现速度的明显提升,特别是在解码阶段实现了高达11.6倍的提升。

通过高效的长序列处理能力,NSA使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。例如,Gemini 1.5 Pro已展示长上下文潜力,NSA可进一步降低此类模型的训练与推理成本。

s
shankecn
1 楼
谈到学术问题狗子就不要进来了吧。
p
push
2 楼
open ai也要开源了,懂技术的狗粮也去蒸馏抄袭一下,看看能不能搞出来😂😂😂😂
爸他志洪李
3 楼
Jeffinvade的数据要来了震慑你们了!
g
googlebot
4 楼
deepseek还是功力高,论文当先锋
爸爸老爹
5 楼
先是把OpenAI给逼免费了,现在又把OpenAI给逼开源。 估计Altman都快疯了。
c
cosplaycar
6 楼
真的,只会降成本,绕过一个程序到达同样目标表示你就是只copy Cat,招着1%top华人天才怎么就不是宣称还能在那些方面还能改进,有重大突破?起码马斯克宣布的是超过其他AI的计算推理能力,不是便宜。
金山浪人
7 楼
在Deepseek横空出世之前丑国的AI用钱堆算力搞垄断卖高价的方法就像“竭泽而渔”已经走入死胡同,DeepSeek的出现给AI发展指出了正确的道路,用开源AI的民主化打破了丑国对AI的封闭垄断,给全世界人民带来共享AI红利的新希望。真的要感谢Deepseek你我才有可能这么快地半免费用上的CloseAI 藏着掖着的准备挤牙膏卖高价的“好货”。
打哈欠
8 楼
deepseek 这些方向都是习近平同志指示梁文峰的。
细佬会向上
9 楼
反华狗碰到这些看不懂的技术文章,一律变成复读机:“这些从哪蒸馏出来的?”