产品中心PRDUCTS

技术支持RECRUITMENT

技术支持分售前技术支持和售后技术支持，售前技术支持是指在销售遇到无法解答的产品问题时，售前技术支持给予帮助；售后技术支持是指产品公司为其产品用户提供的售后服务的一种形式，帮助用户诊断并解决其在使用产品...

行业资讯

DeepSeek又变强了：发布DSpark框架推理速度提升超60%

2026-06-29 03:11:45

DeepSeek又变强了：发布DSpark框架推理速度提升超60%(图1)

　　【TechWeb】6月27日，DeepSeek团队联合北京大学发布名为《DSpark》的研究论文（基于speculative decoding方向），提出一种用于加速大模型推理的新方法。

　　该技术在保持生成文本分布完全无损（Lossless）的前提下，成功突破了大语言模型（LLM）在高并发生产环境中的推理性能瓶颈，实测数据显示，其单用户生成速度较现有主流方案最高提升85%。

　　目前，该框架已被部署在DeepSeek-V4-Flash 与 DeepSeek-V4-Pro的真实线上流量中，大幅加速了大语言模型（LLM）的推理速度。

　　据了解，主流语言模型生成文本时，基本采用 autoregressive（自回归）方式。每生成一个新token都需要一次完整的前向传播，推理延迟随输出长度线性增长。这也造成了大模型回复总感觉很慢的原因。

　　在实时对话、多轮智能体工作流等高交互场景中，生成速度直接影响用户体验，也会影响GPU利用率。

　　推测解码技术提供了一条解决路径：用一个轻量级草稿模型快速生成若干候选token，再由大模型批量验证。

　　然而，现有方案各有缺陷。自回归草稿模型逐token串行生成，质量虽高但生成延迟随候选长度线性增长；并行草稿模型虽能一次产出全部候选，但token间缺少依赖关系，导致后续候选被大量拒绝，浪费计算资源。

　　DSpark在并行生成主干的基础上引入轻量级顺序模块，逐token注入前缀依赖信息。可以理解为：前面用并行方式快速铺开候选，后面再用一个很轻的顺序模块检查相邻 token 的衔接关系。

　　该模块提供两种实现——仅依赖前一个token的马尔可夫头，以及通过循环状态累积完整前缀信息的RNN头。实验表明，两层Transformer深度的DSpark即可在所有测试领域上超过五层DFlash的接受长度。

　　传统方案对整段候选无差别校验，在高负载时大量算力被浪费在极可能被拒绝的尾部token上。

　　置信度调度验证机制，可根据不同请求的成功概率与系统负载，自适应调整验证长度，从而减少无效计算开销。

　　在离线测试中，该方法显著提升了可接受生成长度；在DeepSeek-V4线上系统中，相比基线%，并有效降低高并发下的吞吐损耗。

　　DSpark在每个候选位置输出置信度分数，预测该token的存活概率。硬件感知前缀调度器根据实时引擎吞吐量，为每个请求动态决定最优验证长度，优先将算力分配给预期回报最高的token。

　　每日头条、业界资讯、热点资讯、八卦爆料，全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与，TechWeb官方微博期待您的关注。

开云体育-开云体育（Kaiyun Sport）股份有限公司官网｜PLC控制器模块｜工业自动化控制系统