GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况


众所周知,大型语言模型(LLM)的推理通常需要使用自回归采样,这个推理过程相当缓慢。为了解决这个问题,推测解码(Speculative Decoding)已经成为 LLM 推理的一种新型采样方法。这种方法在每个采样步骤中,会先预测几个可能的 token,然后并行地验证是否准确。与自回归解码不同,推测解码能够单步解码多个 token,从而加速推理。

尽管推测解码在许多方面都表现出巨大潜力,但也带来了一些需要深入研究的关键问题。首先,我们需要思考如何选择或设计适当的近似模型,以在推测的准确性和生成的效率之间取得平衡。其次,重要的是确保评估标准能够同时维持生成结果的多样性和质量。最后,必须认真考虑近似模型和目标大模型之间的推理过程的对齐,以提高推理的准确性。

来自香港理工大学、北京大学、MSRA以及阿里的研究者对推测解码进行了全面的调研,机器之心对此进行了综合总结。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况


  • 论文标题:Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding
  • 论文地址:https://arxiv.org/pdf/2401.07851.pdf

推测解码的演化之路

文章首先详细介绍了推测解码技术的早期研究情况,并通过时间表展示了其发展历程(见图 2)。

分块采样(Blockwise Decoding)是一种在 Transformer 解码器上集成额外前馈神经(FFN)头的方法,能够单步生成多个 token。

为了进一步充分发挥分块采样算法的潜力,提出了推测解码的解决方案。这种算法涵盖了一个独立的近似模型,通常采用专门的非自回归 Transformer,能够高效而精确地执行生成任务。

继推测解码出现之后,有学者接着提出了「投机采样算法」(Speculative Sampling),在推测解码中加入了无损加速核采样。

总的来说,这些关于推测解码的创新尝试已经开始加强 Draftthen-Verify 范式,并且展示了在 LLM 加速方面的巨大潜能。

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况

公式和定义

本节首先简要概述了标准自回归解码的内容,然后深入阐述了推测解码算法,包括对形式定义、方法论的全面描述以及算法的详细阐述。

本文提出了一个组织框架来对相关研究进行分类,如下图 3 所示。

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况

本文在前人的基础上,对「推测解码算法」再次进行了正式的定义:

推测解码算法是一种先生成后验证的解码模式,在每个解码步骤,它首先需要能生成多个可能的 token,然后使用目标大语言模型并行地评估所有这些 token,以加快推理速度。算法表 2 是一个详细的推测解码过程。

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况

随后,本文深入研究了这一范式不可或缺的两个基本子步骤 —— 生成和评估。

生成

在每个解码步骤中,推测解码算法首先会生成多个可能的 token,作为对目标大语言模型的输出内容的推测。

本文将生成的内容分为两类:独立生成(independent drafting )和自生成(self-drafting),并在下表 1 中总结了其公式。

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况

验证

在每个解码步骤中,并行地验证近似模型生成的 token,以确保输出质量与目标大语言模型高度一致。这个过程还确定了每一步可允许的 token 数量,这是一个能够影响加速情况的一个重要因素。

对各种验证标准的总结如下表 2 所示,包括那些在大语言模型推理中支持贪心解码和核采样的标准。

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况

生成和验证的子步骤会持续迭代,直到满足终止条件为止,即 [EOS] token 被解码或句子达到最大长度。

此外,本文引入了 token 的树验证算法,这是一种逐步提高 token 接受度的有效策略。

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况

模型对齐

提高推测准确性是加速推测解码的关键:近似模型的预测行为越接近目标大语言模型,对其生成 token 的接受率就越高。为此,现有的工作探索了各种知识提取(KD)策略,以使近似模型的输出内容与目标大语言模型的输出内容保持一致。

分块解码首先采用序列级知识提取(Seq-KD)来进行模型对齐,用目标大语言模型生成的句子训练近似模型。

此外,Seq-KD 也是提高并行解码生成质量的有效策略,提高了并行解码的生成性能。

下表 3 中总结了现有推测解码方法的主要特征,包括近似模型的类型或生成策略、模型对齐方法、支持的评估策略和加速程度等情况。

GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况

应用

除了作为一种通用范式外,最近的工作还表明,推测解码的一些变体在特定任务中表现出非凡的有效性。此外,其他研究已经将这种范式应用于解决某些应用场景特有的延迟问题,从而实现推理加速。

例如,有些学者认为,推测解码特别适合于模型输入和输出高度相似的任务,如语法纠错和检索增强生成。

除了这些工作之外,RaLMSpec(Zhang et al., 2025b)用推测解码来加速检索增强语言模型(RaLMs)。

机遇与挑战

问题 1:如何权衡预测内容的准确性和生成效率?尽管目前对这个问题取得了一些进展,但在使近似模型与目标大语言模型生成内容保持一致方面仍有相当大的改进空间。除了模型对齐之外,其他因素(如生成质量和预测长度的确定)也会影响推测的准确性,值得进一步探索。

问题 2:如何将推测解码与其他领先技术相结合?作为一种通用的解码模式,推测解码已经与其他先进技术相结合,展示了其潜力。除了加速纯文本的大语言模型之外,推测解码在多模式推理中的应用,如图像合成、文本到语音合成和视频生成,也是未来研究的一个有趣而有价值的方向。

更多细节内容请参阅原论文。

以上就是GPT-4可能也在用的推测解码是什么?一文综述前世今生和应用情况的详细内容,更多请关注其它相关文章!


# 丰田  # 公司网站推广要怎么做  # 泗水专业seo产品经理招聘  # 长治网站建设信息推荐  # 福州seo创始人  # 海口网站推广收费  # 临西网站建设介绍  # 抖音seo供应商  # 昆明雪莱牛奶推广营销员  # 郑东新区网站建设哪家好  # 洛阳营销系统加盟推广  # 进行了  # 模型  # 是一种  # 中国科学院  # 提出了  # 多个  # 今生  # 前世  # 一文  # 也在  # draft  # 训练 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: AI大举入侵内容行业,哪些上市*及动漫公司进行了布局?  北京市通用人工智能产业创新伙伴计划名单公布,京东科技入选“算力伙伴”  扎克·施奈德新片《月球叛军》曝剧照 机器人首度现身  田渊栋团队新研究:微调  中国联通发布图文AI大模型,可实现以文生图、视频剪辑  人工智能和你聊天 成本有多高  中国AI公有云市场2025年逆势蓬勃增长,增速高达80.6%  今年,全球客服中心支出将增长 16.2%,迎接对话式 AI 的浪潮,根据 Gartner 报告  花16000元买四款扫拖机器人!科沃斯追觅石头小米谁能笑到最后?  “可用”“有用”的讯飞星火认知大模型将亮相世界人工智能大会  AI取代人工先拿教育行业开刀?美版“作业帮”启动裁员  国内首款大尺寸仿鸵双足机器人“大圣”亮相,穿戴红色战袍  华为云盘古大模型3.0发布 AI云服务同时上线:200亿亿次性能  兆讯传媒率先全面拥抱AI 数智广告内容焕发新生机  深圳人工智能企业超1900家  首届全国体育人工智能大会在首都体育学院召开  生活垃圾智能分类机器人社区展“才能”,征求居民意见  Win11 AI 助手 Windows Copilot 被吐槽:套皮的 Edge 浏览器  ChatGPT会成为你家新的语音助手吗?  管提需求,大模型解决问题:图表处理神器SheetCopilot上线  最大助力35公斤 外骨骼机器人或在养老、医疗领域“大展身手”  热点 | 人工智能黄金时代开启  AI 作画工具 Midjourney 推出“pan”功能,可平移扩展图片外场景  腾讯企点客服接待与营销分析能力升级!企业操作更高效、人机交互更智能  重磅! 捷通华声灵云AICC荣获第二届光合组织AI解决方案大赛二等奖  360°/180°双模式,佳能公布可折叠小体积的VR全景相机  纪录片 《寻找人工智能》全集1080P超清  一公司推出喷火机器狗,可喷出 9 米长火焰  七大主流AI企业包括OpenAI、谷歌等联合承诺:引入水印技术,并允许第三方审核AI内容  鸿蒙4即将支持大规模AI模型  组建团队,字节跳动要造机器人?  WAIC 2025|云深处科技绝影Lite3与X20四足机器人亮相  行业首发「超级智绘」AI故事集,TCL实业推进AI技术应用  AI室内设计软件流行,室内设计行业如何应对效率变革  AI进军债券交易,BondGPT来了!  小米首次曝光 64 亿参数的 MiLM-6B AI 大模型,或将应用于小爱同学  石头扫拖机器人 G20 618 福利来袭:4999 元,超值配件领到手软  V社悄悄封禁使用AI生成美术素材的游戏  本届人工智能大会上的这个“镇馆之宝”,来自长宁企业西井科技!  移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速  新华三集团总裁兼首席执行官于英涛:人工智能时代需要想象力,更需要精耕务实  严打“黑飞”,无人机检测反制设备护航大运会净空安全  改变城市交通:智慧城市中的智能交通  东软成立魔形科技研究院,积极布局大语言模型系统工程战略,迎接AI时代  华为将于 7 月发布面向 AI 大模型的新款存储产品  华为余承东表示:鸿蒙可能拥有强大的人工智能大模型能力  第 66 届格莱美奖规定,AI 作品将无法获得评奖资格  如何对员工进行再培训以充分利用供应链管理中的人工智能创新  MiracleVision视觉大模型功能介绍  AI连线 | 专访风平智能CEO林洪祥:让AI数字人拥有漂亮的外表和有趣的灵魂,安全问题是重要考量 

 2024-02-20

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.