多模态慢思考:分解原子步骤以解决复杂数学推理


中山大学、香港科技大学、上海交通大学和华为诺亚方舟实验室的研究人员提出了一种名为 atomthink 的新框架,旨在提升多模态大语言模型 (mllm) 解决高级数学推理问题的能力。该框架通过将“慢思考”策略融入mllm,显著提高了模型在基准数学测试中的性能,并具有良好的可迁移性。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

AtomThink 框架的核心在于其对“原子步骤”的关注。“原子步骤”指的是语义上不可再分的最小推理单元。该框架包含三个关键组件:多模态注释引擎、原子步骤指令微调和策略搜索。

挑战与创新:

现有方法通常依赖于精心设计的提示来激发模型的思维链 (CoT),但忽略了推理链中中间步骤的质量。AtomThink 则通过原子步骤质量评估策略,对每个步骤进行细致分析,从而识别并改进薄弱环节。该策略借鉴了GPT-4o的推理行为,构建了一个规范的推理能力集合,并利用结果监督和重映射来评估模型在不同能力项上的得分。

图片

AtomThink 框架详解:

  1. 多模态注释引擎: 该引擎利用动态提示和短 CoT 增强策略,从现有数据集中生成高质量的长 CoT 数据。它通过GPT-4o辅助,将原始推理过程分解成多个原子步骤,并创建了 AtomMATH 数据集 (包括AMATH-SFT 和 AMATH-PRM 两个子集)。

图片

神笔马良 神笔马良

神笔马良 - AI让剧本一键成片。

神笔马良 320 查看详情 神笔马良
  1. 原子步骤微调: 该步骤对 MLLM 进行指令微调和过程监督训练 (PRM),以增强其解码能力,并使其学习近似马尔可夫决策过程的输出格式。

  2. 策略搜索: 为了从多个候选步骤中选择最佳路径,AtomThink 框架采用了路径维度搜索 (多数投票、Best-of-N) 和步骤维度搜索 (贪心算法、Beam Search)

实验结果与结论:

实验结果表明,AtomThink 框架在 MathVista 和 MathVerse 两个基准测试中显著提升了模型的性能。与基线模型相比,AtomThink 在 QuickThink (快速推理) 模式下已经取得了显著改进;而在 SlowThink (慢速推理,利用 Beam Search) 模式下,性能提升更为显著,甚至超过了一倍。 Best-of-N 策略结合平均得分聚合,取得了最佳性能。 研究还验证了 Test-time scaling law 在多模态数学推理任务中的存在。

该研究为构建更强大的慢思考模型提供了新的思路,也为解决复杂数学推理问题提供了有效的解决方案。论文及代码即将开源:

  • 论文:https://www.php.cn/link/5c3165e90eb8727c7dd0f9434cbd2bba
  • 主页 (即将开源): https://www.php.cn/link/1852a2083dbe1c2ec33ab9366feb2862

以上就是多模态慢思考:分解原子步骤以解决复杂数学推理的详细内容,更多请关注其它相关文章!


# git  # 多模  # 多个  # 诺亚方舟  # 慢速  # 开源  # 迁移性  # 中山大学  # 工程  # seo优化标题和内容  # 网站推广于维护  # 周口seo排名  # 盘锦关键词搜索排名  # 优化网站快照怎么做的  # 莆田网站建设哪里的好  # 怀安设计seo排名软件  # 网站怎么优化询问j火17星  # 黄石seo推广方案  # 加群推广的游戏网站  # 华为  # 取得了  # 操作流程 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 腾讯自主研发机器狗 Max 升级,可“奔跑跳跃”完成避障动作  “技术+实践+生态”三箭齐发,京东方抢占物联网高地  谷歌推出 AI 反洗钱工具,可将金融机构内部风险预警准确率提高2至4倍  南京制造的国产工业机器人:在外资品牌竞争中突围,年销售1.8万台  AI行业盛会大咖云集!Sam Altam、“AI教父”......一文看懂最新观点  华为昇腾AI原生支持30多种基础大模型,包括GPT  从谷歌到亚马逊,科技巨头们的AI痴迷  数字文明尼山对话 | 在东方圣城与AI潮流梦幻联动,看“智慧大脑”让数字山东更美好  史玉柱谈AI:国内最缺是计算数学人才,曾给浙大数学系捐五千万  中国AI公有云市场2025年逆势蓬勃增长,增速高达80.6%  XREAL发布新款硬件XREAL Beam投屏盒子:可悬停AR空间屏  金山办公:AI是重要的产品战略之一  13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组  人工智能“Aria”现身 Opera浏览器100版本更新:新功能“标签岛”  谷歌计划在上海举办开发者大会,重点关注机器学习和生成式AI领域  构建AI绘画网站的方法:使用API接口和调用步骤  零数科技CTO兰春嘉:区块链与人工智能的结合点在数据  苹果AR头显商标与华为撞车,在中国或改名  周鸿祎:用超级AI实现室温超导和核聚变,实现能源自由  微软为 AI 初学者推出免费网课:为期 12 周,共 24 节课  华为余承东表示:鸿蒙可能拥有强大的人工智能大模型能力  腾讯汤道生:大模型只是起点,产业落地是AI更大的应用场景  IBM CEO克里希纳:人工智能潜在创新无法被监管  字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA  WPS AI 官网上线:可申请体验官资格,支持 Windows、安卓端下载  再度重仓 AI 赛道,SaaS 巨头 Salesforce 扩大 AIGC 风投基金规模  会模仿笔迹的AI,为你创造专属字体  赋能金融新生态,多家银行创新应用成果亮相世界人工智能大会  严打“黑飞”,无人机检测反制设备护航大运会净空安全  13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了  WHEE使用教程  PS AI修图免费平替来了!Stability AI又放大招,核弹级更新一键扩图  中美陷入囚徒困境,人工智能变得不可控?可参考核不扩散条约规范  MiracleVision视觉大模型  世界上第一个完全由人工智能驱动的图像编辑器!  日本演员工会提出AI立法建议 要求建立“声音肖像权”  小艺将具备大模型能力,鸿蒙4加速AI普及之路  学而思网校推出首个基于自研大模型的《人工智能第一课》  斑马推出全新升级版思维机:以人工智能为核心的交互式学习体验  网易云音乐内测上线“私人DJ” 打造AI推荐音乐助手  大厂出品!这个AI网站太顶了,所有功能免费用  讯飞听见会写“会议摘要”功能全面升级,AI更懂你的关注点  生成式人工智能进入产业应用!但再“聪明”仍是工具,最终目的是服务于人  6月14日《星空下的对话》 张朝阳陆川将畅聊人生、电影、心理学与AI  脑机接口产业联盟发布十大脑机接口关键技术  揭秘AI数字人语录:抖音AI小和尚、老者语录能赚钱吗?  多家欧洲企业签署公开信,批评欧盟 AI 法案草案限制产业发展  视觉中国推出AI灵感绘图功能,付费后可在“合法合规前提下使用”  网易易盾 AI Lab 论文入选 ICASSP 2025!黑科技让语音识别越“听”越准  有 ARM 和 X86 两个版本,香橙派游戏掌机细节曝光 

 2024-11-30

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.