复杂数学推理是评价大语言模型推理能力的重要指标,目前常用的数学推理数据集样本量有限且问题多样性不足,导致大语言模型存在 [逆转诅咒] 的现象,即一个训练于「A 是 B」的语言模型无法推广到「B 是 A」[1]。此现象在数学推理任务中的具体形式是:即给定一个数学问题,语言模型擅于用正向推理解答问题但缺乏逆向推理解决问题的能力。逆向推理在数学问题中十分常见,如下 2 个例子。
为了提升模型的正向和逆向推理能力,剑桥、港科大、华为的研究者基于两个常用的数学数据集(GSM8K 和 MATH)提出了 MetaMathQA 数据集:一个覆盖面广、质量高的数学推理数据集。MetaMathQA 由 395K 个大语言模型生成的正向逆向数学问答对组成。他们在 MetaMathQA 数据集上基于 LLaMA-2 微调得到专注于数学推理 (正向和逆向) 的大语言模型 MetaMath,在数学推理数据集上达到了 SOTA。MetaMathQA 数据集和不同规模的 MetaMath 模型已开源供研究人员使用。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
在GSM8K-Backward数据集中,我们构建了一个逆向推理的实验。实验结果显示,与SFT、RFT和WizardMath等方法相比,目前的方法在逆向推理问题上表现较差。与之相反,MetaMath模型在正向和反向推理方面都取得了出色的性能


MetaMathQA 包含了四种数据增强的方法:
1. Answer Augmentation (答案增强):给定问题,通过大语言模型生成能得到正确结果的思维链作为数据增广。
2. Rephrasing Question (问题改写增强):给定元问题,通过大语言模型重写问题并生成得到正确结果的思维链作为数据增广。
3. FOBAR Question (FOBAR 逆向问题增强):给定元问题,通过掩码条件中的数字为 x,给定原有答案并反推 x 来产生逆向问题,并基于该逆向问题生成正确的思维链过程来进行数据增广(反推样例:“If we know the answer to the above question is 110, what is the value of unknown variable x?”)。
4. Self-Verification Question (Self-Verification 逆向问题增强):在 FOBAR 的基础上,通过大语言模型改写逆向问题部分为陈述的语句来进行数据增广(改写样例:“How much did he pay?” (with the answer 110) 被改写成 “He paid 110”)。


在两个常见的数学推理数据集(GSM8K和MATH)的实验结果表明,MetaMath在性能上显著优于已有的开源LLM模型,而且不需要借助外部工具(例如代码解释器)。其中,我们的MetaMath-7B模型
在GSM8K上达到了66.5%的准确率,在MATH上达到了19.8%的准确率,分别比相同规模的最先进模型高出11.6%和9.1%。特别值得一提的是,MetaMath-70B在GSM8K上达到了82.3%的准确率,超过了GPT-3.5-Turbo
根据《表面对齐假设》[2],大型语言模型的能力来自于预训练,而来自下游任务的数据则会激活预训练期间所学习到的语言模型的内在能力。因此,这引发了两个重要问题:(一)哪种类型的数据可以最有效地激活潜在知识,以及(二)为什么一个数据集在这种激活中比另一个数据集更好?
为什么 MetaMathQA 有用?提高了思维链数据的质量 (Perplexity)

根据上图所示,研究人员计算了 LLaMA-2-7B 模型在仅答案数据、GSM8K CoT 和 MetaMathQA 数据集的各个部分上的困惑度。MetaMathQA 数据集的困惑度明显低于其他两个数据集,这表明它具有较高的易学性,可能更有助于揭示模型的潜在知识
为什么 MetaMathQA 有用?增加了思维链数据的多样性 (Diversity)

通过比较数据的多样性增益和模型的准确率增益,研究人员发现,重新表述、FOBAR和SV的引入相同数量的增广数据都带来了明显的多样性增益,并显著提高了模型的准确率。相比之下,仅仅使用答案增强会导致准确率明显饱和。在准确率达到饱和后,增加AnsAug数据只会带来有限的性能提升
以上就是逆向思维:MetaMath新数学推理语言模型训练大型模型的详细内容,更多请关注其它相关文章!
# 上海
# 铁岭电商网站优化推广
# 成都网站建设方案项目书
# 帝国cms seo基础
# 网站营销推广蔚訫hfqjwl作词
# 盐城网站建设运营公司
# 枣庄网络seo公司排名
# 鲜花营销推广
# 正定做网站优化
# seo时间节点
# 洗衣液淘宝营销推广方案
# 的是
# 中国
# 模型
# 解决问题
# 笼子里
# 只鸡
# 丰田
# 过大
# 中国科学院
# 开源
# follow
# perplexity
# llama
# ai
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
湖北科技职业学院举行工业机器人及智能制造技术专精特新产业学院建设启动仪式
曝光HarmonyOS 4的重要新能力:全面升级AI大模型,小艺实现全面进化
如何提高集群协作效率?中外团队合作研发基于均值偏移的机器人队形控制策略
从医疗康复外骨骼到通用人形机器人,傅利叶智能推动核心技术升级
重磅! 捷通华声灵云AICC荣获第二届光合组织AI解决方案大赛二等奖
马克龙密会AI专家,法国加入全球人工智能竞赛
提升工作效率的智能工具:Zapier 让工作变得更简单!
苹果AI战略与微软谷歌大相径庭,到底是领先还是落后?
Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的
全球首款AI裸眼3D平板 国产的售价破万
谷歌内部正在测试代号为Genesis的AI新闻写作产品
令人惊叹!AI模型能够以iPhone照片为基础创作诗歌
英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-3的大模型训练
标贝科技亮相国际顶会ICASSP2025 加速布局海外AI数据市场
五个出色的人工智能应用实例
谷歌推出RT-2视觉语言动作模型,使机器人能够掌握垃圾丢弃技能
ChatGPT只讲这25个笑话!实验上千次有90%重复,网友:幽默是人类最后的尊严
“世界人工智能之都”的新烦恼:AI热潮无法拉动大量就业
中国联通发布图文AI大模型,可实现以文生图、视频剪辑
闪电快讯|京东推出言犀AI大模型 面向零售、医疗、物流等产业场景
用AI升级会议体验!思必驰多款会议产品亮相全球智博会!
李开复:未来几年,人工智能会革了所有人的命,除非你这么做
MiracleVision视觉大模型上线时间
华为推出全新操作系统HarmonyOS 4,AI和新引擎完美融合
人工智能如何用于家庭安全
五款 AI 网站构建器,任何人都能快速构建网站
微软推出 LLaVA-Med AI 模型,可对医学病理案例进行分析
人工智能和你聊天 成本有多高
羚客系统即将升级,推出全新的AI数字化工具
京东 AI 大模型官宣 7 月 13 日发布,还有重磅合作
Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽
25个AI智能体源码现已公开,灵感来自斯坦福的「虚拟小镇」和《西部世界》
13 个提高生产力的 AI 工具
无人机巡检方案是什么,该如何选择适合的巡检方案
AYANEO 安卓掌机 Pocket AIR 配置公布:天玑 1200 + 5.5 英寸屏
【原创】奥比中光:与英伟达合作开发的3D开发套件正式发布 连接英伟达AI应用生态
昆仑万维与全球领先的元宇宙公司Meta达成商务合作,共同认可昆仑万维在XR领域的技术实力
GPT-4不能在麻省理工学院获得计算机科学学位
生成式AI对云运维的3大挑战
国产工业机器人领域“暗潮涌动”,即将迎来新一轮复苏
郭帆谈ChatGPT:电影行业需要创新,否则人工智能将让电影变得平庸
泗洪:畅通城市“血管” ,管下机器人来帮忙
联通发布鸿湖图文AI大模型1.0,可实现以文生图
Snow Kylin登陆中国列车,打造全球首条元宇宙专列
人工智能自己玩自己
优化J*a与MySQL合作:分享批处理操作的技巧
探索人工智能和物联网的动态融合
1.6亿美元收购Singularity AI,昆仑万维布局通用人工智能
AI 作画工具 Midjourney 推出“pan”功能,可平移扩展图片外场景
Nature发AIGC禁令!投稿中视觉内容使用AI的概不接收
2023-10-11
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。