最新研究揭示大语言模型推理能力的局限性:enigmaeval 基准测试结果
Scale AI、Center for AI Safety 和 MIT 的研究人员联合发布了新的多模态推理基准测试 ENIGMAEVAL,再次挑战了大语言模型的推理能力。该基准包含 1184 个难题,涵盖解谜寻宝竞赛中的各种类型,测试模型的逻辑推理、创造性思维和跨学科知识运用能力。难题分为普通难度 (Normal) 和困难难度 (Hard) 两类,分别包含 949 道和 235 道题目。 难题以原始 PDF 图片和结构化文本-图像两种格式提供,以评估模型的端到端能力和独立推理能力。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

测试结果显示,即使是像 OpenAI 的 o1 这样的顶尖模型,在普通难度谜题上的准确率也仅为 7.0% 左右,在困难难度谜题上的准确率则为 0%。这与经验丰富的人类解谜者的表现形成鲜明对比。 研究发现,模型在处理原始 PDF 格式的谜题时,性能会显著下降,这表明一些前沿模型的 OCR 和文档解析能力仍然存在限制。


ENIGMAEVAL 基准与此前发布的“人类的最后考试”(HLE)基准一起,为评估大语言模型提供了更全面的视角,并突显了当前模型在复杂推理任务上的不足。 研究人员指出,AI 距离真正理解世界还有很长的路要走。 值得注意的是,DeepSeek R1 未参与本次测试,其表现值得关注。


ENIGMAEVAL 基准的谜题来源及难度分布如下表所示:
MedPeer科研绘图
生物医学领域的专业绘图解决方案,告别复杂绘图,专注科研创新
166
查看详情

普通难度谜题示例:


困难难度谜题示例:


实验结果表明,所有测试的顶尖 LLM 在 ENIGMAEVAL 上的表现都不理想,尤其是在困难难度谜题上完全失败。 这进一步强调了当前大语言模
型在复杂推理方面的挑战。

以上就是AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零的详细内容,更多请关注其它相关文章!
# 的是
# 建设工程安全管理网站
# 魔贝SEO无加密
# 企业推广的网站必火2星
# 勤工俭学论文网站建设
# 呼和浩特网络营销seo
# 灵武营销短视频推广
# 水污染治理网站推广方案
# 公司网站推广方案模板
# 深圳网站自动推广设计师
# 招远seo优化推广服务
# 个性化设置
# 今日
# 工程
# 播客
# 首个
# 多项
# 腾讯
# 还能
# 首次
# 奥迪
# deepseek
# gemini
# ai
# scale ai
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
世界水下机器人大赛:9国青年携手逐梦深蓝
电池比 Air 2S 大 20%,大疆 Air 3 无人机现身 FCC
360°/180°双模式,佳能公布可折叠小体积的VR全景相机
Meta Quest订阅服务每月7.99美元畅玩两款VR游戏应用
OpenAI大神Karpathy最新分享:为什么OpenAI内部对AI Agents最感兴趣
【原创】奥比中光:与英伟达合作开发的3D开发套件正式发布 连接英伟达AI应用生态
移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速
不到2S创作AI图像!Snap发布图像生成器SnapFusion
消息称 Meta Quest 将推 VR 游戏订阅:每月 7.99 美元,任选两款
以计算机视觉技术为基础的库存管理如何改革零售行业
微软大牛加入ZOOM,AI人才大战打响
两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏
小米9号员工李明宣布创业:打造首款安卓桌面机器人
阿里达摩院发布免费开放100项AI专利许可的动机是什么?
AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购
争鸣:OpenAI奥特曼、Hinton、杨立昆的AI观点到底有何不同?
人形机器人概念大热!这些产业链标的或受提振
华为发布两款AI存储新品
DeepMind推惊世排序算法,C++库忙更新!
小艺将具备大模型能力,鸿蒙4加速AI普及之路
酒店业将如何受益于人工智能的改变?
探索人工智能和物联网的动态融合
掌阅科技对话式AI应用“阅爱聊”开启内测
RoboNeo安装教程
OpenAI限制网络爬虫访问以保护数据免被用于AI模型训练
田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘
昌吉市利用无人机实现全天候河道动态巡检
腾讯AI首次模拟拼接三星堆文物,工作取得阶段性的成果
「电子果蝇」惊动马斯克!背后是13万神经元全脑图谱,可在电脑上运行
微软为 AI 初学者推出免费网课:为期 12 周,共 24 节课
消息称 ChatGPT 未来有望增加更多功能:上传文件分析信息,还能记住用户画像
映宇宙数字人“映映”亮相ChinaJoy,展示AI黑科技实现用户互动
大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战
全媒封面丨⑤商汤科技:原创AI算法“发电厂”
OpenAI CEO 山姆・阿尔特曼呼吁 AI 领域中美应当合作
盘古大模型3.0正式发布 AI开发正走向新“工业化开发模式”
谷歌推出 AI 反洗钱工具,可将金融机构内部风险预警准确率提高2至4倍
亚太地区 70% 的企业高管正探索生成式 AI 应用或已经进行投资
英伟达首席执行官黄仁勋:生成式 AI 时代「人类」会是新的编程语言
月薪6万,哪些AI岗位在抢人?
苹果AR头显商标与华为撞车,在中国或改名
中国联通发布图文AI大模型,可实现以文生图、视频剪辑
微软Xbox称VR和AR还需要时间 先玩大的
厂商陆续公布AI进展 完美世界游戏展示复合应用AI in GamePlay
实践J*a开发,构建高性能的MongoDB数据迁移工具
电力人工智能数据集目录首次发布
十个AI算法常用库J*a版
配 3D 机器人头像,谷歌展示全新安卓 LOGO
OpenAI 静默关闭 AI 文本检测工具,准确率仅为 26%
为了避免人工智能可能带来的灾难,我们要向核安全学习
2025-02-17
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。