AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零

最新研究揭示大语言模型推理能力的局限性：enigmaeval 基准测试结果

Scale AI、Center for AI Safety 和 MIT 的研究人员联合发布了新的多模态推理基准测试 ENIGMAEVAL，再次挑战了大语言模型的推理能力。该基准包含 1184 个难题，涵盖解谜寻宝竞赛中的各种类型，测试模型的逻辑推理、创造性思维和跨学科知识运用能力。难题分为普通难度 (Normal) 和困难难度 (Hard) 两类，分别包含 949 道和 235 道题目。难题以原始 PDF 图片和结构化文本-图像两种格式提供，以评估模型的端到端能力和独立推理能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

测试结果显示，即使是像 OpenAI 的 o1 这样的顶尖模型，在普通难度谜题上的准确率也仅为 7.0% 左右，在困难难度谜题上的准确率则为 0%。这与经验丰富的人类解谜者的表现形成鲜明对比。研究发现，模型在处理原始 PDF 格式的谜题时，性能会显著下降，这表明一些前沿模型的 OCR 和文档解析能力仍然存在限制。

ENIGMAEVAL 基准与此前发布的“人类的最后考试”（HLE）基准一起，为评估大语言模型提供了更全面的视角，并突显了当前模型在复杂推理任务上的不足。研究人员指出，AI 距离真正理解世界还有很长的路要走。值得注意的是，DeepSeek R1 未参与本次测试，其表现值得关注。

ENIGMAEVAL 基准的谜题来源及难度分布如下表所示：

MedPeer科研绘图

生物医学领域的专业绘图解决方案，告别复杂绘图，专注科研创新

166 查看详情 MedPeer科研绘图

普通难度谜题示例：

困难难度谜题示例：

实验结果表明，所有测试的顶尖 LLM 在 ENIGMAEVAL 上的表现都不理想，尤其是在困难难度谜题上完全失败。这进一步强调了当前大语言模型在复杂推理方面的挑战。

以上就是AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零的详细内容，更多请关注其它相关文章！

# 的是 # 建设工程安全管理网站 # 魔贝SEO无加密 # 企业推广的网站必火2星 # 勤工俭学论文网站建设 # 呼和浩特网络营销seo # 灵武营销短视频推广 # 水污染治理网站推广方案 # 公司网站推广方案模板 # 深圳网站自动推广设计师 # 招远seo优化推广服务 # 个性化设置 # 今日 # 工程 # 播客 # 首个 # 多项 # 腾讯 # 还能 # 首次 # 奥迪 # deepseek # gemini # ai # scale ai

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2025-02-17

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。