准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源


OpenAI的GPT-4V和谷歌的Gemini多模态大语言模型引起了业界和学界的广泛关注。这些模型在多个领域展示了对视频的深入理解能力,从不同角度呈现出了其潜力。人们普遍认为这些进展是通向通用人工智能(AGI)的重要一步。

可如果告诉你,GPT-4V连漫画中的人物行为都会看错, 试问:元芳,你怎么看?

我们来看看这幅迷你漫画系列:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源图片

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation

如果让生物界最高智能体——人类,也就是读者朋友来描述, 你大概率会说:

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源图片

那我们来看看当机器界最高智能体——也就是GPT-4V来看这幅迷你漫画系列的时候,它会这么描述呢?

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源图片

GPT-4V作为公认的站在鄙视链顶端的机器智能体,居然公然睁眼说瞎话。

还有更离谱的是,就算给GPT-4V实际的生活图像片段,它也会把一个人上楼梯过程中与另一个人交谈的行为也离谱的识别成两个人手持「武器」相互打斗嬉闹 (如下图所示)。

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源图片

Gemini也不遑多让,同样的图像片段,把这个过程看成了男子艰难上楼并与妻子争吵被锁在屋里。

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源图片

这些例子都来自于马里兰大学联合北卡教堂山的研究团队的最新成果,他们推出了一个专门为MLLM设计的图像序列的推理基准测试——Mementos。

就像诺兰的电影《Memento记忆碎片》重新定义了叙事方式,Mementos正在重塑测试人工智能的上限。

作为一个全新的基准测试,它挑战的是人工智能对如记忆碎片般的图像序列的理解。

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源图片

论文链接:https://arxiv.org/abs/2401.10529

项目主页:https://mementos-bench.github.io 

Mementos是第一个专为MLLM设计的图像序列推理的基准测试,主要关注大模型在连续图像上的对象幻觉和行为幻觉。

其涉及的图片类型多样,涵盖三大类别:真实世界图像,机器人图像,以及动漫图像。

并且包含了4,761个不同长度的多样化图像序列,每个序列都配有人类注释的主要对象及其在序列中的行为描述。

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源图片

目前数据已经开源,并且还在更新中。

幻觉类型

作者在论文中阐述了MLLM在Mementos中会产生的两种幻觉:对象幻觉(object hallucination)和行为幻觉(beh*ior hallucination)。

顾名思义, 对象幻觉是幻想出不存在的对象(object), 而行为幻觉则是幻想出对象并没有做出的动作与行为。

测评方式

对于如何准确的评估MLLM在Mementos上的行为幻觉和对象幻觉,研究团队选择了将MLLM产生的图像描述和人标注的描述进行关键词匹配。

为了自动化评测每一个MLLM的表现,作者采用了GPT-4辅助测试的方法来进行评估:

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源图片

1. 作者将图像序列和提示词作为输入给MLLM,并生成与相应图像序列对应的描述;

2. 请求GPT-4提取AI生成描述中的对象和行为关键词;

3. 获得两个关键词列表:AI生成的对象关键词列表和AI生成的行为关键词列表;

4. 计算AI生成的对象关键词列表和行为关键词列表和人的标注的关键词表的召回率、准确率和F1指标。

测评结果

作者在Mementos上评估了MLLMs在序列图像推理方面的表现,对包括GPT4V和Gemini在内的九种最新的MLLMs进行了细致的评估。

MLLM被要求来描述图像序列中正在发生的事件,从而来测评MLLM对于连续图像的推理能力。

结果发现,如下图所示,GPT-4V和Gemini对于人物行为在漫画数据集的正确率竟然不到20%。

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源图片

而在真实世界图像和机器人图像中,GPT-4V和Gemini的表现也不尽如人意:

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源图片

关键点

1. 在评估多模态大型语言模型时,GPT-4V和LLaVA-1.5分别是在黑盒和开源MLLMs中表现最好的模型。GPT-4V在理解图像序列方面的推理能力优于其他所有MLLMs,而LLaVA-1.5在对象理解方面几乎与黑盒模型Gemini相当或甚至超越。

2. 虽然Video-LLaMA-2和Chat-UniVi是为视频理解设计的,但它们并没有显示出比LLaVA-1.5更好的优势。

3. 所有MLLMs在图像序列中对象推理的三个指标上表现显著优于行为推理,表明当前MLLMs在从连续图像中自主推断行为的能力不强。

4. 黑盒模型在机器人领域的表现最佳,而开源模型在日常生活领域表现相对较好。这可能与训练数据的分布偏移有关。

5. 训练数据的局限性导致开源MLLMs的推理能力较弱。这表明了训练数据的重要性以及它对模型性能的直接影响。

错误原因

作者对当前多模态大型语言模型在处理图像序列推理时失败的原因的分析,主要识别了三个错误原因:

1. 对象与行为幻觉之间的相互作用

研究假设,错误的对象识别会导致随后的行为识别不准确。量化分析和案例研究表明,对象幻觉会在一定程度上导致行为幻觉。例如,当MLLM错误地将场景识别为网球场后,可能会描述人物正在打网球,即使这种行为在图像序列中并不存在。

2. 共现对行为幻觉的影响

MLLM倾向于生成在图像序列推理中常见的行为组合,这加剧了行为幻觉的问题。例如,在处理机器人领域的图像时,MLLM可能错误地描述一个机器人手臂在“抓取把手”之后拉开抽屉,即使实际行为是“抓取抽屉的侧面”。

3. 行为幻觉的雪球效应

随着图像序列的进行,错误可能会逐渐累积或加剧,这称为雪球效应。在图像序列推理中,如果早期出现错误,这些错误可能会在序列中积累和放大,导致对象和行为识别的准确性下降。

举个例子

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源图片

从上图可知,MLLM失败原因包括对象幻觉以及对象幻觉与行为幻觉之间的相关性,以及共现行为。

例如,在出现「网球场」的对象幻觉后,MLLM随后展现出「拿着网球拍」的行为幻觉(对象幻觉与行为幻觉之间的相关性)以及「似乎在打网球」的共现行为。

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源图片

观察上图中的样本,可以发现MLLM错误地认为椅子再往后仰并且认为椅子碎掉了。

这一现象揭示了MLLM对于图像序列中的静止的对象,它也会产生这个对象发生了某些动作的幻觉。

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源图片

在上图关于机械臂的图像序列展示中,机械臂伸到了把手旁边,MLLM就错误地认为机械臂抓住了把手,证明了MLLM会生成在图像序列推理中常见的行为组合,从而产生幻觉。

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源图片

在上图的案例中,老夫子并没有牵着狗,MLLM错误地认为遛狗就要牵着狗,并且「狗的撑杆跳」被识别成了「创造了喷泉」。

大量的错误反映了MLLM对于漫画领域的不熟悉,在二次元动漫领域,MLLM可能需要大幅度的优化和预训练.

在附录中,作者通过详细展示了各主要类别中的失败案例,并进行了深入的分析。

总结

近年来,多模态大型语言模型在处理各种视觉-语言任务上展现出了卓越的能力。

这些模型,如GPT-4V和Gemini,能够理解和生成与图像相关的文本,极大地推动了人工智能技术的发展。

然而,现有的MLLM基准测试主要集中于基于单张静态图像的推理,而对于从图像序列中推断,这对于理解我们不断变化的世界至关重要,的能力研究相对较少。

为了解决这一挑战,研究人员提出了一种新的基准测试「Mementos」,目的是评估MLLMs在序列图像推理方面的能力。

Mementos包含了4761个不同长度的多样化图像序列。此外,研究团队还采用了GPT-4辅助方法来评估MLLM的推理性能。

通过对九个最新的MLLMs(包括GPT-4V和Gemini)在Mementos上的仔细评估,研究发现这些模型在准确描述给定图像序列的动态信息方面存在挑战,常常导致对象及其行为的幻觉/误表达。

量化分析和案例研究识别出三个关键因素影响MLLMs的序列图像推理:

1. 对象和行为幻觉之间的相关性;

2. 共现行为的影响;

3. 行为幻觉的累积影响。

这一发现对于理解和提升MLLMs在处理动态视觉信息方面的能力具有重要意义。Mementos基准不仅揭示了当前MLLMs的局限性,也为未来的研究和改进提供了方向。

随着人工智能技术的快速发展,MLLMs在多模态理解领域的应用将变得更加广泛和深入。Mementos基准测试的引入,不仅推动了这一领域的研究,也为我们提供了新的视角,去理解和改进这些先进的AI系统如何处理和理解我们复杂多变的世界。

参考资料:

https://github.com/umd-huanglab/Mementos

以上就是准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源的详细内容,更多请关注其它相关文章!


# 语言模型  # 盘锦本地网站建设  # 浦城网页seo哪家好  # 出了  # 也不  # 的是  # 官网  # 多模  # 这一  # 看不懂  # 首个  # 开源  # 关键词  # llama  # gemini  # 图像序列  # 机器人  # 大数据seo优化趋势  # 山东品质seo优化答疑解惑  # 安庆seo公司甄选24火星  # 青白江区推广营销中心  # 苏州通用网站建设流程图  # 高州网站建设设计公司  # 网站优化的建议和建议  # 陕西seo教程有哪些 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: AI 模型 Stable Diffusion 升级:正常生成五指、图像更逼真  开创全新虚拟现实体验的Pimax Crystal VR头显  不止“文心一言”,消息称百度将推出全新 AI 对话软件“万话”  人工智能时代 数字文明对话向“尼”走来  北交大推出国内首个开源交通大模型TransGPT,可免费商用  苹果式 AI 哲学:不着一字,处处落子  2025年的网络分区:人工智能和自动化如何改变事物  不到2S创作AI图像!Snap发布图像生成器SnapFusion  SnapFusion技术大幅提升AI图像生成速度  AI无法对传统文化符号进行解构和创新  当TS遇上AI,会发生什么?  科普:什么是AI大模型  英伟达的AI领域垄断地位:一直无法撼动吗?  传字节内测对话式 AI 产品,代号「Grace」;马斯克嘲讽苹果 头显;比亚迪 F 品牌定名「方程豹」  谷歌内部正在测试代号为Genesis的AI新闻写作产品  MetaGPT AI 模型开源:可模拟软件公司开发过程,生成高质量代码  重塑未来生活的五项技术趋势  大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务  组建团队,字节跳动要造机器人?  IBM将模拟计算用于人工智能,重塑AI计算  讯飞听见会写“会议摘要”功能全面升级,AI更懂你的关注点  OpenAI CEO 阿尔特曼到访日本,对全球 AI 协调合作表示乐观  走进首家“元宇宙”未来工厂,卡奥斯探知工业之旅出发!  AMD在AI方面奋起直追,与英伟达的差距缩小了吗?  在这里见未来!杭州未来科技城全球AI盛会邀您共探最前沿  “具身智能”引爆机器人产业,看绝影Lite3/X20四足机器人有何特别之处?  谷歌计划在上海举办开发者大会,重点关注机器学习和生成式AI领域  无人机在电力巡检中的应用:全面解析高效巡检流程  RoboNeo什么时候上线  日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病  人工智能行业急缺人 AI人才年薪能达近42万元  成都大运会闭幕式引入人形机器人展示表演  改动一行代码,PyTorch训练三倍提速,这些「高级技术」是关键  AI生成会议纪要 百度如流升级推出超级助手、智能编码等功能  兆讯传媒率先全面拥抱AI 数智广告内容焕发新生机  GPT-4是如何工作的?哈佛教授亲自讲授  元宇宙技术带你穿梭“大运河”,江苏书展上的数字阅读馆吸睛小读者  V社谈AI制作游戏被ban:为确保开发者有素材所有权  售价14.99万起!小米汽车部分信息疑遭AI曝光,内部人士回应:网传图片明显经过处理,不可轻信  自研4D激光雷达L1 + GPT大语言模型 宇树Unitree Go2四足机器人有啥黑科技?  学界业界大咖探讨:AI对数字艺术创新的推动力  测试框架-安全和自动驾驶  消息称苹果 iPhone 15 系列健康应用将深度融合 AI 技术  AI与5G的强强联合:唤醒数字时代的无尽潜能  华为联合合作伙伴 共同发布昇腾AI大模型训推一体化解决方案  发布最新版本的 PICO OS 5.7.0:支持VR头盔录屏并跨平台分享至微信  自然语言生成在智能家居设备中的应用  如何成功实施人工智能?  羚客系统即将升级,推出全新的AI数字化工具  OpenAI夺冠:人工智能为云计算带来新变革 

 2024-02-01

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.