8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare


☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

8b文字多模态大模型指标逼近gpt4v,字节、华师、华科联合提出textsquare

AIxiv专栏是本站发布学术、技术内容的栏目。 过去几年,本站AIxiv专栏接收报道道约2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道邮箱。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

近期,多模态大模型(MLLM)在文本中心的VQA领域取得了显著进展,尤其是多个闭源模型,例如:GPT4V 和 Gemini,甚至在某些方面展现了超越人类能力的表现。但是,开源模型的性能还远远落后于闭源模型,最近许多开创性的研究,例如:MonKey、LLaVAR、TG-Doc、ShareGPT4V 等已经开始关注指令微调数据不足的问题。尽管这些努力取得了显著的效果,但仍存在一些问题,图像描述数据和 VQA 数据属于不同的领域,图像内容呈现的粒度和范围存在不一致性。此外,合成数据的规模相对较小,使得 MLLM 无法充分发挥潜力。

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

  • 论文标题:TextSquare: Scaling up Text-Centric Visual Instruction Tuning

  • 论文地址:https://arxiv.org/abs/2404.12803

为了减少这一

VQA 数据生成

Square+ 策略方法包括四个步骤:自问 (Self-Questioning)、回答 (Self-Answering)、推理 (Self-Reasoning) 和评估 (Self-Evaluation)。Self-Questioning 利用MLLM 在文本图像分析和理解方面的能力生成与图像中文本内容相关的问题。Self-Answering 利用各种提示技术,如:思维链 CoT 和少样本,提供回答这些问题。Self-Reasoning 利用MLLMs 强大的推理能力,生成模型背后的推理过程。Self-Evaluation 评估问题的有效性、与图像文本内容的相关性以及答案的准确性,从而提高数据质量并减少偏见。

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

                                 图 1 TextSquare 和先进的闭源、开源模型的比较,在 10 个文本相关的 benchmark 上的平均排名超越了 GPT4V(排名 2.2 vs. 2.4)

基于 Square 方法,研究者从各种公共来源收集了一组多样化的含有大量文本的图像,包括自然场景、图表、表单、收据、书籍、PPT、PDF 等构建了 Square-10M,并基于这个数据集训练了以文本理解为中心的 MLLM TextSquare-8B。

如图 1 所示,TextSquare-8B 在多个 benchmark 可取得与 GPT4V 和 Gemini 相媲美或更优的效果,并显著超过了其他开源模型。TextSquare 实验验证了推理数据对 VQA 任务的积极影响,证明了其能够在减少幻觉的同时提升模型性能。

此外,通过利用大规模的数据集,揭示了指令调整数据规模、训练收敛损失和模型性能之间的关系。尽管少量的指令调整数据可以很好地训练 MLLM,随着指令调整数据的不断扩大,模型的性能能得到进一步增长,指令微调数据和模型之间也存在着相对应的 scaling law。

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

                            图 2 VQA 数据合成的流程,包括数据生成(Self-Questioning、 Answering、Reasoning)、数据过滤(Evaluation)2 个阶段

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

                                 图 3  Square-10M 的图像分布和 QA 分布等详细情况

数据收集

数据收集策略的主要目标是涵盖广泛的现实世界文本丰富的场景。为此,研究者收集了 380 万张的富文本的图像。这些图像表现出不同的特性,例如,图表和表格侧重于具有密集统计信息的文本元素;PPT、屏幕截图和 WebImage 是为文本和突出视觉信息之间的交互而设计的;文档 / PDF、收据和电子商务包含具有精细和密集文本的图像;街景源于自然场景。收集到的图像形成了现实世界中文本元素的映射,并构成了研究以文本为中心的 VQA 的基础。

数据生成

研究者利用 Gemini Pro 的多模态理解能力从特定数据源选择图像,并通过自问、自答、自我推理三个阶段生成 VQA 及推理上下文对。

  • Self-Question: 这个阶段会给定一些 prompt,Gemini Pro 会根据这些提示对图像进行全面分析,并根据理解去生成一些有意义的问题。考虑到通用 MLLM 对文本元素的理解能力通常会比视觉模型弱,我们通过专门的 OCR 模型将提取的文本预处理到 prompt 中去。

  • Self-Answering: Gemini Pro对生成问题会利用思维链 (CoT) 和少样本提示 (few-shot prompting) 等技术丰富上下文信息,提高生成答案的可靠性。

  • Self-Reasoning: 这个阶段会生成答案的详细原因,迫使 Gemini Pro 更多的思考问题和视觉元素之间的联系,从而减少幻觉并提高准确的答案。

数据过滤

尽管自我提问、回答和推理是有效的,但生成的图像 - 文本对可能面临幻觉内容、无意义问题和错误答案。因此,我们设计了基于 LLM 的评估能力的过滤规则,以选择高质量的 VQA 对。

  • Self-Evaluation 提示 Gemini Pro 和其他 MLLMs 判断生成的问题是否有意义,以及答案是否足以正确解决问题。

  • Multi-Prompt Consistency 除了直接评估生成的内容外,研究者还在数据生成中手动增加提示和上下文空间。当提供不同的提示时,一个正确且有意义的 VQA 对应该在语义上一致。

  • Multi-Context Consistency 研究者通过在问题前准备不同的上下文信息来进一步验证 VQA 对。

TextSquare-8B

TextSquare-8B 借鉴了 InternLM-Xcomposer2 的模型结构,包括 CLIP ViT-L-14-336 的视觉 Encoder,图像分辨率进一步提升至 700;基于 InternLM2-7B-ChatSFT 的大语言模型 LLM;一个对齐视觉和文本 token 的桥接器 projector。

TextSquare-8B 的训练包括三阶段的 SFT:

第一阶段,以 490 的分辨率全参数 (Vision Encoder, Projector, LLM) 微调模型。

第二阶段,输入分辨率增加到 700,只训练 Vision Encoder 以适应分辨率变化。

Canva AI Canva AI

Canva平台AI图片生成工具

Canva AI 1374 查看详情 Canva AI

第三阶段,进一步以 700 的分辨率进行全参数微调。

TextSquare 证实,在 Square-10M 数据集的基础上,具有 8B 参数和正常大小图像分辨率的模型可以在以文本为中心的 VQA 上实现超过了大多数的 MLLM,甚至是闭源模型 (GPT4V、Gemini Pro) 的效果。

实验结果

图 4(a)显示 TextSquare 具有简单的算术功能。图 4(b)显示了理解文本内容并在密集文本中提供大致位置的能力。图 4(c)显示了 TextSquare 对表格结构的理解能力。

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

MLLM Benchmark

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

  • Document-Oriented Benchmark 在文档场景的 VQA Benckmark (DocVQA、ChartQA、InfographicVQA) 上平均提升 3.5%,优于所有开源模型,在 ChartQA 数据集上略高于 GPT4V 和 Gemini Pro,该模型分辨率仅 700,小于大多数面向文档的 MLLM,如果分辨率进一步提高,相信模型性能也将进一步提高,Monkey 已证明这一点。

  • Scene Text-centric Benchmark 自然场景的 VQA Benchmark (TextVQA、AI2D) 中取得了 SOTA 的效果,但与 baseline Xcomposer2 相比没有较大改进,可能是因为 Xcomposer2 已经用了高质量的域内数据进行了充分优化。

  • Table VQA Benchmark 表格场景的 VQA Benchmark (WTQ、TabFact) 中取得到远超 GPT4V 及 Gemini Pro 的效果,分别超过其他 SOTA 模型 3%。

  • Text-centric KIE Benchmark 文本中心的关键信息提取 KIE 任务的 benchmark (SROIE、POIE),将 KIE 任务转换成 VQA 任务,在两个数据集都取得了最佳的性能,平均提升 14.8%。

  • OCRBench 包括文本识别、公式识别、文本中心 VQA、KIE 等 29 项 OCR 相关的评估任务,取得了开源模型的最佳性能,并成为第一个 10B 左右参数量达到 600 分的模型。

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

  • General VQA and Hallucination Evaluation Benchmark 在通用的 VQA Benchmark (VizWiz VQAv2、GQA、POPE) 上 TextSquare 相较于 Xconposer2 没有显著退化,仍然保持着最佳的性能,在 VisWiz 和 POPE 表现出显著的性能,比各最佳的方法高出 3.6%,这突出了该方法的有效性,能减轻模型幻觉。

消融实验

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

TextSquare 相较于 Xcomposer2 在各 benchmark 平均提升 7.7%。

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

加入自评估后,模型性能有了明显提升。

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

加入推理数据后有助于显著提升性能以及减轻幻觉生成。

数据规模和收敛 loss & 模型性能关系

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare

随着数据规模的增长,模型的 loss 继续减少,而下降速度逐渐变慢。收敛损失和指令调整数据尺度之间的关系近似符合对数函数。

随着指令调优数据的增长,模型的性能越来越好,但增长速度继续放缓,也大致符合对数函数。

总体而言,在以文本为中心的 VQA 场景中,在指令调整阶段存在相应的缩放定律,其中模型性能与数据缩放的对数成正比,可以指导潜在更大数据集的构建并预测模型性能。

总结

在本文中,研究者提出了构建高质量的以文本为中心的指令调优数据集(Square-10M)的 Square 策略,利用该数据集,TextSquare-8B 在多个 benchmark 上实现了与 GPT4V 相当的性能,并在各种基准测试上大幅优于最近发布的开源模型。

此外,研究者推导了指令调整数据集规模、收敛损失和模型性能之间的关系,以便为构建更大的数据集铺平道路,证实了数据的数量和质量对模型性能至关重要。

最后,研究者指出,如何进一步提高数据数量和质量以缩小开源模型与领先模型之间的差距,被认为一个有高度希望的研究方向。

以上就是8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare的详细内容,更多请关注其它相关文章!


# 更大  # 高要网站建设优化  # 赣州网站建设软件  # 亳州网站seo优化推广  # 公司用营销推广违法吗  # 南通标准网站优化优势  # 蓬莱网页网站建设  # 政府网站建设的规范  # 烟台个人网络营销推广  # 来宾营销推广项目名称  # 啤酒的创意营销推广方案  # 取得了  # 并在  # 工程  # 进一步提高  # 有意义  # 高质量  # 多个  # 开源  # 华师  # 多模  # type  # gemini  # composer  # square 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: IBM 与 NASA 携手开源地理空间 AI 模型,促进气候科学研究进步  利用AI探索抗体“钥匙”、加速药物研发——访百图生科团队  软通动力多项AI创新产品及应用亮相2025世界人工智能大会  「电子果蝇」惊动马斯克!背后是13万神经元全脑图谱,可在电脑上运行  0代码微调大模型火了,只需5步,成本低至150块  微软Xbox称VR和AR还需要时间 先玩大的  科学家称,面对人工智能,人类未来或只有灭亡与虚拟永生两个选择  实践J*a开发,构建高性能的MongoDB数据迁移工具  广州团建公司方案 | 绝密飞行 → X-PLANE无人机团建主题团建  微软bing聊天推出AI购物工具 可进行比价并查看历史最低价  普渡机器人与变形金刚品牌合作,特别活动爆火,商品售罄!  稿见AI助手:提升写作效率与质量的必备工具  微软为 AI 初学者推出免费网课:为期 12 周,共 24 节课  北交大推出国内首个开源交通大模型TransGPT,可免费商用  改变城市交通:智慧城市中的智能交通  图灵奖得主Hinton:我已经老了,如何控制比人类更聪明的AI交给你们了  如何用户外电源给无人机实现持久续航  世界人工智能大会机器人同台炫技!梳理A股相关业务营收占比超50%的个股名单  国网辉南供电:无人机空中巡检 全力护航端午佳节  WHEE安装教程  人工智能领域,突破难题:国产大模型“无源之水”问题得到解决。  网友自制 AI 版《流浪地球 3》预告片,登上 CCTV6  AYANEO AIR 1S 掌机 7 月 9 日发布:R7 7840U + OLED 屏  农业产业升级:AI驱动的“崃·见田”开启农田未来展望  微幼科技推出全自动晨检机器人,助力幼儿园校园健康检测  MiracleVision视觉大模型功能介绍  日本学校探索引入 AI 和无人机:提高安保效率,节省劳动力  世界人工智能大会高合发表演讲,HiPhi Y即将全球上市  技术如何使人变得懒惰?  特斯拉 Optimus 人形机器人入驻北美门店,帮助提升汽车销量  你大脑中的画面,现在可以高清还原了  苹果机器学习关键人物 Ali Farhadi 离职,回归 AI2 担任 CEO  挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判  人形机器人概念集体爆发,能买吗?  企业软件行业更将被AI全面重构!Moka李国兴:未来优秀组织和个人将一定是善于使用AI生产力的  张朝阳陆川谈AI:大数据模型大幅提升工作效率,ChatGPT冲击最大的是内容创作领域  不止“文心一言”,消息称百度将推出全新 AI 对话软件“万话”  Snap宣布研发出新技术 可大幅提升AI生成图像速度  13 个提高生产力的 AI 工具  腾讯汤道生:大模型只是起点,产业落地是AI更大的应用场景  最大助力35公斤 外骨骼机器人或在养老、医疗领域“大展身手”  灯塔AI大模型票房预测上线:开源算法不断提升精准度  AI室内设计软件流行,室内设计行业如何应对效率变革  OpenAI已向中国申请注册“GPT-5”商标,此前已在美国提交申请  【首发】首款“消化内镜手术机器人”进入临床尾声,ROBO医疗获数千万元A轮融资  Vision Pro头显重磅发布;苹果收购AR厂商Mira  陈根:AI冥想教练为用户提供个性化指导  美的推出 AI 双视精准避障的自动集尘扫拖机器人 V12,售价仅为2999元  羚客系统即将升级,推出全新的AI数字化工具  站在社会的高度理解人工智能 

 2024-04-25

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.