涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型


☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3d医学多模态大模型

作者 | 香港中文大学白帆

编辑 | ScienceAI

近日,香港中文大学和智源联合提出的 M3D 系列工作,包括 M3D-Data, M3D-LaMed 和 M3D-Bench,从数据集、模型和测评全方面推动 3D 医学图像分析的发展。

(1)M3D-Data 是目前最大的 3D 医学图像数据集,包括 M3D-Cap (120K 3D 图文对), M3D-VQA (510K 问答对),M3D-Seg(150K 3D Mask),M3D-RefSeg (3K 推理分割)共四个子数据集。

(2)M3D-LaMed 是目前最多功能的 3D 医学多模态大模型,能够解决文本(疾病诊断、图像检索、视觉问答、报告生成等),定位(目标检测、视觉定位等)和分割(语义分割、指代分割、推理分割等)三类医学分析任务。

(3)M3D-Bench 能够全面和自动评估 8 种任务,涵盖文本、定位和分割三个方面,并提供人工校验后的测试数据。

我们最早于 2025 年 4 月发布了数据集、模型和代码。

近期,我们提供了更小和更强的 M3D-LaMed-Phi-3-4B 模型,并增加了线上 demo 供大家体验!

最新进展请关注 GitHub 库的更新 ,如果有任何疑问和建议可以及时联系,欢迎大家讨论和支持我们的工作。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

  • 论文链接:https://arxiv.org/abs/2404.00578
  • 代码:https://github.com/BAAI-DCAI/M3D
  • 模型:https://huggingface.co/GoodBaiBai88/M3D-LaMed-Phi-3-4B
  • 数据集:https://github.com/BAAI-DCAI/M3D?tab=readme-ov-file#data
  • 线上 Demo:https://baai.rpailab.xyz/

我们能为医学图像相关研究者提供什么?

  1. M3D-Data, 最大的 3D 医学多模态数据集;
  2. M3D-Seg,整合了几乎所有开源 3D 医学分割数据集,共计 25 个;
  3. M3D-LaMed, 支持文本、定位和分割的最多功能的 3D 医学多模态大模型,提供了简洁清晰的代码框架,研究者可以轻易魔改每个模块的设置;
  4. M3D-CLIP,基于 M3D-Cap 3D 图文对,我们训练了一个图文对比学习的 M3D-CLIP 模型,共提供其中的视觉预训练权重 3DViT;
  5. M3D-Bench,全面和清晰的测评方案和代码。
  6. 本文涉及的所有资源全部开放,希望能帮助研究者共同推进 3D 医学图像分析的发展。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

线上Demo视频。

医学图像分析对临床诊断和治疗至关重要,多模态大语言模型 (MLLM) 对此的支持日益增多。然而,先前的研究主要集中在 2D 医学图像上,尽管 3D 图像具有更丰富的空间信息,但对其的研究和探索还不够。

本文旨在利用 MLLM 推进 3D 医学图像分析。为此,我们提出了一个大规模 3D 多模态医学数据集 M3D-Data,其中包含 120K 个图像-文本对和 662K 个指令-响应对,专门针对各种 3D 医学任务量身定制,例如图文检索、报告生成、视觉问答、定位和分割。

此外,我们提出了 M3D-LaMed,这是一种用于 3D 医学图像分析的多功能多模态大语言模型。

我们还引入了一个新的 3D 多模态医学基准 M3D-Bench,它有助于在八个任务中进行自动评估。通过综合评估,我们的方法被证明是一种稳健的 3D 医学图像分析模型,其表现优于现有解决方案。所有代码、数据和模型均可在以下网址公开获取。

数据集

M3D-Data 共包括4个子数据集,分别为M3D-Cap(图文对), M3D-VQA(视觉问答对), M3D-RefSeg(推理分割)和 M3D-Seg(整合 25 个 3D 分割数据集)。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

数据集统计情况。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

M3D-VQA 数据集分布。其中问题类型主要包括平面、期相、器官、异常和定位五类常见的3D图像问题。

我们整合了几乎所有开源的 3D 医学分割数据集,组成了 M3D-Seg,共计 25 个。数据集可以被用来做语义分割、推理分割、指代分割和相应的检测定位任务。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

M3D-Seg。

模型

M3D-LaMed 模型结构如下图所示。(a)3D 图像编码器通过跨模态对比学习损失由图文数据进行预训练,可直接应用于图文检索任务。(b)在 M3D-LaMed 模型中,3D 医学图像被输入到预先训练的 3D 图像编码器和高效的 3D 空间池化感知器中,并将视觉 token 插入 LLM,输出的 [SEG] 作为 prompt 驱动分割模块。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

M3D-LaMed 模型结构。

实验

图文检索

在 3D 图文检索中,模型旨在根据相似性从数据集中匹配图像和文本,通常涉及两个任务:文本到图像检索 (TR) 和图像到文本检索 (IR)。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

由于缺乏合适的方法,我们将 2D 医学的代表模型 PMC-CLIP 应用于 3D 图文检索中,我们发现由于缺乏空间信息,几乎无法和 3D 图文检索模型对比。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

报告生成

灵感PPT 灵感PPT

AI灵感PPT - 免费一键PPT生成工具

灵感PPT 308 查看详情 灵感PPT

在报告生成中,该模型根据从 3D 医学图像中提取的信息生成文本报告。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

封闭式视觉问答

在封闭式视觉问答中,需要为模型提供封闭的答案候选,例如 A,B,C,D,要求模型从候选中选出正确答案。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

我们发现在医学领域 M3D-LaMed 超过通用的 GPT-4V。

开放式视觉问答

在开放式视觉问答中,模型生成开放式的答案,不存在任何答案提示和候选。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

我们发现在医学领域 M3D-LaMed 超过通用的 GPT-4V。不过需注意目前GPT-4V 限制了医疗相关问题的回答。

定位

定位在视觉语言任务中至关重要,尤其是涉及输入和输出框的任务。在输出框的任务,如指代表达理解 (REC) ,旨在根据指代表达在图像中定位目标对象。相比之下,在输入框的任务,如指代表达生成 (REG) ,要求模型根据图像和位置框生成特定区域的描述。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

分割

分割任务在 3D 医学图像分析中至关重要,因为它具有识别和定位功能。为了解决各种文本提示,分割分为语义分割和指代表达分割。对于语义分割,该模型根据语义标签生成分割掩码。指代表达分割需要根据自然语言表达描述进行目标分割,需要模型具有一定的理解和推理的能力。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

分布外 (OOD) 问题的案例研究

我们在 OOD 对话中测试了 M3D-LaMed 模型,这意味着所有问题都与我们的训练数据不相关。我们发现 M3D-LaMed 具有很强的泛化能力,可以对 OOD 问题产生合理的答案,而不是胡言乱语。在每组对话中,左侧的头像和问题来自用户,右侧的头像和答案来自 M3D-LaMed。

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

模型具有很强的推理能力和泛化能力。

我们最新训练的更小的 M3D-LaMed-Phi-3-4B 模型具有更好的表现,欢迎大家使用!GoodBaiBai88/M3D-LaMed-Phi-3-4B · Hugging Face

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

报告生成测评结果

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

封闭式 VQA 测评结果

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

在 TotalSegmentator 上测评的语义分割 Dice 结果

总结

我们 M3D 系列研究促进了使用 MLLM 进行 3D 医学图像分析。具体来说,我们构建了一个大规模 3D 多模态医学数据集 M3D-Data,其中包含 120K 3D 图像文本对和 662K 指令响应对,专为 3D 医学任务量身定制。此外,我们提出了 M3D-LaMed,这是一个通用模型,可处理图像文本检索、报告生成、视觉问答、定位和分割。此外,我们引入了一个综合基准 M3D-Bench,它是为八个任务精心设计的。

我们的方法为 MLLM 理解 3D 医学场景的视觉和语言奠定了坚实的基础。我们的数据、代码和模型将促进未来研究中对 3D 医学 MLLM 的进一步探索和应用。希望我们的工作能够为领域研究者带来帮助,欢迎大家使用和讨论。

以上就是涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型的详细内容,更多请关注其它相关文章!


# git  # 理论  # 线上  # 提出了  # 智源  # 多模  # 首个  # 多功能  # type  # fig  # hugging face  # seo材质用于什么  # 银川装饰网站建设  # 海东地区网站优化  # 日料居酒屋营销推广策略  # 新车型推广营销方案策划  # 网站推广外链  # 丽水关键词排名优化获客  # 在你的眼中seo是什么  # 赣州网站建设方式  # 巩义网站seo优化公司  # 语言表达  # 丰田  # 至关重要  # 欢迎大家 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 网易易盾 AI Lab 论文入选 ICASSP 2025!黑科技让语音识别越“听”越准  乐天派桌面机器人加入小米米家生态系统,实现与其他智能设备的互联  石头扫拖机器人 G20 618 福利来袭:4999 元,超值配件领到手软  调查显示:实际上没有那么多人在用 ChatGPT  商业智能决策技术助力降本增效,世界人工智能大会举办商业AI高峰论坛  尼康尼克尔 Z 180-600mm f/5.6-6.3 VR 镜头发布,12499 元  阿里云推出通义万相AI绘画大模型  7/8上海 | 2025世界人工智能大会分论坛:科技与人文-共筑无障碍智能社会  全新升级的广州麦当劳:面积最大餐厅正式引入智慧机器人  GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群  常见的五个人工智能误解  人工智能写作检测工具不靠谱,美国宪法竟被认为是机器人写的  人工智能助力林草行业高质量发展  测试框架-安全和自动驾驶  2025世界人工智能大会(上海)开幕式纪要  AIGC 风潮刮到游戏产业,巨人网络与阿里云达成“游戏 +AI ”合作  兆讯传媒率先全面拥抱AI 数智广告内容焕发新生机  走进首家“元宇宙”未来工厂,卡奥斯探知工业之旅出发!  再度重仓 AI 赛道,SaaS 巨头 Salesforce 扩大 AIGC 风投基金规模  挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判  有远见!华为四年前注册商标Vision Pro:苹果AR国内要改名  字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA  腾讯AI首次模拟拼接三星堆文物,工作取得阶段性的成果  智能手机应用中的人工智能的重要性  华为小艺AI助手将实现强大的大模型能力  华为4G5G通信物联网收费标准公布,多年研发成果,十年花费近万亿  “上海市民营企业人工智能赋能创新中心”揭牌成立  猿辅导推出Motiff,整合三大AI功能,助力UI设计生产力革新  “五年内人类程序员将消失”预言引争议,AI真的那么强大了吗?  AI生成新闻网站数量激增,正在疯狂赚取广告收入  联想浏览器引入小乐 AI 助手,成功接入百度文心一言大模型,经过实测证实  AI行业盛会大咖云集!Sam Altam、“AI教父”......一文看懂最新观点  让AI助手带您轻松愉快地享受写作之旅  消息称字节机器人团队已有约50人,计划年底扩充到上百人  【机智云物联网低功耗转接板】远程环境数据采集探索  技术如何使人变得懒惰?  先进技术在防止全球数据丢失方面的作用  AI会帮我们把活干完吗?  三个全球首创,青岛西海岸新区“海元宇宙”亮相世界人工智能大会  金山办公:AI是重要的产品战略之一  旷视入选北京市通用人工智能产业创新伙伴计划  马斯克的幽默“现实”:AR眼镜与20美元“增强现实”哪个真实?  360°/180°双模式,佳能公布可折叠小体积的VR全景相机  人工智能大胆预测:银河系至少有2万个地球,36种外星文明  机器人技能大比拼  全媒封面丨⑤商汤科技:原创AI算法“发电厂”  腾讯企点客服接待与营销分析能力升级!企业操作更高效、人机交互更智能  Zoom远程会议应用:AI培训需经用户授权  DragGAN开源三天Star量23k,这又来一个DragDiffusion  时隔 4 年:谷歌更新安卓机器人 LOGO,形象更立体 

 2024-06-24

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.