清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳


2025 年 12 月发布的 CPM-1 是国内首个中文大模型 ;2025 年 9 月发布的 CPM-Ant 仅微调 0.06% 参数就能超越全参数微调效果;2025 年 5 月发布的 WebCPM 是 中文首个基于搜索的问答开源模型。CPM-Bee 百亿大模型是团队最新发布的基座模型,中文能力登顶权威榜单 ZeroCLUE,英文能力打平 LLaMA。

屡屡作出破壁性成就,CPM 系列大模型一直在引领国产大模型攀登高峰,最近发布的 VisCPM 是又一次证明!VisCPM 是由面壁智能、清华大学 NLP 实验室和知乎联合开源在 OpenBMB 的多模态大模型系列,其中 VisCPM-Chat 模型支持中英双语的多模态对话能力,VisCPM-Paint 模型支持文到图生成能力,评测显示 VisCPM 在中文多模态开源模型中达到最佳水平。

VisCPM 基于百亿参数基座模型 CPM-Bee 训练,融合视觉编码器(Q-Former 和视觉解码器(Diffusion-UNet)以支持视觉信号的输入和输出。得益于 CPM-Bee 底座优秀的双语能力,VisCPM 可以仅通过英文多模态数据预训练,泛化实现优秀的中文多模态能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳VisCPM简易架构图

我们来详细看看 VisCPM-Chat 和 VisCPM-Paint 到底牛在哪里。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳图片

viscpm 链接:https://github.com/openbmb/viscpm

ChatGPT Writer ChatGPT Writer

免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。

ChatGPT Writer 106 查看详情 ChatGPT Writer

VisCPM-Chat 支持面向图像进行中英双语多模态对话。该模型使用 Q-Former 作为视觉编码器,使用 CPM-Bee(10B)作为语言交互基底模型,并通过语言建模训练目标融合视觉和语言模型。模型训练包括预训练和指令精调两阶段。

团队使用约 100M 高质量英文图文对数据 对 VisCPM-Chat 进行了预训练,数据包括 CC3M、CC12M、COCO、Visual Genome、Laion 等。在预训练阶段,语言模型参数保持固定,仅更新 Q-Former 部分参数,以支持大规模视觉 - 语言表示的高效对齐。

之后团队对 VisCPM-Chat 进行了指令精调,采用 LLaVA-150K 英文指令精调数据,并混合相应翻译后的中文数据对模型进行指令精调,以对齐模型多模态基础能力和用户使用意图。在指令精调阶段,他们更新了全部模型参数,以提升指令精调数据的利用效率。

有趣的是,团队发现即使仅采用英文指令数据进行指令精调,模型也可以理解中文问题,但仅能用英文回答。这表明模型的多语言多模态能力已经得到良好的泛化。在指令精调阶段进一步加入少量中文翻译数据,就可以将模型回复语言和用户问题语言对齐。

团队在 LLaVA 英文测试集和翻译的中文测试集对模型进行了评测,该评测基准考察模型在开放域对话、图像细节描述、复杂推理方面的表现,并使用 GPT-4 进行打分。可以观察到,VisCPM-Chat 在中文多模态能力方面取得了最佳的平均性能,在通用域对话和复杂推理上表现出色,同时也表现出了不错的英文多模态能力。

VisCPM-Chat 提供了两个模型版本,分别为 VisCPM-Chat-balance 和 VisCPM-Chat-zhplus,前者在英文和中文两种语言上的能力较为平衡,后者在中文能力上更加突出。两个模型在指令精调阶段使用的数据相同,VisCPM-Chat-zhplus 在预训练阶段额外加入了 20M 清洗后的原生中文图文对数据和 120M 翻译到中文的图文对数据。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳图片

下面是 VisCPM-Chat 的多模态对话能力展示,不仅能识别具体地区的地图,还能读懂涂鸦画和电影海报,甚至认识星巴克的 logo。而且,中英文双语都很溜!


清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

再来看 VisCPM-Paint ,它支持中英双语的文到图生成。该模型使用 CPM-Bee(10B)作为文本编码器,使用 UNet 作为图像解码器,并通过扩散模型训练目标融合语言和视觉模型。

在训练过程中,语言模型参数始终保持固定。使用 Stable Diffusion 2.1 的 UNet 参数初始化视觉解码器,并通过逐步解冻其中关键的桥接参数将其与语言模型融合:首先训练文本表示映射到视觉模型的线性层,然后进一步解冻 UNet 的交叉注意力层。该模型在 Laion 2B 英文图文对数据上进行了训练。

与 VisCPM-Paint 类似,得益于基座模型 CPM-Bee 的双语能力,VisCPM-Paint 可以仅通过英文图文对训练,泛化实现良好的中文文到图生成能力,达到中文开源模型的最佳效果。通过进一步加入 20M 清洗后的原生中文图文对数据,以及 120M 翻译到中文的图文对数据,模型的中文文到图生成能力获得进一步提升。同样,VisCPM-Paint 有 balance 和 zhplus 两个不同的版本。他们在标准图像生成测试集 MSCOCO 上采样了 3 万张图片,计算了常用评估图像生成指标 FID (Fréchet Inception Distance) 评估生成图片的质量。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

VisCPM-Paint 模型中分别输入 “海上生明月,天涯共此时,唯美风格,抽象风格”“人闲桂花落,月静春山空” 两条 prompts,生成了以下两张图片:

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

(生成效果稳定性仍有提升空间)

相当惊艳,可以说精准把握了古诗词的意境,以后读不懂诗句就直接生成个图片来理解!如果应用在设计上,可以节省一大笔人力。不仅能 “作画”,用上 VisCPM-Chat,还能 “吟诗”:用图片反向检索诗句。比如能用李白的诗描绘黄河的景象并作解读,在面对中秋月夜时还能用苏轼的《水调歌头》借景抒情。

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

VisCPM 不仅生成效果好,下载版本设计考虑周到,安装和使用也十分简易。 

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳VisCPM提供不同中英文能力的版本

清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳

VisCPM 提供不同中英文能力的模型版本供大家下载选择,安装步骤简单,在使用中可以通过几行代码实现多模态对话,还在代码中默认开启了对输入文本和输出图片的安全检查。(具体教程详见 README)未来团队还会将 VisCPM 整合到 huggingface 代码框架中,并且会陆续完善安全模型、 支持快速网页部署、 支持模型量化功能、支持模型微调等功能,坐等更新!

值得一提的是,VisCPM 系列模型非常欢迎个人使用和研究用途。如需将模型用于商业用途,还可以联系 cpm@modelbest.cn 洽谈商业授权事宜。

传统模型专注处理单一模态数据,现实世界中的信息往往是多模态的,多模态大模型提升了人工智能系统的感知交互能力,为 AI 解决现实世界中复杂的感知和理解任务带来了新的机遇。不得不说,清华系大模型公司面壁智能研发能力强大,联合发布的多模态大模型 VisCPM 实力强大、表现惊艳,期待他们后续的成果发布!

以上就是清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳的详细内容,更多请关注其它相关文章!


# ai  # 扬州常规网站建设  # 媒体seo优化郑重承诺  # seo包括网站建设吗  # 南坪正规网站建设  # 青岛关键词排名平台  # 商丘网站建设选哪家  # 浙江网站建设公司服务  # 长沙企业seo优化外包  # 济宁网站建设网站优化  # 丰田  # 中国科学院  # 的是  # 进行了  # 基座  # 惊艳  # 英文  # 清华  # 开源  # 多模  # stable diffusion  # llama  # openbmb  # 模型  # 衢州网站关键词推广优化 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 懒人必备的家居清洁好物,石头自清洁扫拖机器人G20  超级智能到底是什么?  MIT开发“PhotoGuard”技术保护图像免遭恶意AI编辑  映宇宙集团执行总编辑:元宇宙还是要以人为媒介  AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购  如何利用AI工具写好本科论文:科技助你一臂之力  马斯克发推讽刺人工智能,机器学习本质是统计?  Meta 发布 Voicebox AI 模型:可生成音频信息,用于 NPC 对话等  华为推出全新操作系统HarmonyOS 4,AI和新引擎完美融合  聚焦人工智能大模型、AIGC 徐汇十余场重磅论坛等你来  马斯克发推讽刺人工智能:机器学习的本质就是统计  比尔盖茨:AI确实存在风险,但可控  Vision Pro 太贵,苹果基于 iPhone 的 VR 头显专利曝光  ​《流浪地球2》里机器人公司的创始人:未来10年,机器人的崛起!  爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化  实践J*a开发,构建高性能的MongoDB数据迁移工具  微幼科技晨检机器人:幼儿园健康保障的新伙伴  GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型  “无人驾驶船”将首次亮相世界人工智能大会,下半年或开进上海迪士尼  小红书陷入麻烦!被指控未经许可使用用户图片进行AI训练  “一般智力”与工艺学批判是认识AI的重要入口 | 社会科学报  剧透!蜜小豆@2025世界人工智能大会多个亮点曝光  学界业界大咖探讨:AI对数字艺术创新的推动力  创新科学家成功研发FAST激光靶标维护机器人  AYANEO AIR 1S 掌机 7 月 9 日发布:R7 7840U + OLED 屏  丰田汽车研究院推出生成式人工智能汽车设计工具  不到2S创作AI图像!Snap发布图像生成器SnapFusion  1.6亿美元收购Singularity AI,昆仑万维布局通用人工智能  第 66 届格莱美奖规定,AI 作品将无法获得评奖资格  应用生成式人工智能技术改善农业产业  「社交达人」GPT-4!解读表情、揣测心理全都会  全新小艺搭载AI大模型,有效提升学生和职场人士的工作效率  特斯拉 Optimus 人形机器人入驻北美门店,帮助提升汽车销量  成都大运会闭幕式引入人形机器人展示表演  十个AI算法常用库J*a版  OpenAI夺冠:人工智能为云计算带来新变革  J*a与人工智能结合:构建智能云服务  联想举办2025创新开放日,展出260余项算力及AI产品技术  OpenAI限制网络爬虫访问以保护数据免被用于AI模型训练  人形机器人概念集体爆发,能买吗?  “智能体动作生成技术”现身WAIC:游戏AI技术为机器人科创注入新动力  AIGC 风潮刮到游戏产业,巨人网络与阿里云达成“游戏 +AI ”合作  IBM 与 NASA 携手开源地理空间 AI 模型,促进气候科学研究进步  MiracleVision视觉大模型上线时间  世界人工智能大会|“AI领航,共筑未来”高端保险论坛成功举办  配 3D 机器人头像,谷歌展示全新安卓 LOGO  OpenAI 静默关闭 AI 文本检测工具,准确率仅为 26%  无人机自主巡检为高海拔输电线路运维添“新彩”  MiracleVision视觉大模型  彭博社:苹果Vision Pro曾测试VR手柄追踪方案 

 2023-07-03

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.