信通院发布“方升”3.0 体系及大模型基准测试结果

中国信通院于日前正式发布新版本“方升”基准测试体系3.0。

“方升”大模型基准测试体系3.0在原有基础上实现系统性跃升，新增模型基础属性测试，对参数规模、推理效率等底层特征进行体系化测试；同时前瞻性布局未来高级智能测试，围绕全模态理解、长期记忆、自主学习等10项高级能力构建评估能力，并进一步深化工业制造、基础科学、金融等重点行业的场景化评测。

为支撑“方升”3.0的实施，中国信通院将从以下几方面系统强化评测基础设施：

一是扩容高质测试数据资源，围绕复杂推理、多模态、代码及智能体应用等重点领域和重点行业方向，未来将新增300万条高质量数据，满足多语言、多任务、多场景下的模型评测与优化需求。
二是体系化研究和应用先进测试方法，聚焦大模型评测流程中的关键技术卡点，未来将突破高质量测试数据合成与质量评估、数据污染检测及人机对齐裁判模型构建等核心技术；同时围绕通用人工智能演进趋势，将率先构建高级智能能力的评测范式，实现对未来智能水平的前瞻性度量与引导。
三是构建新一代智能评测基座，围绕智能体应用场景，未来将新增多智能体交互与环境感知的*测试环境，满足复杂真实场景下智能体协同交互、动态环境适应能力的系统性测试与评估需求；同时构建一体化基准评测系统，集成动态自适应测试工具、高级智能能力评估工具及评测数据全生命周期管理工具，实现评测能力的自动化、可扩展与前瞻性统一。

2025年起，中国信通院以两个月为周期开展大模型基准测试活动，目前已累计完成9轮评测。在最新一轮测试中，共对141个大模型和7个智能体进行了系统评估，覆盖大语言模型的基础、推理、代码能力，多模态模型的理解、生成能力以及智能体的通用能力。同时评测均采用多维度复合评估体系，涵盖69个细分测试维度，确保评估结果的全面性与科学性。

1.大语言模型测试结果：

基础能力持续提升，在学科、数学、指令遵循等方面表现出色，但在幻觉、工具使用等方面仍有提升空间。OpenAI的GPT 5（8月7日发布）综合能力领先排名第一，效果优于国内阿里巴巴的Qwen3-Max-Preview、月之暗面的Kimi K2，国内外大语言模型在基础能力上差距较小。推理能力进展显著，在高阶数学、复杂学科任务场景提升明显，但在复杂中文推理场景有待加强。OpenAI的GPT 5在复杂数学、推理能力领先，排名推理榜单首位，xAI的Grok-4紧随其后；国内表现较好的推理模型是深度求索的DeepSeek-V3.1、阿里巴巴的Qwen3-235B-A22B-Thinking-2507以及百度的ERNIE-X1-Turbo-Latest，但相较国际领先水平仍存在一定差距，这标志着全球大语言模型在推理能力的竞争已进入白热化阶段（如图3所示，此处仅展示排名前15的大模型）。

信通院发布“方升”3.0 体系及大模型基准测试结果

2.多模态大模型测试结果

图像理解方面能力持续突破，在场景解析和颜色识别等基础任务表现突出，但在需要多步推导的复杂逻辑推理任务上性能有待加强。OpenAI的GPT-5整体表现仍居领先地位。国内模型中，腾讯混元与字节跳动豆包在细粒度对象识别与情绪感知任务中表现优异，而在复杂空间关系与因果推理的高阶认知任务中仍有提升空间。图像生成方面技术实现显著进步，生成结果在视觉真实感、细粒度细节及复杂指令跟随方面取得系统性进展。然而，在生成内容的逻辑一致性、交互自然度以及文化表达方面仍面临持续性的挑战。谷歌的Nano Banana（gemini-2.5-flash-image）小幅领先，国内字节跳动的Seedream 4.0、腾讯的HunyuanImage 2.1、阿里巴巴的Qwen-image位居前列，头部大模型竞争白热化。视频生成方面，在时序一致性建模和动态场景合成等方面取得进步，但物理合理性与情感表现力等维度仍是持续探索的重点。稀宇科技的Hailuo02、谷歌的Veo3、生数的Vidu Q2内测版排名靠前。总体来看，国内多家企业跻身前列，技术加速跃迁，头部格局初显。

Motiff妙多

Motiff妙多是一款AI驱动的界面设计工具，定位为“AI时代设计工具”

334 查看详情 Motiff妙多

信通院发布“方升”3.0 体系及大模型基准测试结果

3.代码应用能力测试结果

大模型代码应用能力在函数级这类单一问题方面，表现较为出色，但在真实项目级开发这类复杂任务中，仍存在明显短板。OpenAI的GPT-5在代码应用能力排名首位，月之暗面的Kimi-K2-0905版本排名国内第一，国内模型在游戏开发、应用开发等项目级任务中，其在功能实现完整度与效果呈现方面，仍与国际先进水平存在一定差距。在大模型代码能力方面，推理模型能力较基础模型更具备优势，本轮测试的Top 5中，有4个为推理模型，仅有1个为基础模型。不同模型间代码理解能力整体差异不大，代码生成能力差异较为显著，大模型的代码注释、代码解释、代码生成能力依次减弱。

信通院发布“方升”3.0 体系及大模型基准测试结果

4.智能体应用能力测试结果：

智能体应用能力相比大模型可以完成更复杂任务，但在细分任务上仍不及预期。综合表现方面，高度封装的智能体产品通过融合基座模型、MCP服务、智能体沙箱等，可以获得比GPT-5、o3等单一大模型更好的性能表现。细分场景表现方面，智能体仍处于起始发展阶段，自主性不断增强，但能力仍有一定提升空间。智能体在网页交互和复杂信息挖掘等任务上表现相对较好，主要得益于当前网页浏览工具较为成熟、基座模型推理能力不断提升。然而，在多模态理解任务方面，智能体普遍表现欠佳，暴露出其在视频内容解析、图表语义理解等关键环节的技术短板，同时存在工具调用策略不合理、信息源整合能力不足等问题。

信通院发布“方升”3.0 体系及大模型基准测试结果

下一步，中国信息通信研究院将持续加强大模型评测技术研发与推广，提升大模型评测公信力和权威性，支撑人工智能前沿创新与新型工业化发展。一是聚焦技术突破，夯实评测底层能力。攻关自动化测试、缺陷分析及未来高级智能评测技术，推动评测向“智能驱动”跃升。二是强化能力建设，拓展多模态多场景覆盖。拓展文本、图像、语音、视频等多模态和多应用场景，打造一体化自动测试平台，实现全栈能力覆盖。三是深化生态运营，构建闭环服务体系。提供测试分析、选型评估、闭环优化等专业服务，推进国际合作与公益测试，构建开放协同、可持续的大模型评测生态。

以上就是信通院发布“方升”3.0 体系及大模型基准测试结果的详细内容，更多请关注其它相关文章！

# 谷歌 # 人工智能 # 字节跳动 # 大模型 # 金融 # gpt-5 # 多语言 # 百度 # openai # ai # 栈 # 腾讯 # 工具 # 字节 # gpt # 吴少锋seo # 太原网站推广优势 # 网站推广就联系云客网 # seo中 obl中什么 # 百度广告产品推广网站 # 义乌网站外贸推广 # 丽水营销推广价格调查 # 胶州网站优化工具 # 常州seo手段 # 云浮网站优化厂家电话 # 等方面 # 阿里巴巴 # 中国 # 基座 # 未来 # 多模 # 国内 # 但在 # 信通 # 阿里

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2025-10-09

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。