信通院发布“方升”3.0 体系及大模型基准测试结果


中国信通院于日前正式发布新版本“方升”基准测试体系3.0。

“方升”大模型基准测试体系3.0在原有基础上实现系统性跃升,新增模型基础属性测试,对参数规模、推理效率等底层特征进行体系化测试;同时前瞻性布局未来高级智能测试,围绕全模态理解、长期记忆、自主学习等10项高级能力构建评估能力,并进一步深化工业制造、基础科学、金融等重点行业的场景化评测。

为支撑“方升”3.0的实施,中国信通院将从以下几方面系统强化评测基础设施:

  • 一是扩容高质测试数据资源,围绕复杂推理、多模态、代码及智能体应用等重点领域和重点行业方向,未来将新增300万条高质量数据,满足多语言、多任务、多场景下的模型评测与优化需求。
  • 二是体系化研究和应用先进测试方法,聚焦大模型评测流程中的关键技术卡点,未来将突破高质量测试数据合成与质量评估、数据污染检测及人机对齐裁判模型构建等核心技术;同时围绕通用人工智能演进趋势,将率先构建高级智能能力的评测范式,实现对未来智能水平的前瞻性度量与引导。
  • 三是构建新一代智能评测基座,围绕智能体应用场景,未来将新增多智能体交互与环境感知的*测试环境,满足复杂真实场景下智能体协同交互、动态环境适应能力的系统性测试与评估需求;同时构建一体化基准评测系统,集成动态自适应测试工具、高级智能能力评估工具及评测数据全生命周期管理工具,实现评测能力的自动化、可扩展与前瞻性统一。

信通院发布“方升”3.0 体系及大模型基准测试结果

2025年起,中国信通院以两个月为周期开展大模型基准测试活动,目前已累计完成9轮评测。在最新一轮测试中,共对141个大模型和7个智能体进行了系统评估,覆盖大语言模型的基础、推理、代码能力,多模态模型的理解、生成能力以及智能体的通用能力。同时评测均采用多维度复合评估体系,涵盖69个细分测试维度,确保评估结果的全面性与科学性。

1.大语言模型测试结果:

基础能力持续提升,在学科、数学、指令遵循等方面表现出色,但在幻觉、工具使用等方面仍有提升空间。OpenAI的GPT 5(8月7日发布)综合能力领先排名第一,效果优于国内阿里巴巴的Qwen3-Max-Preview、月之暗面的Kimi K2,国内外大语言模型在基础能力上差距较小。推理能力进展显著,在高阶数学、复杂学科任务场景提升明显,但在复杂中文推理场景有待加强。OpenAI的GPT 5在复杂数学、推理能力领先,排名推理榜单首位,xAI的Grok-4紧随其后;国内表现较好的推理模型是深度求索的DeepSeek-V3.1、阿里巴巴的Qwen3-235B-A22B-Thinking-2507以及百度的ERNIE-X1-Turbo-Latest,但相较国际领先水平仍存在一定差距,这标志着全球大语言模型在推理能力的竞争已进入白热化阶段(如图3所示,此处仅展示排名前15的大模型)。

信通院发布“方升”3.0 体系及大模型基准测试结果

2.多模态大模型测试结果

图像理解方面能力持续突破,在场景解析和颜色识别等基础任务表现突出,但在需要多步推导的复杂逻辑推理任务上性能有待加强。OpenAI的GPT-5整体表现仍居领先地位。国内模型中,腾讯混元与字节跳动豆包在细粒度对象识别与情绪感知任务中表现优异,而在复杂空间关系与因果推理的高阶认知任务中仍有提升空间。图像生成方面技术实现显著进步,生成结果在视觉真实感、细粒度细节及复杂指令跟随方面取得系统性进展。然而,在生成内容的逻辑一致性、交互自然度以及文化表达方面仍面临持续性的挑战。谷歌的Nano Banana(gemini-2.5-flash-image)小幅领先,国内字节跳动的Seedream 4.0、腾讯的HunyuanImage 2.1、阿里巴巴的Qwen-image位居前列,头部大模型竞争白热化。视频生成方面,在时序一致性建模和动态场景合成等方面取得进步,但物理合理性与情感表现力等维度仍是持续探索的重点。稀宇科技的Hailuo02、谷歌的Veo3、生数的Vidu Q2内测版排名靠前。总体来看,国内多家企业跻身前列,技术加速跃迁,头部格局初显。

Motiff妙多 Motiff妙多

Motiff妙多是一款AI驱动的界面设计工具,定位为“AI时代设计工具”

Motiff妙多 334 查看详情 Motiff妙多

信通院发布“方升”3.0 体系及大模型基准测试结果

3.代码应用能力测试结果

大模型代码应用能力在函数级这类单一问题方面,表现较为出色,但在真实项目级开发这类复杂任务中,仍存在明显短板。OpenAI的GPT-5在代码应用能力排名首位,月之暗面的Kimi-K2-0905版本排名国内第一,国内模型在游戏开发、应用开发等项目级任务中,其在功能实现完整度与效果呈现方面,仍与国际先进水平存在一定差距。在大模型代码能力方面,推理模型能力较基础模型更具备优势,本轮测试的Top 5中,有4个为推理模型,仅有1个为基础模型。不同模型间代码理解能力整体差异不大,代码生成能力差异较为显著,大模型的代码注释、代码解释、代码生成能力依次减弱。

信通院发布“方升”3.0 体系及大模型基准测试结果

4.智能体应用能力测试结果:

智能体应用能力相比大模型可以完成更复杂任务,但在细分任务上仍不及预期。综合表现方面,高度封装的智能体产品通过融合基座模型、MCP服务、智能体沙箱等,可以获得比GPT-5、o3等单一大模型更好的性能表现。细分场景表现方面,智能体仍处于起始发展阶段,自主性不断增强,但能力仍有一定提升空间。智能体在网页交互和复杂信息挖掘等任务上表现相对较好,主要得益于当前网页浏览工具较为成熟、基座模型推理能力不断提升。然而,在多模态理解任务方面,智能体普遍表现欠佳,暴露出其在视频内容解析、图表语义理解等关键环节的技术短板,同时存在工具调用策略不合理、信息源整合能力不足等问题。

信通院发布“方升”3.0 体系及大模型基准测试结果

下一步,中国信息通信研究院将持续加强大模型评测技术研发与推广,提升大模型评测公信力和权威性,支撑人工智能前沿创新与新型工业化发展。一是聚焦技术突破,夯实评测底层能力。攻关自动化测试、缺陷分析及未来高级智能评测技术,推动评测向“智能驱动”跃升。二是强化能力建设,拓展多模态多场景覆盖。拓展文本、图像、语音、视频等多模态和多应用场景,打造一体化自动测试平台,实现全栈能力覆盖。三是深化生态运营,构建闭环服务体系。提供测试分析、选型评估、闭环优化等专业服务,推进国际合作与公益测试,构建开放协同、可持续的大模型评测生态。

以上就是信通院发布“方升”3.0 体系及大模型基准测试结果的详细内容,更多请关注其它相关文章!


# 谷歌  # 人工智能  # 字节跳动  # 大模型  # 金融  # gpt-5  # 多语言  # 百度  # openai  # ai  #   # 腾讯  # 工具  # 字节  # gpt  # 吴少锋seo  # 太原网站推广优势  # 网站推广就联系云客网  # seo中 obl中什么  # 百度广告产品推广网站  # 义乌网站外贸推广  # 丽水营销推广价格调查  # 胶州网站优化工具  # 常州seo手段  # 云浮网站优化厂家电话  # 等方面  # 阿里巴巴  # 中国  # 基座  # 未来  # 多模  # 国内  # 但在  # 信通  # 阿里 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: AI立法迫在眉睫,如何看对行业影响?  好莱坞面临全面停摆 好莱坞大罢工抵制“AI入侵”  普林斯顿大学推出Infinigen AI模型 可生成真实自然环境 3D场景  人形机器人概念集体爆发,能买吗?  随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了  AI大模型时代,数据存储新基座助推教科研数智化跃迁  AI进军债券交易,BondGPT来了!  OpenAI 引入个性化指令功能,消除对话中的重复偏好与信息  华为AI大模型将融入HarmonyOS 4  首届亚太网络法实务大会召开 九位大咖探讨元宇宙与人工智能发展  斑马推出全新升级版思维机:以人工智能为核心的交互式学习体验  软通动力多项AI创新产品及应用亮相2025世界人工智能大会  消息称 Meta Quest 将推 VR 游戏订阅:每月 7.99 美元,任选两款  智能技术提高现代商业运营的7七种方式  V社谈AI制作游戏被ban:为确保开发者有素材所有权  美踏控股推出创新人工智能大数据模型“心乐舞河”:虚拟人音舞社交的新体验  厂商陆续公布AI进展 完美世界游戏展示复合应用AI in GamePlay  OpenAI 向所有付费 API 用户开放 GPT-4  微幼科技晨检机器人与人工晨检相比,有何优势  云鲸发布全新的扫拖机器人J4系列  Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽  2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组  首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布  海南科技职业大学第25届中国机器人及人工智能大赛海南赛区荣获一等奖等114项  WHEE上线时间介绍  游族AI创新院揭牌成立 推进AI赋能游戏业务  海南省公安机关警用无人机培训班结业并举行警航比武演练  一句话搞定数据分析,浙大全新大模型数据助手,连搜集都省了  这效果能打几分?AI真人化《名侦探柯南》  新闻传闻:迪士尼可能采用人工智能来控制电影制作成本  【搞事】时隔4年 谷歌更新安卓logo 机器人头更饱满了  AI行业盛会大咖云集!Sam Altam、“AI教父”......一文看懂最新观点  30+大模型齐聚,大模型成世界人工智能大会“顶流”  “苏南 vs 苏北” AI 分胜负,娱乐性比较工具 EitherChoice 上线  稿见AI助手:提升写作效率与质量的必备工具  谷歌旗下 DeepMind 开发出 RoboCat AI 模型,能控制多种机器人执行一系列任务  灯塔AI大模型票房预测上线:开源算法不断提升精准度  国家发改委组织工业机器人产业高质量发展现场会  到中国科技馆体验“一滴油的奇妙旅行”,线上元宇宙展厅同步开启  AI新风口?首个高质量「文生视频」模型Zeroscope引发开源大战:最低8G显存可跑  人工智能在商业中的风险和局限性  500元一张的AI艺术二维码制作,详细教程来了!  Midjourney创始人:AI应该成为人类思想的延伸  人工智能赋能广西自然资源领域监测监管  管提需求,大模型解决问题:图表处理神器SheetCopilot上线  全国体育人工智能大会举办,专家聚焦体育人工智能领域人才培养  当孔子遇见AI|尼山的“数字”  改动一行代码,PyTorch训练三倍提速,这些「高级技术」是关键  “图壤·阅读元宇宙”亮相北京国际图书博览会  从数据中心到发电站:人工智能对能源使用的影响 

 2025-10-09

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.