奥特曼能不急吗?
被 DeepSeek 狂轰乱炸了一周后,终于在今天发布了新的模型 o3-mini。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

此次发布,o3-min
i 包含 low、medium 和 high 三个版本。
OpenAI 表示,今天发布的 o3-mini 是其推理模型系列中最新、最具成本效益的模型,已上线 ChatGPT 和 API 。
我们打开 ChatGPT,o3-mini 和 o3-mini-high 两个新模型已然上线。

不过 o3-mini 目前还不支持视觉功能,因此开发者需要继续使用 OpenAI o1 进行视觉推理任务。
在使用权限上,ChatGPT Plus、Team 和 Pro 用户从今天起就可以访问 OpenAI o3-mini,企业版访问权限将在一周内开放。
作为此次升级的一部分,OpenAI 将 Plus 和 Team 用户的速率限制从 o1-mini 的每天 50 条消息提高到 o3-mini 的每天 150 条消息。此外,o3-mini 现在可以使用搜索功能,提供带有相关网络来源链接的最新答案。这是其在推理模型中整合搜索功能的早期原型。
从今天开始,免费用户也可以通过在消息编辑器中选择「推理」或重新生成响应来试用 OpenAI o3-mini。这是 OpenAI 首次向 ChatGPT 的免费用户提供推理模型。

虽然 OpenAI o1 仍然是更广泛使用的通用知识推理模型,但 OpenAI o3-mini 为需要精确性和速度的技术领域提供了专门的替代选择。在 ChatGPT 中,o3-mini 使用中等推理级别来提供速度和准确性之间的平衡。所有付费用户还可以在模型选择器中选择 o3-mini-high,从而获得需要更长时间生成响应但智能水平更高的版本。Pro 用户将可以无限制地访问 o3-mini 和 o3-mini-high。
对于此次发布,网友反馈如何?
知名播客主理人 Lex Fridman 表示,OpenAI o3-mini 虽然是一个很好的模型,但 DeepSeek r1 的性能相似,而且更便宜,并揭示推理过程。

他甚至给出了「DeepSeek moment」这样一个词形容 DeepSeek 带来的深远影响。
接下来,就让我们看下 o3-mini 的性能指标:
快速、强大且针对 STEM 推理优化
与其前身 OpenAI o1 类似,OpenAI o3-mini 针对 STEM 推理进行了优化。o3-mini-medium 在数学、编程和科学领域的表现与 o1 相当,同时响应速度更快。专家测试人员的评估显示,o3-mini 产生的答案比 o1-mini 更准确、更清晰,推理能力更强。测试人员在 56% 的情况下更偏好 o3-mini 的响应,并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。o3-mini-medium 在一些最具挑战性的推理和智能评估(包括 AIME 和 GPQA)上与 o1 的表现相当。
竞赛数学(AIME 2025):

竞赛数学:o3-mini-low 与 o1-mini 的表现相当。o3-mini-medium 达到与 o1 相当的表现。o3-mini-high 超过了 o1-mini 和 o1,上图中灰色阴影区域为 64 个样本的多数投票(共识)。
博士级科学问题(GPQA Diamond):

博士极科学问题:o3-mini-low 的表现优于 o1-mini。o3-mini-high 的表现与 o1 相当,在博士级生物学、化学和物理问题上都显示出显著进步。
研究级数学(FrontierMath):

研究级数学:o3-mini-high 在 FrontierMath 上的表现优于其前代产品。使用 Python 工具时,o3-mini-high 能够在首次尝试时解决超过 32% 的问题,包括超过 28% 的具有挑战性的(T3)问题。
Health AI健康云开放平台
专注于健康医疗垂直领域的AI技术开放平台
113
查看详情
竞赛编程(Codeforces):

在 Codeforces 编程中, o3-mini 随着推理努力级别的提高获得了越来越高的 Elo 分数,均优于 o1-mini。o3-mini-medium 达到了与 o1 相当的表现。
软件工程(SWE-bench Verified):

软件工程:o3-mini 是 OpenAI 发布的在 SWEbench-verified 上表现最好的模型。o3-mini-high 使用开源 Agentless 框架可达到 39% 的准确率,使用内部工具可达到 61% 的准确率。
LiveBench 编码:

LiveBench 编码:即便是 o3-mini-medium 也超过了 o1-high,突显了其在编码任务中的效率。o3-mini-high 进一步扩大了领先优势,在关键指标上取得了显著更强的表现。
普通知识问题:

普通知识问题:o3-mini 在各个一般性知识领域的评估中都优于 o1-mini。
人类偏好评估:

人类偏好评估:外部专家测试人员的评估显示, o3-mini 产生的答案比 o1-mini 更准确、更清晰,推理能力更强,特别是在 STEM 领域。测试人员在 56% 的情况下更偏好 o3-mini 的响应,并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。
模型速度和性能
o3-mini 在保持与 OpenAI o1 相当的智能水平的同时,提供了更快的性能和更高的效率。除了上述 STEM 评估外,o3-mini-medium 的其他数学和事实性评估中也展现出优越的结果。在 A/B 测试中,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 为 10.16 秒。

延迟:o3-mini 的首个 token 生成时间平均比 o1-mini 快 2500 毫秒。
安全
OpenAI 教导 o3-mini 安全响应的主要技术之一是审慎对齐(deliberative alignment),这种对齐方式训练模型在回答用户提示之前,先对人工编写的安全规范进行充分的思考和推理。与 OpenAI o1 类似,研究人员发现 o3-mini 在具有挑战性的安全性和越狱评估上显著超越了 GPT-4o。在部署之前,OpenAI 使用了与 o1 相同的准备方法、外部红队测试和安全性评估来仔细评估 o3-mini 的安全风险。
违规内容评估结果

越狱评估结果

未来展望
OpenAI o3-mini 的发布标志着 OpenAI 在推进高性价比智能方面又迈出了一步。通过优化 STEM 领域的推理能力,同时保持低成本,OpenAI 正在使高质量 AI 变得更加容易获取。该模型延续了其降低智能成本的记录 —— 自 GPT-4 推出以来,每个 token 的定价降低了 95%—— 同时保持顶级推理能力。随着 AI 应用的扩展,OpenAI 仍然致力于在前沿领域引领,构建即使在大规模部署和使用的情况下,也能保持智能、效率与安全平衡的模型。
以上就是奥特曼被逼急:深夜上线 o3-mini,甚至免费,网友:还是选DeepSeek的详细内容,更多请关注其它相关文章!
# openai
# 情况下
# 多家
# 最具
# 奥特曼
# 首次
# 更强
# 这是
# 进阶
# 软件工程
# Type
# ChatGPT
# DeepSeek
# ai
# qq
# python
# o3-mini
# 工程
# 工作流
# phpstudy建设网站教程
# 网站优化推广方案下载
# 庐江seo优化费用
# 海城网站搜索引擎优化
# 晋江网站建设优惠价
# 赣州网站推广品牌招聘
# 恩施网站建设工作
# 青岛知名网站建设厂家
# 巢湖网站搜索优化
# 汉中抖音seo排名收费
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
0代码微调大模型火了,只需5步,成本低至150块
AI新风口?首个高质量「文生视频」模型Zeroscope引发开源大战:最低8G显存可跑
配 3D 机器人头像,谷歌展示全新安卓 LOGO
人工智能在项目管理中的作用
650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了
令人震惊的特斯拉机器人
「社交达人」GPT-4!解读表情、揣测心理全都会
人工智能进入绿植界,智能庭院市场初具规模
物联网“僵尸网络DDos攻击”增长惊人,威胁全球电信网络
上海发布大模型政策 打造AI“模”都
金山办公宣布与英伟达团队合作,加速WPS AI服务
鸿蒙4即将支持大规模AI模型
优化系统韧性:故障恢复与监控在RabbitMQ中的应用
高质量数据推动AI场景化应用快速发展及落地
管提需求,大模型解决问题:图表处理神器SheetCopilot上线
RoboNeo什么时候上线
鸿蒙智能座舱的AI大模型革新,引领智能座舱领域的变革吗?
机器人加速!稀土永磁也被带火,持续性如何?
自然语言生成在智能家居设备中的应用
探展WAIC | 第四范式“式说”聚焦toB大模型,布局生成式AI重构企业软件
Ai智能机器人,chat-免注册登入,直接使用新版gpt4.0!
实践J*a开发,构建高性能的MongoDB数据迁移工具
人工智能:解决劳动力短缺的关键策略
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
OpenAI 已全面开放 GPT-3.5 Turbo、DALL-E 及 Whisper API
微软 Azure AI 文本转语音服务升级:新增男性声音和扩展语言支持
喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新
解决导航“最后50米”难题 高德地图升级AR步行导航找终点功能
日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病
AI证件照生成器:实际测试中AI软件展现了绝无仅有的强大效能
如何对员工进行再培训以充分利用供应链管理中的人工智能创新
鹅厂机器狗抢起真狗「饭碗」!会撒欢儿做游戏,遛人也贼6
田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘
工业机器人及非标自动化设备集成服务提供商
全国青少年无人机大赛重庆市选拔赛开赛 1252名中小学生参加
业内领先 四川大学华西第四医院甲状腺乳腺外科成功进入手术机器人时代
周鸿祎:用超级AI实现室温超导和核聚变,实现能源自由
1分钟做出苹果Vision Pro「官网」?上班8小时搞出480个网页,同事被卷疯了
严打“黑飞”,无人机检测反制设备护航大运会净空安全
乐天派桌面机器人加入小米米家生态系统,实现与其他智能设备的互联
如何用户外电源给无人机实现持久续航
首届全国体育人工智能大会在首都体育学院召开
智能机器人与话剧的完美结合:宇树四足机器人B1助力《骆驼祥子》重现经典
谷歌推出 AI 反洗钱工具,可将金融机构内部风险预警准确率提高2至4倍
“图壤·阅读元宇宙”亮相北京国际图书博览会
2025年深圳举办的SUSECON 创新峰会开始接受报名
杀入生成式AI的亚马逊云科技,能否再次生成未来?
导演郭帆:人工智能应用可能会影响《流浪地球 3》的创作开发
小米首次曝光 64 亿参数的 MiLM-6B AI 大模型,或将应用于小爱同学
广州团建公司方案 | 绝密飞行 → X-PLANE无人机团建主题团建
2025-02-01
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。