首页 > 营销学院 > IT资讯

吴恩达力赞！哈佛、MIT学者用下棋证明：大型语言模型确实「理解」了世界

2025年，华盛顿大学语言学家Emily M. Bender发表了一篇论文，认为大型语言模型不过是「随机鹦鹉」（stochastic parrots）而已，它们并不理解真实世界，只是统计某个词语出现的概率，然后像鹦鹉一样随机产生看起来合理的字句。

由于神经网络的不可解释性，学术界也弄不清楚语言模型到底是不是随机鹦鹉，各方观点差异分歧极大。

由于缺乏广泛认可的测试，模型是否能「理解世界」也成为了哲学问题而非科学问题。

最近，来自哈佛大学、麻省理工学院的研究人员共同发表了一项新研究Othello-GPT，在简单的棋盘游戏中验证了内部表征的有效性，他们认为语言模型的内部确实建立了一个世界模型，而不只是单纯的记忆或是统计，不过其能力来源还不清楚。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接：https://arxiv.org/pdf/2210.13382.pdf

实验过程非常简单，在没有任何奥赛罗规则先验知识的情况下，研究人员发现模型能够以非常高的准确率预测出合法的移动操作，捕捉棋盘的状态。

吴恩达在「来信」栏目中对该研究表示高度认可，他认为基于该研究，有理由相信大型语言模型构建出了足够复杂的世界模型，在某种程度上来说，确实理解了世界。

吴恩达力赞！哈佛、MIT学者用下棋证明：大型语言模型确实「理解」了世界

博客链接：https://www.deeplearning.ai/the-batch/does-ai-understand-the-world/

不过吴恩达也表示，虽然哲学很重要，但这样的争论可能会无休无止，所以不如编程去吧！

棋盘世界模型

如果把棋盘想象成一个简单的「世界」，并要求模型在对局中不断决策，就可以初步测试出序列模型是否能够学习到世界表征。

吴恩达力赞！哈佛、MIT学者用下棋证明：大型语言模型确实「理解」了世界

研究人员选择一个简单的黑白棋游戏奥赛罗（Othllo）作为实验平台，其规则是在8*8棋盘的中心位置，先放入四个棋子，黑白各两个；然后双方轮流下子，在直线或斜线方向，己方两子之间的所有敌子（不能包含空格）全部变为己子（称为吃子），每次落子必须有吃子；最后棋盘全部占满，子多者为胜。

相比国际象棋来说，奥赛罗的规则简单得多；同时棋类游戏的搜索空间足够大，模型无法通过记忆完成序列生成，所以很适合测试模型的世界表征学习能力。

Othello语言模型

研究人员首先训练了一个GPT变体版语言模型（Othello-GPT），将游戏脚本（玩家做出的一系列棋子移动操作）输入到模型中，但模型没有关于游戏及相关规则的先验知识。

模型也没有被明确训练以追求策略提升、赢得对局等，只是在生成合法奥赛罗移动操作时准确率比较高。

数据集

研究人员使用了两组训练数据：

锦标赛（Championship）更关注数据质量，主要是从两个奥赛罗锦标赛中专业的人类玩家采用的、更具战略思考的移动步骤，但分别只收集到7605个和132921个游戏样本，两个数据集合并后以8：2的比例随机分成训练集（2000万个样本）和验证集（379.6万个）。

合成（Synthetic）更关注数据的规模，由随机的、合法的移动操作组成，数据分布不同于锦标赛数据集，而是均匀地从奥赛罗游戏树上采样获得，其中2000万个样本用于训练，379.6万个样本用于验证。

每场游戏的描述由一串token组成，词表大小为60（8*8-4）

模型和训练

模型的架构为8层GPT模型，具有8个头，隐藏维度为512

模型的权重完全随机初始化，包括word embedding层，虽然表示棋盘位置的词表内存在几何关系（如C4低于B4），但这种归纳偏置并没有明确表示出来，而是留给模型学习。

预测合法移动

模型的主要评估指标就是模型预测的移动操作是否符合奥赛罗的规则。

在合成数据集上训练的Othello-GPT错误率为0.01%，在锦标赛数据集上的错误率为5.17%，相比之下，未经训练的Othello-GPT的错误率为93.29%，也就是说这两个数据集都一定程度上让模型学会了游戏规则。

一个可能的解释是，模型记住了奥赛罗游戏的所有移动操作。

为了验证这个猜想，研究人员合成了一个新的数据集：在每场比赛开始时，奥赛罗有四种可能的开局棋位置（C5、D6、E3和F4），将所有C5开局的走法移除后作为训练集，再将C5开局的数据作为测试，也就是移除了近1/4的博弈树，结果发现模型错误率仍然只有0.02%

所以Othello-GPT的高性能并不是因为记忆，因为测试数据是训练过程中完全没见过的，那到底是什么让模型成功预测？

探索内部表征

一个常用的神经网络内部表征探测工具就是探针（probe），每个探针是一个分类器或回归器，其输入由网络的内部激活组成，并经过训练以预测感兴趣的特征。

在这个任务中，为了检测Othello-GPT的内部激活是否包含当前棋盘状态的表征，输入移动序列后，用内部激活向量对下一个移动步骤进行预测。

当使用线性探针时，训练后的Othello-GPT内部表征只比随机猜测的准确率高了一点点。

吴恩达力赞！哈佛、MIT学者用下棋证明：大型语言模型确实「理解」了世界

当使用非线性探针（两层MLP）时，错误率大幅下降，证明了棋盘状态并不是以一种简单的方式存储在网络激活中。

吴恩达力赞！哈佛、MIT学者用下棋证明：大型语言模型确实「理解」了世界

干预实验

为了确定模型预测和涌现世界表征之间的因果关系，即棋盘状态是否确实影响了网络的预测结果，研究人员进行了一组干预（intervention）试验，并测量由此产生的影响程度。

给定来自Othello-GPT的一组激活，用探针预测棋盘状态，记录相关联的移动预测，然后修改激活，让探针预测更新的棋盘状态。

吴恩达力赞！哈佛、MIT学者用下棋证明：大型语言模型确实「理解」了世界

干预操作包括将某个位置的棋子从白色变成黑色等，一个小的修改就会导致模型结果发现内部表征能够可靠地完成预测，即内部表征与模型预测之间存在因果影响。

可视化

除了干预实验验证内部表征的有效性外，研究人员还将预测结果可视化，比如说对于棋盘上的每个棋子，可以询问模型如果用干预技术将该棋子改变，模型的预测结果将如何变化，对应预测结果的显著性。

然后根据当前棋盘状态的top1预测的显著性对牌进行着色可视化，因为绘制出来的图是基于网络的潜空间而输入，所以也可以叫做潜在显著性图（latent saliency map）。

吴恩达力赞！哈佛、MIT学者用下棋证明：大型语言模型确实「理解」了世界

可以看到，在合成和锦标赛数据集上训练的Othello-GPTs的top1预测的潜显著性图中都展现出了清晰的模式。

合成版Othello-GPT在合法操作位置中显示出了更高的显著性值，非法操作的显著性值明显更低，稍微有点经验的棋手都能看出模型的意图；

锦标赛版的显著图更复杂，虽然合法操作位置的显著性值比较高，但其他位置也显示出较高的显著性，可能是因为奥赛罗高手考虑更多的是全局特征。

以上就是吴恩达力赞！哈佛、MIT学者用下棋证明：大型语言模型确实「理解」了世界的详细内容，更多请关注其它相关文章！

# 麻省理工学院 # 推广外包专注乐云seo # 福州省心的seo公司 # 上海网站建设价格大全 # 鹤壁免费企业网站推广 # 吉安网络营销seo # 品牌的营销推广语言 # 德州营销推广策划价格 # 短视频营销怎么推广 # seo如何兼职 # 鄂州网站建设的好处 # 上海 # ai # 谁能 # 率为 # 较高 # 万个 # 出了 # 开源 # 奥赛罗 # 哈佛 # deepl # 训练

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2023-09-15

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。