LLM的「母语」是什么?


大语言模型的「母语」是什么?

我们的第一反应很可能是:英语。

但事实果真如此吗?尤其是对于能够听说读写多种语言的LLM来说。

对此,来自EPFL(洛桑联邦理工学院)的研究人员发表了下面这篇工作来一探究竟:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

LLM的「母语」是什么?图片

论文地址:https://arxiv.org/pdf/2402.10588

项目地址:https://github.com/epfl-dlab/llm-latent-language

作者以Llama2为对象,向我们展示了具有多语言能力的Transformer,是如何思考问题的。

像「羊驼」这种在英语区下长大的娃,他的「多语言」到底是本质属性,还是仅仅套了个翻译的壳?

这对于人们理解LLM的运行机制至关重要。

LLM的「母语」是什么?图片

要探究大模型的内心世界,虽然听起来有点复杂,但实际上一点也不简单。

研究人员在这里化繁为简,使用特定的提示来保证输出的唯一性,同时把Llama-2-7B的32层输出全部提取出来——一层一层一层的剥开她的心。

LLM的「母语」是什么?图片

于是,我们能在上图清楚地看到,羊驼在得到中文翻译(「花」)时的整个推理过程。

Transformer将输入token进行逐层映射,最终预测出下一个token,中间那些我们大概能理解或者不能理解的字符串,就是LLM使用的「内部语言」。

显然,在中间层的「思考」环节,羊驼用的是偏向于英语的某种神秘文字。

这里需要强调一下,这是羊驼的自发行为,因为提示中压根就没有一点英语!

LLM的「母语」是什么?图片

比如上图是其中的一个实验,构建了法语翻译中文的提示,且限制了正确答案只需1个token(花)。

而下图的统计显示:在Llama2的大部分前向传递中,正确中文token(蓝色)的概率远低于英文翻译(橙色)的概率。中文只在最后两层中占据主导地位。

LLM的「母语」是什么?图片

为了方便大家观察,作者还将嵌入在高维空间中的路径的可视化(实际是8192个维度,这里使用2D展示)。

从输入到输出,轨迹以红色开始,以紫色结束。我们可以看到,这些路径基本都是先绕道英语,然后才返回正确的中文。

LLM的「母语」是什么?图片

不过,这是否确实表明Llama2先用英文进行推理,然后将再其翻译成中文?

作者表示,比这更微妙一点。那些看起来像英语的中间嵌入实际上对应于抽象概念,而不是具体的英文token。

所以,一方面,Llama2内部的「通用语」不是英语,而是概念;

但另一方面,这些神秘字符又显然是偏向于英语的概念

因此,在语义上,而非纯粹的词汇意义上,英语确实可以被视为羊驼的「母语」。

网友:我早就发现了

有网友表示:恕我直言,不仅仅是羊驼系列,基本上所有LLM都是这样。

LLM的「母语」是什么?图片

「对于以英语为母语的人来说,这可能会令人惊讶,但对于其他人来说,这种倾向性是可见的,只不过有时多,有时少。」

「有时我会想LLM为什么要这样回答,然后我意识到这个答案在英语中更有意义。」

「这在诗歌中更是显而易见的。LLM写诗很漂亮,但通常没有押韵.——如果你把它翻译成英语,就押韵了。」

另一位网友表示,这是大模型带来的偏见,要小心了。

LLM的「母语」是什么?图片

「英语和中文最终将成为LLM提示和输出的最佳语言,而随着LLM的应用范围越来越广泛,世界其他语言将更加边缘化。」

模型表达空间的探索

当嵌入逐层转换时,它们会经历3个阶段:

1. 输入空间:模型消除分词器带来的影响。

2. 概念空间:嵌入进入一个抽象的概念空间中。

3. 输出空间:概念被映射回原本的表达形式。

FastGPT FastGPT

FastGPT 是一个基于 LLM 大语言模型的知识库问答系统

FastGPT 360 查看详情 FastGPT

LLM的「母语」是什么?图片

模型

实验专注于Llama-2系列语言模型。Llama-2系列模型在多语言语料库上进行训练,语料库主要由英语主导(占89.70%)。

不过考虑到总体训练数据的大小(2万亿个token),即使是一小部分非英语训练数据,绝对值仍然很大(德语占0.17%=3.4B,中文占0.13%=2.6B)。

Llama-2有7B/13B/70B三种尺寸,分别为32/40/80层,嵌入维度d=4096/5120/8192,词汇表V包含32,000个token。实验中使用8位量化探究这三种不同大小的模型。

实验

实验的目标是探索Llama-2的内部状态,是否与特定的自然语言相对应,这需要从token分布映射到语言。

为了规避许多token在语言方面上模棱两可的问题,研究人员构造了特殊的提示,限制token输出的唯一性,并且可以明确地归因于某一种语言。

翻译任务

将前面的非英语(例如法语)单词翻译成中文,示例如下,向模型展示四个单词,并带有正确的翻译,后跟第五个没有翻译的单词,让模型预测下一个token:

LLM的「母语」是什么?图片

重复任务

要求模型简单地重复最后一个单词,提示如下:

LLM的「母语」是什么?图片

完形填空任务

作为一项稍微困难的任务,模型需要预测句子中缺失的单词。给定一个目标单词,通过GPT-4构建一个以该单词开头的英语句子,屏蔽目标单词,并将该句子翻译成其他语言。英语示例如下:

LLM的「母语」是什么?图片

单词选择

为了实现明确的语言归属,研究人员为每种语言构建了一组封闭的单词。扫描Llama-2的词汇表,寻找具有单token英文翻译的单token中文单词(主要是名词)。

这样一来,Llama-2预测下一个中文单词的正确概率就可以直接从下一个token概率中读出。

保险起见,作者还在德语、法语和俄语上进行了相同的实验,总共测试了139个中文、104个德语、56个法语和115个俄语单词。三个任务的测试结果如下:

LLM的「母语」是什么?图片

上图表示Llama-2前向传递期间,每一层输出是英语还是中文的概率,三个任务分别为:(a)从德语/法语/俄语到中文的翻译任务,(b)中文重复任务,(c)中文完形填空任务。

误差线显示输入文本的95%高斯置信区间(翻译任务为353,重复任务和完形填空为139)。

8192D太空漫游

自回归Transformer是以增量方式求解的,每一层通过添加残差来修改前一层产生的潜在向量,这一过程在几何上可以描述为通过d维欧几里得空间的路径。

LLM的「母语」是什么?图片

为了建立直觉,首先考虑一个假设的极端情况,即token位于整个d维空间的适当子空间中。

如果latent embedding(h)具有与token子空间正交的分量,则表示预测中包含与h无关的信息。

研究人员采用h和token嵌入之间的均方余弦,来表示h的能量有多少转化为logit分数。为了可解释性,这里通过token嵌入本身的均方余弦进行归一化,得到h的平方token能量:

LLM的「母语」是什么?图片

在上面的球形示意图中,所有嵌入都位于原点周围的球体上。token嵌入位于赤道上,主要沿x轴分布,x轴捕获语言(左英文,右中文),y轴捕捉概念,z轴提供了额外的自由度,可用于存储有关上下文、语言等的信息。Transformer正向传递沿球体表面移动。

在第1阶段,latent embedding从北极开始,与输出token和概念嵌入正交。

阶段2旋转到概念空间中,英语token占据主导。

最后,第3阶段沿赤道旋转到目标语言的半球,产生输出token。

参考资料:

https://www.php.cn/link/31bb2feb402ac789507479daf9713b00

以上就是LLM的「母语」是什么?的详细内容,更多请关注其它相关文章!


# 英文  # 兴仁县关键词搜索排名  # 短视频营销推广常用方法  # 网站建设原因有哪些  # seo韩语怎么翻译的  # 福田网站优化哪家好用  # 南京网站建设方案维护  # 东宝seo推广哪家好  # 网站优化方案报价  # 优化网站推广技巧  # 手机端网站建设哪家好些  # 词汇表  # 都是  # llm  # 翻译成  # 开源  # 这是  # 俄语  # 德语  # 法语  # 英语  # follow  # llama  # git  # llama 2  # token 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 意大利警察拟用AI预测犯罪 该算法被指种族歧视严重  探展WAIC | 第四范式“式说”聚焦toB大模型,布局生成式AI重构企业软件  消息称 ChatGPT 未来有望增加更多功能:上传文件分析信息,还能记住用户画像  午报 | 字节跳动要造机器人;东方甄选首次启动自有APP|直播|  “世界人工智能之都”的新烦恼:AI热潮无法拉动大量就业  云鲸发布全新的扫拖机器人J4系列  【搞事】时隔4年 谷歌更新安卓logo 机器人头更饱满了  苹果机器学习关键人物 Ali Farhadi 离职,回归 AI2 担任 CEO  基于预训练模型的金融事件分析及应用  WHEE安装教程  游族AI创新院揭牌成立 推进AI赋能游戏业务  金山办公:AI是重要的产品战略之一  Meta发布音频AI模型,仅需2秒片段模拟真人语音  OpenAI CEO 山姆・阿尔特曼呼吁 AI 领域中美应当合作  生成式人工智能来了,如何保护未成年人? | 社会科学报  “踩油门,也要会踩刹车” 互联网企业高管谈人工智能发展  Meta 开源 AI 语言模型 MusicGen,可将文本和旋律转化为完整乐曲  衡水市冀州中学机器人社团在世界机器人大赛中斩获佳绩  AI+音乐如何“生成”动听旋律?一起揭秘世界人工智能大会开场曲  一文看懂被英伟达看中的九号机器人移动底盘  Databricks推出人工智能模型共享机制,可令开发者与公司“双赢”  「从未被制造出的最重要机器」,艾伦·图灵及图灵机那些事  小米又拿下国际比赛第一:AI翻译立功  AI 助手 Copilot 上线,微软 Win11 Dev 预览版 Build 23493 发布  加州用AI监测野火:1032个摄像头联网扫描森林异常  即时 AI再次升级 30秒生成自带动效的网页 生成速度提升100%  “图壤·阅读元宇宙”亮相北京国际图书博览会  科学家称,面对人工智能,人类未来或只有灭亡与虚拟永生两个选择  Gartner预测:到2025年,全球对话式人工智能支出预计将达到1860亿美元  鸿蒙生态带来了哪些新的流量可能性,包括AI、服务分发和原生智能等方面?  世界上第一个完全由人工智能驱动的图像编辑器!  《自然》杂志拒绝刊登人工智能生成的图片和视频  人工智能产业竞跑“未来赛道” 创新发展放大“赋能”效应  华为AI大模型将融入HarmonyOS 4  MIT开发“PhotoGuard”技术保护图像免遭恶意AI编辑  张朝阳与陆川谈AI:ChatGPT是鹦鹉学舌思维,不可能取代人类 | 把脉AI大模型  华为联合合作伙伴 共同发布昇腾AI大模型训推一体化解决方案  英国前首相:AI可能被用来制造“生物恐怖武器”  AI绘画,还需要懂数学?  上影节直击 | AI技术降低了短片拍摄门槛?金爵奖评委不赞同  企业软件行业更将被AI全面重构!Moka李国兴:未来优秀组织和个人将一定是善于使用AI生产力的  世界人工智能大会上,科大讯飞宣布与华为联手  WAIC 2025|云深处科技绝影Lite3与X20四足机器人亮相  7条线路感受智慧美好生活,“2025 世界人工智能大会民营企业社会开放日”主题活动启动  官宣!爱康AI未来之夜三大亮点提前剧透!  人工智能行业急缺人 AI人才年薪能达近42万元  小艺将具备大模型能力,鸿蒙4加速AI普及之路  关于开展“与AI共创未来”——2025年全国青少年人工智能创新实践活动的通知  网易数帆以AI融合创新引领数据分析与软件开发新趋势  如何获得元宇宙的第一个属于自己的空间 

 2024-06-03

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.