开源羊驼大模型llama上下文追平gpt-4,只需要一个简单改动!
Meta AI这篇刚刚提交的论文表示,LLaMA上下文窗口从2k扩展到32k后只需要小于1000步的微调。
与预训练相比,成本忽略不计。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
扩展上下文窗口,就意味着AI的“工作记忆”容量增加,具体来说可以:
更重要的意义在于,所有基于LLaMA的羊驼大模型家族岂不是可以低成本采用此方法,集体进化?
羊驼是目前综合能力最强的开源基础模型,已经衍生出不少完全开源可商用大模型和垂直行业模型。

论文通信作者田渊栋也激动地在朋友圈分享这一新进展。

新方法名为位置插值(Position Interpolation),对使用RoPE(旋转位置编码)的大模型都适用。
RoPE早在2025年就由追一科技团队提出,到现在已成为大模型最常见的位置编码方法之一。

但在此架构下直接使用外推法(Extrapolation)扩展上下文窗口,会完全破坏自注意力机制。
具体来说,超出预训练上下文长度之外的部分,会使模型困惑度(perplexity)飙升至和未经训练的模型相当。
新方法改成线性地缩小位置索引,扩展前后位置索引和相对距离的范围对齐。

用图表现二者的区别更加直观。

实验结果显示,新方法对从7B到65B的LLaMA大模型都有效。
在长序列语言建模(Long Sequence Language Modeling)、密钥检索(Passkey Retrieval)、长文档摘要(Long Document Summarization)中性能都没有明显下降。

除了实验之外,论文附录中也给出了对新方法的详细证明。
ChatGPT Writer
免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。
106
查看详情

上下文窗口曾经是开源大模型与商业大模型之间一个重要差距。
比如OpenAI的GPT-3.5最高支持16k,GPT-4支持32k,AnthropicAI的Claude更是高达100k。
与此同时许多开源大模型如LLaMA和Falcon还停留在2k。
现在,Meta AI的新成果直接把这一差距抹平了。
扩展上下文窗口也是近期大模型研究的焦点之一,除了位置插值方法之外,还有很多尝试引起业界关注。
1、开发者kaiokendev在一篇技术博客中探索了一种将LLaMa上下文窗口扩展到8k的方法。

2、数据安全公司Soveren机器学习负责人Galina Alperovich在一篇文章中总结了扩展上下文窗口的6个技巧。

3、来自Mila、IBM等机构的团队还在一篇论文中尝试了在Tran
sformer中完全去掉位置编码的方法。

有需要的小伙伴可以点击下方链接查看~
Meta论文:https://www.php.cn/link/0bdf2c1f053650715e1f0c725d754b96
Extending Context is Hard…but not Impossiblehttps://www.php.cn/link/9659078925b57e621eb3f9ef19773ac3
The Secret Sauce behind 100K context window in LLMshttps://www.php.cn/link/09a630e07af043e4cae879dd60db1cac
无位置编码论文https://www.php.cn/link/fb6c84779f12283a81d739d8f088fc12
以上就是羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品的详细内容,更多请关注其它相关文章!
# 文档
# 海南网站建设贵吗
# 网站推广好还是sem好
# 南极人邮件营销推广
# seo1068
# 有效网站推广的公司
# 湛江网站建设地方在哪
# 关键词网站推广文案
# 竞价对seo有什么影响
# 北京网站运营推广营销
# 公司推广营销效果
# 扩展到
# 上海
# 大模型
# 只需要
# 腾讯
# 丰田
# 这一
# 中国科学院
# 开源
# 追平
# perplexity
# llama
# claude
# 集体进化
# 羊驼家族
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
Adobe旗下Illustrator引入生成式AI工具Firefly
人工智能正在弥合认知和表达之间的鸿沟
斑马推出全新升级版思维机:以人工智能为核心的交互式学习体验
英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-3的大模型训练
Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下
如布AI口袋学习机S12 将亮相综艺节目《好样的!国货》
马斯克预测:特斯拉全自动驾驶将在今年实现 对AI深度变化感到担忧
中国电信AI能力通过国家级金融领域权威认证并荣膺AI国际头部竞赛冠军
周鸿祎参加中美青年科技创新峰会,分享人工智能创新机遇
猿辅导推出Motiff,整合三大AI功能,助力UI设计生产力革新
以计算机视觉技术为基础的库存管理如何改革零售行业
大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战
揭晓2025年玻尔兹曼奖:Hopfield网络创始人荣获奖项
深剖Apple Vision Pro中暗藏的“AI”
QQ音乐业内率先推出「AI一起听」功能,领取你的AI听歌助手
AI无法对传统文化符号进行解构和创新
人工智能和你聊天 成本有多高
美图设计室2.0新增哪些功能
GPT-4最全攻略来袭!OpenAI官方发布,六个月攒下来的使用经验都在里面了
丰田汽车研究院推出生成式人工智能汽车设计工具
开创全新虚拟现实体验的Pimax Crystal VR头显
OpenAI CEO 山姆・阿尔特曼呼吁 AI 领域中美应当合作
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
OpenAI宣布在伦敦设立海外分部,要招揽“世界级人才”
数据显示:人工智能相关专业热度上升最快 考古、美术、生物医学工程等小众专业火了
布局智能物联新时代,中国移动“5G+物联网”亮相2025 MWC
人工智能加速走进百姓生活:从2025全球人工智能技术大会看行业新趋势
日本学校探索引入 AI 和无人机:提高安保效率,节省劳动力
小岛秀夫不反对使用AI 但认为人类应该凌驾于AI
AI在教育中的角色:AI如何改变我们的学习方式
无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA
参考封面|人工智能“淘金热”
苹果推出全新沉浸式 AR 体验应用“Deep Field”
笔神作文声讨学而思AI大模型 称用“爬虫”技术盗取数据
2025世界人工智能大会(上海)开幕式纪要
中国联通推出“极光一号”5G机载终端,适配大疆等品牌无人机设备
人工智能助力精准学习,猿辅导小猿学练机满足学生个性化学习需求
7大探索区域打造沉浸式玩乐“元宇宙” 昆明京东MALL未来科技探索官全城招募中
GPT-4是如何工作的?哈佛教授亲自讲授
北京市通用人工智能产业创新伙伴计划名单公布,京东科技入选“算力伙伴”
华为即将推出HarmonyOS 4,再度领先行业的AI技术
推动企业数字化转型升级!“松江智造”摘世界人工智能大会重磅奖项
AI会帮我们把活干完吗?
微软bing聊天推出AI购物工具 可进行比价并查看历史最低价
华为将于 7 月发布面向 AI 大模型的新款存储产品
Valve 将拒绝采用 AI 生成未知版权内容的游戏上架 Steam
深企派遣无人机救援队赴京津冀开展防汛救灾任务
华为昇腾AI原生支持30多种基础大模型,包括GPT
云鲸发布全新的扫拖机器人J4系列
阿里大文娱CTO郑勇:生成式AI将引发内容行业巨变,*制作机会挑战并存
2023-06-28
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。