开源羊驼大模型llama上下文追平gpt-4,只需要一个简单改动!
Meta AI这篇刚刚提交的论文表示,LLaMA上下文窗口从2k扩展到32k后只需要小于1000步的微调。
与预训练相比,成本忽略不计。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
扩展上下文窗口,就意味着AI的“工作记忆”容量增加,具体来说可以:
更重要的意义在于,所有基于LLaMA的羊驼大模型家族岂不是可以低成本采用此方法,集体进化?
羊驼是目前综合能力最强的开源基础模型,已经衍生出不少完全开源可商用大模型和垂直行业模型。

论文通信作者田渊栋也激动地在朋友圈分享这一新进展。

新方法名为位置插值(Position Interpolation),对使用RoPE(旋转位置编码)的大模型都适用。
RoPE早在2025年就由追一科技团队提出,到现在已成为大模型最常见的位置编码方法之一。

但在此架构下直接使用外推法(Extrapolation)扩展上下文窗口,会完全破坏自注意力机制。
具体来说,超出预训练上下文长度之外的部分,会使模型困惑度(perplexity)飙升至和未经训练的模型相当。
新方法改成线性地缩小位置索引,扩展前后位置索引和相对距离的范围对齐。

用图表现二者的区别更加直观。

实验结果显示,新方法对从7B到65B的LLaMA大模型都有效。
在长序列语言建模(Long Sequence Language Modeling)、密钥检索(Passkey Retrieval)、长文档摘要(Long Document Summarization)中性能都没有明显下降。

除了实验之外,论文附录中也给出了对新方法的详细证明。
ChatGPT Writer
免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。
106
查看详情

上下文窗口曾经是开源大模型与商业大模型之间一个重要差距。
比如OpenAI的GPT-3.5最高支持16k,GPT-4支持32k,AnthropicAI的Claude更是高达100k。
与此同时许多开源大模型如LLaMA和Falcon还停留在2k。
现在,Meta AI的新成果直接把这一差距抹平了。
扩展上下文窗口也是近期大模型研究的焦点之一,除了位置插值方法之外,还有很多尝试引起业界关注。
1、开发者kaiokendev在一篇技术博客中探索了一种将LLaMa上下文窗口扩展到8k的方法。

2、数据安全公司Soveren机器学习负责人Galina Alperovich在一篇文章中总结了扩展上下文窗口的6个技巧。

3、来自Mila、IBM等机构的团队还在一篇论文中尝试了在Tran
sformer中完全去掉位置编码的方法。

有需要的小伙伴可以点击下方链接查看~
Meta论文:https://www.php.cn/link/0bdf2c1f053650715e1f0c725d754b96
Extending Context is Hard…but not Impossiblehttps://www.php.cn/link/9659078925b57e621eb3f9ef19773ac3
The Secret Sauce behind 100K context window in LLMshttps://www.php.cn/link/09a630e07af043e4cae879dd60db1cac
无位置编码论文https://www.php.cn/link/fb6c84779f12283a81d739d8f088fc12
以上就是羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品的详细内容,更多请关注其它相关文章!
# 文档
# 海南网站建设贵吗
# 网站推广好还是sem好
# 南极人邮件营销推广
# seo1068
# 有效网站推广的公司
# 湛江网站建设地方在哪
# 关键词网站推广文案
# 竞价对seo有什么影响
# 北京网站运营推广营销
# 公司推广营销效果
# 扩展到
# 上海
# 大模型
# 只需要
# 腾讯
# 丰田
# 这一
# 中国科学院
# 开源
# 追平
# perplexity
# llama
# claude
# 集体进化
# 羊驼家族
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
谷歌StyleDrop在可控性上卷翻MidJourney,前GitHub CTO用AI颠覆编程
日本学校探索引入 AI 和无人机:提高安保效率,节省劳动力
官宣!爱康AI未来之夜三大亮点提前剧透!
大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务
Snap宣布研发出新技术 可大幅提升AI生成图像速度
人工智能“Aria”现身 Opera浏览器100版本更新:新功能“标签岛”
微软在德国举办MR研讨会,向女性分享元宇宙潜力
华为发布大模型时代AI存储新品
字节、网易相继入局,AI之后大厂又找到下一个风口?
张朝阳与陆川谈AI:ChatGPT是鹦鹉学舌思维,不可能取代人类 | 把脉AI大模型
当一个网站的内容被 AI 完全接管
山东机器人编程:Scratch编程基础,认识舞台!~济南机器人编程
280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
生成式人工智能进入产业应用!但再“聪明”仍是工具,最终目的是服务于人
首个算网生态体!中国移动元宇宙产业联盟正式成立
阿里云推出通义万相AI绘画大模型
Snow Kylin登陆中国列车,打造全球首条元宇宙专列
谷歌借AI打破十年排序算法封印,每天被执行数万亿次,网友却说是最不切实际的研究?
大模型训练成本降低近一半!新加坡国立大学最新优化器已投入使用
从数据中心到发电站:人工智能对能源使用的影响
2025世界人工智能大会(上海)开幕式纪要
长宁这家企业在世界人工智能大会上荣获“蓝鼎奖”
13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了
微软推出人工智能模型 CoDi,可互动和生成多模态内容
第四范式“式说”大模型入选《2025年通用人工智能创新应用案例集》
第 66 届格莱美奖规定,AI 作品将无法获得评奖资格
RoboNeo操作教程
黄仁勋:5年前,我们对AI抱有巨大期望
实测 AI 建筑设计软件的自动生成效果图能力
特斯拉 Optimus 人形机器人入驻北美门店,帮助提升汽车销量
Adobe旗下Illustrator引入生成式AI工具Firefly
AI技术改变*,新骗局来袭,*成功率接近100%
AI大模型紫东太初已被注册商标 中科院已注册紫东太初大模型商标
AI赋能艺术 超现实达利奇幻之旅在沪开启
云深处与昇腾CANN携手合作:开设ROS四足机器狗开发训练营
中国气象局预测:到 2030 年,中国人工智能气象应用将达到国际领先水平
国网辉南供电:无人机空中巡检 全力护航端午佳节
AI大模型,将为智慧城市带来哪些新变化?
OpenAI 为开发者推出 GPT 聊天机器人 API 大更新,同时降低价格
助力人工智能产业高质量发展 龙岗区算法训练基地正式启用
明略科技发布免费开源TensorBoard.cpp,促进大型模型的预训练工作
放弃自动驾驶,也是一种和解
常见的五个人工智能误解
人工智能在重症监护室的未来
鉴智机器人发布基于地平线征程5的标准视觉感知产品
25个AI智能体源码现已公开,灵感来自斯坦福的「虚拟小镇」和《西部世界》
生成式AI引路产业加速来袭,微美全息探索“AIGC+虚拟人”融合应用
盘古大模型3.0正式发布 AI开发正走向新“工业化开发模式”
30+大模型齐聚,大模型成世界人工智能大会“顶流”
2023-06-28
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。