首页 > 营销学院 > IT资讯

如何从头开始编写LoRA代码，这有一份教程

LoRA（Low-Rank Adaptation）是一项流行的技术，旨在微调大语言模型（LLM）。这项技术最初由微软的研究人员提出，并收录在《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》的论文中。LoRA与其他技术不同之处在于，并非调整神经网络的所有参数，而是专注于更新少量低秩矩阵，从而显著减少了训练模型所需的计算量。

由于 LoRA 的微调质量与全模型微调相当，很多人将这种方法称为微调神器。自发布以来，很多人对这项技术感到好奇，希望通过编写代码来更好地理解这一研究。以往，缺乏适当的文档说明一直是一个困扰，但现在，我们有了教程的帮助。

这篇教程的作者是知名机器学习与 AI 研究者 Sebastian Raschka，他表示在各种有效的 LLM 微调方法中，LoRA 仍然是自己的首选。为此，Sebastian 专门写了一篇博客《Code LoRA From Scratch》，从头开始构建 LoRA，在他看来，这是一种很好的学习方法。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

本文通过从头编写代码的方式介绍低秩自适应（LoRA），Sebastian在实验中对DistilBERT模型进行微调，并将其应用于分类任务。

LoRA方法与传统微调方法的比较结果表明，LoRA方法在测试准确率方面达到了92.39％，这比仅对模型最后几层进行微调（86.22％的测试准确率）表现出更优异的性能。这表明LoRA方法在优化模型性能方面具有明显优势，能够更好地提升模型的泛化能力和预测准确性。这个结果强调了在模型训练和调优过程中采用先进的技术和方法的重要性，以获得更好的性能表现和结果。通过比

Sebastian 是如何实现的，我们接着往下看。

从头开始编写 LoRA

用代码的方式表述一个 LoRA 层是这样的：

如何从头开始编写LoRA代码，这有一份教程

其中，in_dim 是想要使用 LoRA 修改的层的输入维度，与此对应的 out_dim 是层的输出维度。代码中还添加了一个超参数即缩放因子 alpha，alpha 值越高意味着对模型行为的调整越大，值越低则相反。此外，本文使用随机分布中的较小值来初始化矩阵 A，并用零初始化矩阵 B。

值得一提的是，LoRA 发挥作用的地方通常是神经网络的线性（前馈）层。举例来说，对于一个简单的 PyTorch 模型或具有两个线性层的模块（例如，这可能是 Transformer 块的前馈模块），其前馈（forward）方法可以表述为：

如何从头开始编写LoRA代码，这有一份教程

在使用 LoRA 时，通常会将 LoRA 更新添加到这些线性层的输出中，又得到代码如下：

如何从头开始编写LoRA代码，这有一份教程

如果你想通过修改现有 PyTorch 模型来实现 LoRA ，一种简单方法是将每个线性层替换为 LinearWithLoRA 层：

如何从头开始编写LoRA代码，这有一份教程

以上这些概念总结如下图所示：

如何从头开始编写LoRA代码，这有一份教程

为了应用 LoRA，本文将神经网络中现有的线性层替换为结合了原始线性层和 LoRALayer 的 LinearWithLoRA 层。

如何上手使用 LoRA 进行微调

LoRA 可用于 GPT 或图像生成等模型。为了简单说明，本文采用一个用于文本分类的小型 BERT（DistilBERT）模型来说明。

如何从头开始编写LoRA代码，这有一份教程

由于本文只训练新的 LoRA 权重，因而需要将所有可训练参数的 requires_grad 设置为 False 来冻结所有模型参数：

如何从头开始编写LoRA代码，这有一份教程

接下来，使用 print (model) 检查一下模型的结构：

如何从头开始编写LoRA代码，这有一份教程

由输出可知，该模型由 6 个 transformer 层组成，其中包含线性层：

如何从头开始编写LoRA代码，这有一份教程

此外，该模型有两个线性输出层：

如何从头开始编写LoRA代码，这有一份教程

通过定义以下赋值函数和循环，可以选择性地为这些线性层启用 LoRA：

如何从头开始编写LoRA代码，这有一份教程

使用 print (model) 再次检查模型，以检查其更新的结构：

如何从头开始编写LoRA代码，这有一份教程

正如上面看到的，线性层已成功地被 LinearWithLoRA 层取代。

如果使用上面显示的默认超参数来训练模型，则会在 IMDb 电影评论分类数据集上产生以下性能：

训练准确率：92.15%
验证准确率：89.98%
测试准确率：89.44%

在下一节中，本文将这些 LoRA 微调结果与传统微调结果进行了比较。

与传统微调方法的比较

在上一节中，LoRA 在默认设置下获得了 89.44% 的测试准确率，这与传统的微调方法相比如何？

为了进行比较，本文又进行了一项实验，以训练 DistilBERT 模型为例，但在训练期间仅更新最后 2 层。研究者通过冻结所有模型权重，然后解冻两个线性输出层来实现这一点：

如何从头开始编写LoRA代码，这有一份教程

只训练最后两层得到的分类性能如下：

训练准确率：86.68%
验证准确率：87.26%
测试准确率：86.22%

结果显示，LoRA 的表现优于传统微调最后两层的方法，但它使用的参数却少了 4 倍。微调所有层需要更新的参数比 LoRA 设置多 450 倍，但测试准确率只提高了 2%。

优化 LoRA 配置

前面讲到的结果都是 LoRA 在默认设置下进行的，超参数如下：

如何从头开始编写LoRA代码，这有一份教程

假如用户想要尝试不同的超参数配置，可以使用如下命令：

如何从头开始编写LoRA代码，这有一份教程

不过，最佳超参数配置如下：

如何从头开始编写LoRA代码，这有一份教程

在这种配置下，得到结果：

验证准确率：92.96%
测试准确率：92.39%

值得注意的是，即使 LoRA 设置中只有一小部分可训练参数（500k VS 66M），但准确率还是略高于通过完全微调获得的准确率。

原文链接：https://lightning.ai/lightning-ai/studios/code-lora-from-scratch?cnotallow=f5fc72b1f6eeeaf74b648b2aa8aaf8b6

Machine Translation

聚合多个来源的AI翻译

49 查看详情 Machine Translation

以上就是如何从头开始编写LoRA代码，这有一份教程的详细内容，更多请关注其它相关文章！

# 两层 # 线上推广营销有用吗 # seo增长面试 # 营销团队是要负责推广吗 # 网站推广怎么做的比较好 # 西藏seo推广怎么操作 # 运动ip营销推广案例 # 青岛手机网站建设费用 # 上海短视频seo代理 # 海口论坛营销推广费用 # 网站推广有哪些模式 # 进行了 # ai # 与传统 # 上海 # 来实现 # 文档 # 谁能 # 的是 # 开源 # 这有 # udio # 训练

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2024-03-20

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。