首页 > 营销学院 > IT资讯

S-LoRA：一个GPU运行数千大模型成为可能

一般情况下，大型语言模型的部署通常采用"预训练-微调"的方式。然而，当对多个任务（如个性化助手）进行基础模型的微调时，训练和服务的成本会变得非常高。低秩适配（LowRank Adaptation，LoRA）是一种高效的参数微调方法，通常用于将基础模型适配到多个任务上，从而生成大量派生的LoRA适配程序

重新写作：批量推理在服务过程中提供了许多机会，这种模式被证明可以通过微调适配器权重来实现与完全微调相当的性能。虽然这种方法可以实现低延迟的单个适配器推理和跨适配器的串行执行，但在同时为多个适配器提供服务时，会显著降低整体服务吞吐量并增加总延迟。因此，如何解决这些微调变体的大规模服务问题仍然未知

近期有来自UC伯克利、斯坦福等高校的研究人员在一篇论文中提出了一种被称为S-LoRA的新微调方法

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/pdf/2311.03285.pdf
项目地址：https://github.com/S-LoRA/S-LoRA

S-LoRA 是专为众多 LoRA 适配程序的可扩展服务而设计的系统，它将所有适配程序存储在主内存中，并将当前运行查询所使用的适配程序取到 GPU 内存中。

S-LoRA 提出了「统一分页」（Unified Paging）技术，即使用统一的内存池来管理不同等级的动态适配器权重和不同序列长度的 KV 缓存张量。此外，S-LoRA 还采用了新的张量并行策略和高度优化的定制 CUDA 内核，以实现 LoRA 计算的异构批处理。

这些功能允许S-LoRA以较小的成本在单个或多个GPU上为数千个LoRA适配器提供服务（同时为2000个适配器提供服务），并将额外的LoRA计算成本降至最低。相比之下，vLLM-packed需要维护多个权重副本，并且由于GPU内存限制，只能为少于5个适配器提供服务

与 HuggingFace PEFT 和 vLLM（仅支持 LoRA 服务）等最先进的库相比，S-LoRA 的吞吐量最多可提高 4 倍，服务的适配器数量可增加几个数量级。因此，S-LoRA 能够为许多特定任务的微调模型提供可扩展的服务，并为大规模定制微调服务提供了潜力。

S-LoRA：一个GPU运行数千大模型成为可能

S-LoRA包含三个主要创新部分。第四部分介绍了批处理策略，该策略用于分解base模型和LoRA适配器之间的计算。此外，研究人员还解决了需求调度的难题，包括适配器集群和准入控制等方面。跨并发适配器的批处理能力给内存管理带来了新的挑战。第五部分，研究人员将PagedAttention推广到Unfied Paging，支持动态加载LoRA适配器。这种方法使用统一的内存池以分页方式存储KV缓存和适配器权重，可以减少碎片并平衡KV缓存和适配器权重的动态变化大小。最后，第六部分介绍了新的张量并行策略，能够高效地解耦base模型和LoRA适配器

以下為重點內容：

批处理

对于单个适配器，Hu等人（2025）提出了一种推荐的方法，即将适配器权重与基础模型权重合并，从而得到一个新模型（参见公式1）。这样做的好处是，在推理过程中不会有额外的适配器开销，因为新模型的参数数量与基础模型相同。实际上，这也是LoRA工作最初的一个显著特点

S-LoRA：一个GPU运行数千大模型成为可能

本文指出，将 LoRA 适配器合并到 base 模型中对于多 LoRA 高吞吐量服务设置来说效率很低。取而代之的是，研究者建议实时计算 LoRA 计算 xAB（如公式 2 所示）。

在 S-LoRA 中，计算 base 模型被批处理，然后使用定制的 CUDA 内核分别执行所有适配器的附加 xAB。这一过程如图 1 所示。研究者没有使用填充和 BLAS 库中的批处理 GEMM 内核来计算 LoRA，而是实施了定制的 CUDA 内核，以便在不使用填充的情况下实现更高效的计算，实施细节在第 5.3 小节中。

S-LoRA：一个GPU运行数千大模型成为可能

如果将 LoRA 适配器存储在主内存中，它们的数量可能会很大，但当前运行批所需的 LoRA 适配器数量是可控的，因为批大小受 GPU 内存的限制。为了利用这一优势，研究者将所有的 LoRA 适配卡都存储在主内存中，并在为当前正在运行的批进行推理时，仅将该批所需的 LoRA 适配卡取到 GPU RAM 中。在这种情况下，可服务的适配器最大数量受限于主内存大小。图 2 展示了这一过程。第 5 节也讨论了高效管理内存的技术

S-LoRA：一个GPU运行数千大模型成为可能

内存管理

与为单个 base 模型提供服务相比，同时为多个 LoRA 适配卡提供服务会带来新的内存管理挑战。为了支持多个适配器，S-LoRA 将它们存储在主内存中，并将当前运行批所需的适配器权重动态加载到 GPU RAM 中。

在这个过程中，存在两个明显的挑战。首先是内存碎片问题，这是由于动态加载和卸载不同大小的适配器权重所导致的。其次是适配器加载和卸载所带来的延迟开销。为了有效解决这些问题，研究者提出了「统一分页」的概念，并通过预取适配器权重的方式来实现 I/O 和计算的重叠

Unified Paging

研究者将PagedAttention的概念扩展为统一分页（Unified Paging）。统一分页不仅用于管理KV缓存，还用于管理适配器权重。统一分页使用统一内存池来联合管理KV缓存和适配器权重。为了实现这一目标，他们首先为内存池静态分配了一个大缓冲区，该缓冲区利用了所有可用空间，除了用于存储基础模型权重和临时激活张量的空间。KV缓存和适配器权重以分页的方式存储在内存池中，每个页面对应一个H向量。因此，序列长度为S的KV缓存张量占用S页，而R级的LoRA权重张量占用R页。图3展示了内存池的布局，其中KV缓存和适配器权重以交错和非连续的方式存储。这种方法大大减少了碎片化，确保不同级别的适配器权重能够以结构化和系统化的方式与动态KV缓存共存

S-LoRA：一个GPU运行数千大模型成为可能

张量并行

此外，研究者为批量 LoRA 推断设计了新颖的张量并行策略，以支持大型 Transformer 模型的多 GPU 推断。张量并行是应用最广泛的并行方法，因为它的单程序多数据模式简化了其实施和与现有系统的集成。张量并行可以减少为大模型提供服务时每个 GPU 的内存使用量和延迟。在本文设置中，额外的 LoRA 适配器引入了新的权重矩阵和矩阵乘法，这就需要为这些新增项目制定新的分区策略。

S-LoRA：一个GPU运行数千大模型成为可能

评估

最终，研究人员通过为Llama-7B/13B/30B/70B提供服务来评估S-LoRA

S-LoRA：一个GPU运行数千大模型成为可能

结果表明，S-LoRA 可以在单个 GPU 或多个 GPU 上为数千个 LoRA 适配器提供服务，而且开销很小。与最先进的参数高效微调库 Huggingface PEFT 相比，S-LoRA 的吞吐量最多可提高 30 倍。与使用支持 LoRA 服务的高吞吐量服务系统 vLLM 相比，S-LoRA 可将吞吐量提高 4 倍，并将服务适配器的数量增加几个数量级。

更多研究细节，可参考原论文。

以上就是S-LoRA：一个GPU运行数千大模型成为可能的详细内容，更多请关注其它相关文章！

# 本田 # 新乡seo外包招商 # 平舆网站推广引流方案 # 搜索引擎及seo # 网站优化设计案例分析 # 泉州网络推广seo优化 # 医疗整形营销推广方案 # 闪信营销怎么推广 # 兰州网站seo优化公司 # 山西推广营销怎么样 # 瓦房店网站首页推广 # 加载 # 数据 # 所需 # 这一 # 并将 # 提出了 # 批处理 # 分页 # 多个 # 数千 # llama # 训练

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2023-11-15

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。