首页 > 营销学院 > IT资讯

更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

深度神经网络（DNNs）的泛化能力与极值点的平坦程度密切相关，因此出现了 Sharpness-Aware Minimization (SAM) 算法来寻找更平坦的极值点以提高泛化能力。本文重新审视 SAM 的损失函数，提出了一种更通用、有效的方法 WSAM，通过将平坦程度作为正则化项来改善训练极值点的平坦度。通过在各种公开数据集上的实验表明，与原始优化器、SAM 及其变体相比，WSAM 在绝大多数情形都实现了更好的泛化性能。WSAM 在蚂蚁内部数字支付、数字金融等多个场景也被普遍采用并取得了显著效果。该文被 KDD '23 接收为 Oral Paper。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/pdf/2305.15817.pdf
代码地址：https://github.com/intelligent-machine-learning/dlrover/tree/master/atorch/atorch/optimizers

随着深度学习技术的发展，高度过参数化的 DNNs 在 CV 和 NLP 等各种机器学习场景下取得了巨大的成功。虽然过度参数化的模型容易过拟合训练数据，但它们通常具有良好的泛化能力。泛化的奥秘受到越来越多的关注，已成为深度学习领域的热门研究课题。

最新的研究显示，泛化能力与极值点的平坦程度密切相关。换句话说，损失函数的“地貌”中存在平坦的极值点可以实现更小的泛化误差。Sharpness-Aware Minimization (SAM) [1] 是一种用于寻找更平坦极值点的技术，被认为是当前最有前途的技术方向之一。SAM技术被广泛应用于计算机视觉、自然语言处理和双层学习等多个领域，并在这些领域中明显优于之前的最先进方法

为了探索更平坦的最小值，SAM 定义损失函数 L 在 w 处的平坦程度如下：

更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

GSAM [2] 证明了更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral 是局部极值点 Hessian 矩阵最大特征值的近似，表明确实是平坦（陡峭）程度的有效度量。然而只能用于寻找更平坦的区域而不是最小值点，这可能导致损失函数收敛到损失值依然很大的点（虽然周围区域很平坦）。因此，SAM 采用更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral ，即作为损失函数。它可以视为在和之间寻找更平坦的表面和更小损失值的折衷方案，在这里两者被赋予了同等的权重。

本文重新思考了更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral 的构建，将视为正则化项。我们开发了一个更通用、有效的算法，称为 WSAM（Weighted Sharpness-Aware Minimization），其损失函数加入了一个加权平坦度项作为正则项，其中超参数控制了平坦度的权重。在方法介绍章节，我们演示了如何通过更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral 来指导损失函数找到更平坦或更小的极值点。我们的关键贡献可以总结如下。

我们提出 WSAM，将平坦度视为正则化项，并在不同任务之间给予不同的权重。我们提出一个“权重解耦”技术来处理更新公式中的正则化项，旨在精确反映当前步骤的平坦度。当基础优化器不是 SGD 时，如 SGDM 和 Adam，WSAM 在形式上与 SAM 有显著差异。消融实验表明，这种技术在大多数情况下可以提升效果。
我们在公开数据集上验证了 WSAM 在常见任务中的有效性。实验结果表明，与 SAM 及其变体相比，WSAM 在绝大多数情形都有着更好的泛化性能。

预备知识

SAM 是解决由公式（1）定义的更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral 的极小极大最优化问题的一种技术。

首先，SAM 使用围绕 w 的一阶泰勒展开来近似内层的最大化问题，即、

更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

其次，SAM 通过采用更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral 的近似梯度来更新 w ，即

更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

其中第二个近似是为了加速计算。其他基于梯度的优化器（称为基础优化器）可以纳入 SAM 的通用框架中，具体见Algorithm 1。通过改变 Algorithm 1 中的更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral 和，我们可以获得不同的基础优化器，例如 SGD、SGDM 和 Adam，参见 Tab. 1。请注意，当基础优化器为 SGD 时，Algorithm 1 回退到 SAM 论文 [1] 中的原始 SAM。

更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

方法介绍

WSAM 的设计细节

在此，我们给出更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral 的正式定义，它由一个常规损失和一个平坦度项组成。由公式（1），我们有

更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

其中更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral 。当=0 时，退化为常规损失；当 =1/2 时，等价于；当 >1/2 时，更注重平坦度，因此与 SAM 相比更容易找到具有较小曲率而非较小损失值的点；反之亦然。

包含不同基础优化器的 WSAM 的通用框架可以通过选择不同的更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral 和来实现，见 Algorithm 2。例如，当和时，我们得到基础优化器为 SGD 的 WSAM，见 Algorithm 3。在此，我们采用了一种“权重解耦”技术，即平坦度项不是与基础优化器集成用于计算梯度和更新权重，而是独立计算（Algorithm 2 第 7 行的最后一项）。这样，正则化的效果只反映了当前步骤的平坦度，而没有额外的信息。为了进行比较，Algorithm 4 给出了没有“权重解耦”（称为 Coupled-WSAM）的 WSAM。例如，如果基础优化器是 SGDM，则 Coupled-WSAM 的正则化项是平坦度的指数移动平均值。如实验章节所示，“权重解耦”可以在大多数情况下改善泛化表现。

更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

fig. 1 展示了不同更通用、有效，蚂蚁自研优化器wsam入选kdd oral 取值下的 wsam 更新过程。当时，介于和之间，并随着增大逐渐偏离。

Voicepods

Voicepods是一个在线文本转语音平台，允许用户在30秒内将任何书面文本转换为音频文件。

142 查看详情 Voicepods

更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

简单示例

为了更好地说明 WSAM 中 γ 的效果和优势，我们设置了一个二维简单示例。如 Fig. 2 所示，损失函数在左下角有一个相对不平坦的极值点（位置：(-16.8, 12.8)，损失值：0.28），在右上角有一个平坦的极值点（位置：(19.8, 29.9)，损失值：0.36）。损失函数定义为: 更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral ，这里是单变量高斯模型与两个正态分布之间的 KL 散度，即，其中和。

我们使用动量为 0.9 的 SGDM 作为基础优化器，并对 SAM 和 WSAM 设置更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral =2 。从初始点 (-6, 10) 开始，使用学习率为 5 在 150 步内优化损失函数。SAM 收敛到损失值更低但更不平坦的极值点，=0.6的 WSAM 也类似。然而，=0.95 使得损失函数收敛到平坦的极值点，说明更强的平坦度正则化发挥了作用。

更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

实验

我们在各种任务上进行了实验，以验证 WSAM 的有效性。

图像分类

我们首先研究了 WSAM 在 Cifar10 和 Cifar100 数据集上从零开始训练模型的效果。我们选择的模型包括 ResNet18 和WideResNet-28-10。我们使用预定义的批大小在 Cifar10 和 Cifar100 上训练模型，ResNet18 和 WideResNet-28-10 分别为 128，256。这里使用的基础优化器是动量为 0.9 的 SGDM。按照 SAM [1] 的设置，每个基础优化器跑的 epoch 数是 SAM 类优化器的两倍。我们对两种模型都进行了 400 个 epoch 的训练（SAM 类优化器为 200 个 epoch），并使用 cosine scheduler 来衰减学习率。这里我们没有使用其他高级数据增强方法，例如 cutout 和 AutoAugment。

对于两种模型，我们使用联合网格搜索确定基础优化器的学习率和权重衰减系数，并将它们保持不变用于接下来的 SAM 类优化器实验。学习率和权重衰减系数的搜索范围分别为 {0.05, 0.1} 和 {1e-4, 5e-4, 1e-3}。由于所有 SAM 类优化器都有一个超参数更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral (邻域大小)，我们接下来在 SAM 优化器上搜索最佳的并将相同的值用于其他 SAM 类优化器。的搜索范围为 {0.01, 0.02, 0.05, 0.1, 0.2, 0.5}。最后，我们对其他 SAM 类优化器各自独有的超参进行搜索，搜索范围来自各自原始文章的推荐范围。对于 GSAM [2]，我们在 {0.01, 0.02, 0.03, 0.1, 0.2, 0.3} 范围内搜索。对于 ESAM [3]，我们在 {0.4, 0.5, 0.6} 范围内搜索更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral ，在 {0.4, 0.5, 0.6} 范围内搜索，在 {0.4, 0.5, 0.6} 范围内搜索。对于 WSAM，我们在 {0.5, 0.6, 0.7, 0.8, 0.82, 0.84, 0.86, 0.88, 0.9, 0.92, 0.94, 0.96} 范围内搜索。我们使用不同的随机种子重复实验 5 次，计算了平均误差和标准差。我们在单卡 NVIDIA A100 GPU 上进行实验。每个模型的优化器超参总结在 Tab. 3 中。

更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

Tab. 2 给出了在不同优化器下，ResNet18、WRN-28-10 在 Cifar10 和 Cifar100 上测试集的 top-1 错误率。相比基础优化器，SAM 类优化器显著提升了效果，同时，WSAM 又显著优于其他 SAM 类优化器。

更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

ImageNet 上的额外训练

我们在ImageNet数据集上进一步使用Data-Efficient Image Transformers网络结构进行实验。我们恢复了一个预训练的DeiT-base检查点，然后继续训练三个epoch。模型使用批大小256进行训练，基础优化器为动量0.9的SGDM，权重衰减系数为1e-4，学习率为1e-5。我们在四卡NVIDIA A100 GPU上重复运行5次，并计算平均误差和标准差

我们在 {0.05, 0.1, 0.5, 1.0,⋯ , 6.0} 中搜索 SAM 的最佳更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral 。最佳的=5.5 被直接用于其他 SAM 类优化器。之后，我们在{0.01, 0.02, 0.03, 0.1, 0.2, 0.3}中搜索 GSAM 的最佳，并在 0.80 到 0.98 之间以 0.02 的步长搜索WSAM 的最佳。

模型的初始 top-1 错误率为 18.2%，在进行了三个额外的 epoch 之后，错误率如 Tab. 4 所示。我们没有发现三个 SAM-like 优化器之间有明显的差异，但它们都优于基础优化器，表明它们可以找到更平坦的极值点并具有更好的泛化能力。

更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

标签噪声的鲁棒性

如先前的研究 [1, 4, 5] 所示，SAM 类优化器在训练集存在标签噪声时表现出良好的鲁棒性。在这里，我们将 WSAM 的鲁棒性与 SAM、ESAM 和 GSAM 进行了比较。我们在 Cifar10 数据集上训练 ResNet18 200 个 epoch，并注入对称标签噪声，噪声水平为 20%、40%、60% 和 80%。我们使用具有 0.9 动量的 SGDM 作为基础优化器，批大小为 128，学习率为 0.05，权重衰减系数为 1e-3，并使用 cosine scheduler 衰减学习率。针对每个标签噪声水平，我们在 {0.01, 0.02, 0.05, 0.1, 0.2, 0.5} 范围内对 SAM 进行网格搜索，确定通用的更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral 值。然后，我们单独搜索其他优化器特定的超参数，以找到最优泛化性能。我们在 Tab. 5 中列出了复现我们结果所需的超参数。我们在 Tab. 6 中给出了鲁棒性测试的结果，WSAM 通常比 SAM、ESAM 和 GSAM 都具有更好的鲁棒性。

更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

探索几何结构的影响

SAM 类优化器可以与 ASAM [4] 和 Fisher SAM [5] 等技术相结合，以自适应地调整探索邻域的形状。我们在 Cifar10 上对 WRN-28-10 进行实验，比较 SAM 和 WSAM 在分别使用自适应和 Fisher 信息方法时的表现，以了解探索区域的几何结构如何影响 SAM 类优化器的泛化性能。

除了更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral 和之外的参数，我们复用了图像分类中的配置。根据先前的研究 [4, 5]，ASAM 和 Fisher SAM 的通常较大。我们在 {0.1, 0.5, 1.0,…, 6.0} 中搜索最佳的，ASAM 和 Fisher SAM 最佳的均为 5.0。之后，我们在 0.80 到 0.94 之间以 0.02 的步长搜索 WSAM 的最佳更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral ，两种方法最佳均为 0.88。

令人惊讶的是，如 Tab. 7 所示，即使在多个候选项中，基准的 WSAM 也表现出更好的泛化性。因此，我们建议直接使用具有固定的更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral 基准 WSAM 即可。

更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

消融实验

在本节中，我们进行消融实验，以深入理解 WSAM 中“权重解耦”技术的重要性。如WSAM 的设计细节所述，我们将不带“权重解耦”的 WSAM 变体（算法 4）Coupled-WSAM 与原始方法进行比较。

结果如 Tab. 8 所示。Coupled-WSAM 在大多数情况下比 SAM 产生更好的结果，WSAM 在大多数情况下进一步提升了效果，证明“权重解耦”技术的有效性。

更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

极值点分析

在这里，我们通过比较 WSAM 和 SAM 优化器找到的极值点之间的差异，进一步加深对 WSAM 优化器的理解。极值点处的平坦（陡峭）度可通过 Hessian 矩阵的最大特征值来描述。特征值越大，越不平坦。我们使用 Power Iteration 算法来计算这个最大特征值。

Tab. 9 显示了 SAM 和 WSAM 优化器找到的极值点之间的差异。我们发现，vanilla 优化器找到的极值点具有更小的损失值但更不平坦，而 SAM 找到的极值点具有更大的损失值但更平坦，从而改善了泛化性能。有趣的是，WSAM 找到的极值点不仅损失值比 SAM 小得多，而且平坦度十分接近 SAM。这表明，在寻找极值点的过程中，WSAM 优先确保更小的损失值，同时尽量搜寻到更平坦的区域。

更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

超参敏感性

与 SAM 相比，WSAM 具有一个额外的超参数更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral ，用于缩放平坦（陡峭）度项的大小。在这里，我们测试 WSAM 的泛化性能对该超参的敏感性。我们在 Cifar10 和 Cifar100 上使用 WSAM 对 ResNet18 和 WRN-28-10 模型进行了训练，使用了广泛的取值。如 Fig. 3 所示，结果表明 WSAM 对超参更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral 的选择不敏感。我们还发现，WSAM 的最优泛化性能几乎总是在 0.8 到 0.95 之间。

更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral

以上就是更通用、有效，蚂蚁自研优化器WSAM入选KDD Oral的详细内容，更多请关注其它相关文章！

# 率为 # 群力网站制作建设电话 # 电力推广营销 # 京东生鲜关键词优化排名 # 重庆建设网站手机版 # 昆山网站建设与运营案例 # 迪庆抖音关键词排名厂家 # 小企业推广营销方案 # 品牌网站推广软件 # 半岛酒店推广营销方案 # 南京免费建站seo排名 # 并在 # 数据 # 两种 # 多个 # 更小 # 进行了 # 出了 # 在这里 # 特征值 # 所示 # fig # 训练

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2023-10-10

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。