大模型微调：参数高效微调（PEFT）方法总结

PEFT (Parameter-Efficient Fine-Tuning) 参数高效微调是一种针对大模型微调的技术，旨在减少微调过程中需要调整的参数量，同时保持或提高模型的性能。以和为主的PEFT方法总结如下。

大模型玩家

727人浏览 · 2024-07-30 10:56:24

大模型玩家 · 2024-07-30 10:56:24 发布

PEFT (Parameter-Efficient Fine-Tuning) 参数高效微调是一种针对大模型微调的技术，旨在减少微调过程中需要调整的参数量，同时保持或提高模型的性能。

以LORA、Adapter Tuning 和 Prompt Tuning 为主的PEFT方法总结如下

LORA

论文题目：LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
论文链接：https://arxiv.org/pdf/2106.09685
发表时间：2021.10.16

在这里插入图片描述

含义

一种用于微调大型预训练语言模型（如GPT-3或BERT）的方法。核心思想是在模型的关键层中添加小型、低秩的矩阵来调整模型的行为，而不是直接改变整个模型的结构。

原理

低秩矩阵分解： LoRA通过将权重矩阵分解为两个较低秩的矩阵来减少参数量。具体来说，对于模型中的某个权重矩阵 W，LoRA将其表示为两个较小的矩阵 A 和 B，使得 W≈A×B。这样可以有效地减少需要更新的参数数量。

保持预训练权重不变： LoRA保留了预训练模型的原始权重，并在此基础上进行调整。通过添加低秩更新矩阵 ΔW=A×B 到原始权重矩阵 W，来得到新的权重矩阵 W′=W+ΔW。这种方法允许模型在保留预训练知识的同时，适应新的任务。

Adapter Tuning

论文题目：Parameter-Efficient Transfer Learning for NLP
论文链接：https://arxiv.org/pdf/1902.00751
发表时间：2019.6.13

在这里插入图片描述

含义

通过在预训练模型的基础上添加适配器层（adapters），来实现特定任务的微调。这种方法旨在保留预训练模型的原始权重，仅在需要适应新任务的地方进行小规模的参数调整。

原理

插入适配器层：在预训练模型的特定位置（通常是在每个 Transformer 层的内部或后面）插入适配器层。

适配器层结构：这些适配器层是一些小规模的神经网络，通常由一个下采样层（减少维度）、一个激活函数（如 ReLU）和一个上采样层（恢复维度）组成。

冻结预训练权重：在微调过程中，预训练模型的原始权重保持不变，仅训练适配器层的权重。

高效微调：由于适配器层的参数数量相对较少，微调过程变得更加高效。适配器层可以针对不同任务进行训练，而不影响预训练模型的核心结构。

Prompt Tuning

论文题目：The Power of Scale for Parameter-Efficient Prompt Tuning
论文链接：https://arxiv.org/pdf/2104.08691
发表时间：2021.9.2

含义

在预训练语言模型的输入中添加可学习的嵌入向量作为提示。其核心思想是通过引入任务特定的提示（prompts），而非对整个模型进行全参数更新，从而实现对模型的高效微调

原理

设计提示词：输入提示（prompt）通常包含任务描述、示例或特定的输入格式。例如，对于情感分类任务，可以设计一个提示词：“这段文字的情感是：”。

优化提示词： Prompt Tuning 的优化对象是输入提示的词嵌入（embedding）。通过梯度下降等优化算法，调整提示词的词嵌入，使得模型在特定任务上的表现达到最优。

冻结预训练模型：在 Prompt Tuning 中，预训练模型的权重保持不变，仅优化提示词的嵌入。

Prefix-Tuning

论文题目：Prefix-Tuning: Optimizing Continuous Prompts for Generation
论文链接：https://arxiv.org/pdf/2101.00190
发表时间：2021.1.1

在这里插入图片描述

含义

通过固定预训练模型的参数，仅在输入序列的前面添加一个可训练的前缀（prefix），从而在不改变模型参数的情况下实现特定任务的适应

原理

固定模型参数：不对预训练语言模型（如 GPT-3、BERT 等）的参数进行微调

添加可训练前缀：在输入序列的前面添加一个可训练的前缀向量。这个前缀向量的长度和维度可以根据具体任务进行调整

任务适应：在实际应用中，前缀向量与输入序列一起输入到预训练模型中。由于前缀向量是可训练的，模型可以通过调整前缀向量来适应特定的任务，而无需改变模型本身的参数。

P-Tuning

论文题目：GPT Understands, Too
论文链接：https://arxiv.org/pdf/2103.10385v1
发表时间：2021.3.18

在这里插入图片描述
1722308001185)

含义

在模型输入中插入一些可训练的提示（prompts），这些提示是嵌入向量（embedding vectors），在训练过程中被优化

原理

固定模型参数：和 Prefix-Tuning 类似，不改模型参数

插入可训练提示：在输入序列的适当位置插入一些可训练的提示向量。

任务适应：在训练过程中，这些提示向量与输入序列一起输入到预训练模型中

P-Tuning V2

论文题目：P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
论文链接：https://arxiv.org/pdf/2110.07602v2
发表时间：2021.10.18

在这里插入图片描述
1722308001185)

含义

保留了 P-Tuning 的核心思想，即通过优化输入提示向量来引导预训练模型处理特定任务

原理

相比较于P-Tuning：

动态提示优化：采用动态提示优化方法

多层提示插入： P-Tuning V2 不仅在输入序列的前面插入提示向量，还在模型的不同层次（如中间层）插入提示向量

BitFit

论文题目：BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models
论文链接：https://arxiv.org/abs/2106.10199
发表时间：2021.6.18

在这里插入图片描述

含义

通过仅微调模型的偏置参数来适应新的任务，从而减少了需要调整的参数量。

原理

原始 BERT 模型：包含多层 Transformer，每层有权重矩阵 W 和偏置 b。
BitFit 微调：保持所有权重矩阵 W 不变，只微调每层的偏置参数 b

DistilBERT

论文题目：DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
论文链接：https://arxiv.org/abs/1910.01108
发表时间：2020.3.1

在这里插入图片描述

含义

使用知识蒸馏技术将大模型压缩成更小的模型，从而减少微调所需的计算资源和时间。

原理

知识蒸馏是一种模型压缩技术，通过训练一个较小的学生模型（student model）来模仿较大教师模型（teacher model）的行为。具体步骤如下：

教师模型：使用预训练的 BERT 模型作为教师模型。
学生模型：构建一个较小的 BERT 模型，即 DistilBERT。
训练过程：在训练过程中，学生模型通过模仿教师模型的输出来学习。损失函数不仅包括学生模型和教师模型输出之间的差异，还包括学生模型和真实标签之间的差异。

零基础如何学习大模型 AI

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型实际应用案例分享

①智能客服：某科技公司员工在学习了大模型课程后，成功开发了一套基于自然语言处理的大模型智能客服系统。该系统不仅提高了客户服务效率，还显著降低了人工成本。
②医疗影像分析：一位医学研究人员通过学习大模型课程，掌握了深度学习技术在医疗影像分析中的应用。他开发的算法能够准确识别肿瘤等病变，为医生提供了有力的诊断辅助。
③金融风险管理：一位金融分析师利用大模型课程中学到的知识，开发了一套信用评分模型。该模型帮助银行更准确地评估贷款申请者的信用风险，降低了不良贷款率。
④智能推荐系统：一位电商平台的工程师在学习大模型课程后，优化了平台的商品推荐算法。新算法提高了用户满意度和购买转化率，为公司带来了显著的增长。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。

学习资料领取

如果你对大模型感兴趣，可以看看我整合并且整理成了一份AI大模型资料包，需要的小伙伴文末免费领取哦，无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

部分资料展示

一、 AI大模型学习路线图

整个学习分为7个阶段
在这里插入图片描述

二、AI大模型实战案例

涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，皆可用。
在这里插入图片描述

三、视频和书籍PDF合集

从入门到进阶这里都有，跟着老师学习事半功倍。
在这里插入图片描述

在这里插入图片描述

如果二维码失效，可以点击下方链接，一样的哦
【CSDN大礼包】最新AI大模型资源包，这里全都有！无偿分享！！！

😝朋友们如果有需要的话，可以V扫描下方二维码联系领取~
在这里插入图片描述

智源数据社区

更多推荐

自然语言处理(NLP)-下游任务&数据集：语言模型、机器翻译、问答、文本分类、情感分析、文本生成、自动摘要、命名实体识别、阅读理解、自然语言推理、信息提取、词性标注、共指消解、实体链接【＞200项】

智源数据社区

利用科大讯飞开放平台进行自然语言处理（NLP）Python

最近在做聊天机器人的人工智能实践，需要用到依存句法分析和语义依存分析，所以利用强大的中文语言技术平台注册及快速入门网址 https://www.xfyun.cn/快速入门文档 https://www.xfyun.cn/doc/platform/quickguide.htmlIP白名单设置运行demo时，会出现类似{"code":"10105","data":{},"desc":"ill...