如何微调出自己的大模型——LoRA原理解析

上一篇文章，我们已经讲了隐扩散模型——Stable Diffusion生成大模型。这种大模型，参数量及其之大。你没有足够的算力资源，就只能够使用人家已经训练好的大模型。既然没有办法训练属于自己的模型，那我们就想，是否可以在别人已经训练好的大模型的基础上，用我们自己的训练数据，对模型进行微调，从而得到我们想要的模型。github.com[如何微调出属于自己大模型？——LORA原理解析-哔哩哔哩]

鬼魅森林☚

1111人浏览 · 2024-06-05 00:04:46

鬼魅森林☚ · 2024-06-05 00:04:46 发布

1、前言

视频：[如何微调出属于自己大模型？——LORA原理解析-哔哩哔哩]

2、引入

如果你使用过Stable Diffusion，应该看到过LoRA这个词。他其实就是一种微调方法。

在这个微调方法之前，其实已经存在一些微调方法，比如

①Fine-Tuning,FT： 在微调过程中，模型初始化为预训练的权重和偏置项，所有的模型参数都会进行梯度更新。一个简单的变体是只更新一些层而冻结其他层。

②Bias-only or BitFit： 只训练偏置向量，而冻结其他所有部分。

③Adapter tuning： 在自注意力模块和后面的残差连接之间插入一个适配器层。该适配器层有两个全连接层，中间有非线性的偏置。后面还存在一些新的变体。

另外论文还提到了Prefix-embedding tuning和Prefix-layer tuning。这两种我之前没见过，感兴趣的可以去看一下。

上述方法都或多或少的存在一些问题。如果模型的非常大。那么上述这些微调方法的计算成本将非常大。所以论文就提出了一种新的微调方法LoRA

Ps：这篇论文一开始提出来是应用在自然语言处理的。比如GPT，BERT这些模型。

3、LoRA

论文作者受到这篇论文Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning (arxiv.org)的启发。该论文表明，预训练的语言模型在去适应某些特定的任务时（下游任务），是具有较低的内在维度的。也就是说，即使我们把它投射到较小的子空间，仍然能够高效的学习。

基于这个思想，论文假设权重微调变化的过程中也具有较低的秩（权重更新矩阵 $\Delta W$ 是低秩矩阵），从而提出Low-Rank Adaptation（LoRA）

什么叫做具有低的秩？我们从方程的角度出发
$2x+y=1\\x+y=0$
两个方程，两个未知量。我们可以求出对应的值 $x = 1, y = - 1$

那假如我们的方程长这样呢
$2x+y=1\\4x+2y=2$
我们绝对求不出，因为这两个方程是线性相关的。我们仔细看，第一个方程乘以2，就得到了第二个方程。因此，我们不难发现，这种存在相关性的方程之间，是无法求解的。也就是说，第二个方程实际上是无用的，因为它可以由第一个方程进行线性变化得到。

现在，我们假设有一份方程组
$\begin{cases}x+0\times y=0\\2x+0\times y=0\end{cases}$
我们把系数写成矩阵的形式
$\begin{pmatrix}1 & 0 \\2 & 0\end{pmatrix}$
像这种方式，由于第一行和第二行线性相关，所以这个矩阵的秩就等于1。而矩阵的维度是2x2。当矩阵的秩（记为r）远远小于行，列的维度，我们称该矩阵为低秩矩阵（当燃了，我这里举的例子，也没有远远小于…大家知道概念就行）。

我们做个微调假设更新，对一个参数层，有
$W'=W_0+W^{FT}$
$W^{FT}$ 是一个微调矩阵， $W^{'}$ 表示微调后的参数， $W_0$ 表示原始参数，假设 $W_0\in R^{d\times k}$ ，那么 $W^{FT}$ 也是一样的维度。对 $W^{FT}$ 进行奇异值分解
$W^{FT}=U_{d\times d}\Sigma_{d\times k}V_{k\times k}^T$
当 $W^{FT}$ 的秩远远小于d和k，则我们可以获取 $W^{FT}$ 的近似（选择前r个奇异值来压缩矩阵，如果矩阵的秩足够小，被丢弃的奇异值将为0或者较小，所以以下近似成立，该方法被称为低秩分解）
$W^{FT}\approx U_{d\times r}\Sigma_{r\times r}V^T_{r\times k}$
为什么可以选择前r个奇异值？因为 $\Sigma_{d\times k}$ 一般是从大到小排序的。奇异值越大，代表其对应的奇异向量越重要，越小则越不重要。

我们将奇异值分解压缩成两个矩阵相乘
$B=U_{d\times r}\\A=\Sigma_{r\times r}V_{r \times k}^T$
再说回来，假设权重微调变化的过程中也具有较低的秩。所以，可以通过低秩分解。来缩小可训练的参数维度。

我们用 $\Delta W$ 表示 $W^{FT}$ 低秩分解的结果。并用该低秩分解的结果去微调。于是就得到了论文里面结论
$W'=W_0+\Delta W=W_0+BA$
那么 $\in R^{d\times r},A \in R^{r\times k}$ ，B和A里面的参数是可学习的，r就是我们所选择的秩，并且 $\ll \min(d,k)$ 。而 $W_0$ 参数冻结。

所以对于 $W_0$ 乘以一个x得到输出，也就是 $h=W_0x$ ，就可以变成
$h=W'x=W_0x+BAx$
其中，A是随机高斯初始化的，而B初始化为0，因此一开始， $B A = 0$ 。也就是相当于没有微调。

然后，论文作者使用 $\frac{\alpha}{r}$ 来缩放 $B A x$ ， $\alpha$ 是一个与r相关的常数，在使用Adam优化器时，可以把 $\alpha$ 调整为与学习率相当。

通过这种方式，我们可训练的参数，实际上是
$|\Phi|=(d+k)\times r\times \hat L_{LoRA}$
其中 $\hat L_{LoRA}$ 代表应用LoRA的权重矩阵的数量

4、选择哪些参数微调

在这篇论文中，是应用在自然语言处理的，比如GPT，Transformer，BERT这些模型。作者指出，我们对里面的自注意力机制的权重矩阵进行更改。也就是对 $W_q,W_k,W_v,W_o$ 进行微调（也可以只微调其中一部分，比如只微调 $W_q,W_v$ ）。

而对于我们的Stable Diffusion，在哪些参数进行微调呢？我可以明确的告诉你，我不知道！这篇论文的发表先于Stable Diffusion那篇论文，里面没有提到对这个模型的微调修改。我也没有看过相关的代码

不过，Stable Diffusion里面也有一个自注意力机制。所以盲猜就是对注意力的权重矩阵进行微调了。

5、结束

好了，本篇文章到此为止，如有问题，还望指出。阿里嘎多！！！

在这里插入图片描述

智源数据社区

更多推荐

自然语言处理(NLP)-下游任务&数据集：语言模型、机器翻译、问答、文本分类、情感分析、文本生成、自动摘要、命名实体识别、阅读理解、自然语言推理、信息提取、词性标注、共指消解、实体链接【＞200项】

智源数据社区

利用科大讯飞开放平台进行自然语言处理（NLP）Python

最近在做聊天机器人的人工智能实践，需要用到依存句法分析和语义依存分析，所以利用强大的中文语言技术平台注册及快速入门网址 https://www.xfyun.cn/快速入门文档 https://www.xfyun.cn/doc/platform/quickguide.htmlIP白名单设置运行demo时，会出现类似{"code":"10105","data":{},"desc":"ill...