在深度学习的广阔领域中,LoRA训练正逐渐崭露头角。本文将带你深入了解LoRA训练的丹炉准备以及基础概念。从扩散模型的工作原理,到四种模型微调方式等核心技术,文章都将进行详细解读。无论你是初学者还是有一定基础的技术人员,都能从中获取有价值的信息,开启你的高效训练之旅。
以下是整理的笔记:

一、理论知识补习
学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!

对于0基础小白入门:

如果你是零基础小白,想快速入门AI绘画是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案

包括:stable diffusion安装包、stable diffusion0基础入门全套PDF,视频学习教程。带你从零基础系统性的学好AI绘画!
在这里插入图片描述
1、机器学习基础路径

Stable Diffusion主要运用这个神经网络算法

img

机器学习,通过数据(图片、文字、视频、音频等),并形成算法模型来完成特定任务。

例如:抖音的推荐算法模型

抖音的目标模型,是能够精准推荐用户感兴趣的视频。

收集的数据,为一些用户行为数据(如观看时间、点赞、评论记录等)。

光靠数据无法准确预测用户爱好,因为数据与目标之间存在鸿沟。解决鸿沟的办法,是通过算法模型来实现。

img

2、扩散模型

Stable Diffusion是目前最受关注和应用广泛的扩散模型之一。

基本原理如下:

img

扩散模型,即正向过程,将数据逐步加噪,直到数据变成纯噪声。

反之,逆向过程,就是通过一些算法模型,比如U-net逐步去噪变成图片。

SD,就是结合了U-net、VAE、梯度下降、CLIP等多种神经网络结构与先进技术,再进行了用户界面的设计,从而形成WebUI和ComfyUI。

3、微调模型的四种类别

使用特定任务的数据集对预训练模型进行进一步的训练和调整,叫做微调Fine-tuning。

① Dreambooth

  • 输出Checkpoint大模型
  • 体积较大,为2G/4G/7G
  • 配置要求高,训练速度慢

Dreambooth的工作原理

img

Dreambooth的工作原理,为实际改变模型本身的结构。

描述的句子会被转换成文本嵌入,每个单词都由一个向量表示,该向量包含了单词的一些语义信息。

img

一开始打问号的向量是随机生成的,需要通过训练来建立意义。

通常做法,是将Text embedding传入模型,并对样本图像施加不同程度的噪声,比如开始施加10步噪声,并给它一个略少噪声的版本(9步噪声),而模型是将10步噪声的图像去噪到9步的样子。(如:Dreambooth的工作原理图)

img

损失值Loss:

模型输出的图像与预期差别很大,loss值就越高;

模型输出的图像与预期差别很小,loss值就越低;

-

查看Loss值对比后,通过梯度更新来优化模型,最终模型逐渐理解何为“HiPhiZ”。

-

img

模型会在两者之间找差异,不断迭代,直到模型理解为止。

② LoRA 低秩模型

  • 输出LoRA模型
  • 体积较小,不超过150M
  • 配置要求低,训练速度快

LoRA的工作原理,类似于Dreambooth。该技术并非是扩散模型专有的,而是从语言模型迁移来的。LoRA采用的方式,为向原有模型中插入新的数据处理层,避免修改原有模型的参数,实现一种轻量化的模型调参方式。(不同Dreambooth模型和底膜大小会一致,而LoRA冻结整个底膜,仅用一个新的层来实现这些变化。)

③ Textual Inversion 文本反转

  • 输出embedding模型,一般用于负面提示词
  • 体积较小,不超过1M
  • 配置要求低,训练速度快

通过更新“HiPhi”代表的向量。

④ Hyper networks 超网络

已被LoRA所取代,弃用

4、常见底膜

img

Novel AI,二次元风格模型,其基于1.5模型加入大量二次元图像进行微调,再结合模型融合技术产生的。
这份完整版的模型已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

img

SD1.5底膜:

v1-5-pruned.ckpt,用于真实风格

animefull-latest.ckpt,NovelAI的模型,适合二次元风格

二、炼丹硬件配置

img

决定模型的训练速度的主要2个环节,是:

img

其中影响最大的是硬盘,因为在模型训练前,先从本地硬盘读取数据到内存,并做一些预处理,硬盘读取速度会影响训练的效率。如果读取速度快,送进GPU的数据多,GPU的利用率就越高。

三、炼丹安装

1、Kohya的LoRA脚本(仅了解)

https://github.com/kohya-ss/sd-scripts?tab=readme-ov-file

2、秋叶整合包

这份完整版的SD整合包已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述
PS:下载最新的版本使用

img

秋叶大大的丹炉使用,双击即可启动脚本

img

img

Logo

更多推荐