LoRA训练 | 丹炉准备及基础概念补习(含扩散模型工作原理、四种模型微调方式等)
在深度学习的广阔领域中,LoRA训练正逐渐崭露头角。本文将带你深入了解LoRA训练的丹炉准备以及基础概念。从扩散模型的工作原理,到四种模型微调方式等核心技术,文章都将进行详细解读。无论你是初学者还是有一定基础的技术人员,都能从中获取有价值的信息,开启你的高效训练之旅。
在深度学习的广阔领域中,LoRA训练正逐渐崭露头角。本文将带你深入了解LoRA训练的丹炉准备以及基础概念。从扩散模型的工作原理,到四种模型微调方式等核心技术,文章都将进行详细解读。无论你是初学者还是有一定基础的技术人员,都能从中获取有价值的信息,开启你的高效训练之旅。
以下是整理的笔记:
一、理论知识补习
学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!
对于0基础小白入门:
如果你是零基础小白,想快速入门AI绘画是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案
包括:stable diffusion安装包、stable diffusion0基础入门全套PDF,视频学习教程。带你从零基础系统性的学好AI绘画!
1、机器学习基础路径
Stable Diffusion主要运用这个神经网络算法
机器学习,通过数据(图片、文字、视频、音频等),并形成算法模型来完成特定任务。
例如:抖音的推荐算法模型
抖音的目标模型,是能够精准推荐用户感兴趣的视频。
收集的数据,为一些用户行为数据(如观看时间、点赞、评论记录等)。
光靠数据无法准确预测用户爱好,因为数据与目标之间存在鸿沟。解决鸿沟的办法,是通过算法模型来实现。
2、扩散模型
Stable Diffusion是目前最受关注和应用广泛的扩散模型之一。
基本原理如下:
扩散模型,即正向过程,将数据逐步加噪,直到数据变成纯噪声。
反之,逆向过程,就是通过一些算法模型,比如U-net逐步去噪变成图片。
SD,就是结合了U-net、VAE、梯度下降、CLIP等多种神经网络结构与先进技术,再进行了用户界面的设计,从而形成WebUI和ComfyUI。
3、微调模型的四种类别
使用特定任务的数据集对预训练模型进行进一步的训练和调整,叫做微调Fine-tuning。
① Dreambooth
- 输出Checkpoint大模型
- 体积较大,为2G/4G/7G
- 配置要求高,训练速度慢
Dreambooth的工作原理
Dreambooth的工作原理,为实际改变模型本身的结构。
描述的句子会被转换成文本嵌入,每个单词都由一个向量表示,该向量包含了单词的一些语义信息。
一开始打问号的向量是随机生成的,需要通过训练来建立意义。
通常做法,是将Text embedding传入模型,并对样本图像施加不同程度的噪声,比如开始施加10步噪声,并给它一个略少噪声的版本(9步噪声),而模型是将10步噪声的图像去噪到9步的样子。(如:Dreambooth的工作原理图)
损失值Loss:
模型输出的图像与预期差别很大,loss值就越高;
模型输出的图像与预期差别很小,loss值就越低;
-
查看Loss值对比后,通过梯度更新来优化模型,最终模型逐渐理解何为“HiPhiZ”。
-
模型会在两者之间找差异,不断迭代,直到模型理解为止。
② LoRA 低秩模型
- 输出LoRA模型
- 体积较小,不超过150M
- 配置要求低,训练速度快
LoRA的工作原理,类似于Dreambooth。该技术并非是扩散模型专有的,而是从语言模型迁移来的。LoRA采用的方式,为向原有模型中插入新的数据处理层,避免修改原有模型的参数,实现一种轻量化的模型调参方式。(不同Dreambooth模型和底膜大小会一致,而LoRA冻结整个底膜,仅用一个新的层来实现这些变化。)
③ Textual Inversion 文本反转
- 输出embedding模型,一般用于负面提示词
- 体积较小,不超过1M
- 配置要求低,训练速度快
通过更新“HiPhi”代表的向量。
④ Hyper networks 超网络
已被LoRA所取代,弃用
4、常见底膜
Novel AI,二次元风格模型,其基于1.5模型加入大量二次元图像进行微调,再结合模型融合技术产生的。
这份完整版的模型已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
SD1.5底膜:
v1-5-pruned.ckpt,用于真实风格
animefull-latest.ckpt,NovelAI的模型,适合二次元风格
二、炼丹硬件配置
决定模型的训练速度的主要2个环节,是:
其中影响最大的是硬盘,因为在模型训练前,先从本地硬盘读取数据到内存,并做一些预处理,硬盘读取速度会影响训练的效率。如果读取速度快,送进GPU的数据多,GPU的利用率就越高。
三、炼丹安装
1、Kohya的LoRA脚本(仅了解)
https://github.com/kohya-ss/sd-scripts?tab=readme-ov-file
2、秋叶整合包
这份完整版的SD整合包已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
PS:下载最新的版本使用
秋叶大大的丹炉使用,双击即可启动脚本
更多推荐
所有评论(0)