LoRA训练 | 丹炉准备及基础概念补习（含扩散模型工作原理、四种模型微调方式等）

在深度学习的广阔领域中，LoRA训练正逐渐崭露头角。本文将带你深入了解LoRA训练的丹炉准备以及基础概念。从扩散模型的工作原理，到四种模型微调方式等核心技术，文章都将进行详细解读。无论你是初学者还是有一定基础的技术人员，都能从中获取有价值的信息，开启你的高效训练之旅。

灵魂画师向阳

807人浏览 · 2025-03-19 18:29:55

灵魂画师向阳 · 2025-03-19 18:29:55 发布

在深度学习的广阔领域中，LoRA训练正逐渐崭露头角。本文将带你深入了解LoRA训练的丹炉准备以及基础概念。从扩散模型的工作原理，到四种模型微调方式等核心技术，文章都将进行详细解读。无论你是初学者还是有一定基础的技术人员，都能从中获取有价值的信息，开启你的高效训练之旅。
以下是整理的笔记：

一、理论知识补习
学好 AI绘画不论是就业还是做副业赚钱都不错，但要学会 AI绘画还是要有一个学习规划。最后大家分享一份全套的 AI绘画学习资料，给那些想学习 AI绘画的小伙伴们一点帮助！

对于0基础小白入门：

如果你是零基础小白，想快速入门AI绘画是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以找到适合自己的学习方案

包括：stable diffusion安装包、stable diffusion0基础入门全套PDF，视频学习教程。带你从零基础系统性的学好AI绘画！
在这里插入图片描述
1、机器学习基础路径

Stable Diffusion主要运用这个神经网络算法

机器学习，通过数据（图片、文字、视频、音频等），并形成算法模型来完成特定任务。

例如：抖音的推荐算法模型

抖音的目标模型，是能够精准推荐用户感兴趣的视频。

收集的数据，为一些用户行为数据（如观看时间、点赞、评论记录等）。

光靠数据无法准确预测用户爱好，因为数据与目标之间存在鸿沟。解决鸿沟的办法，是通过算法模型来实现。

2、扩散模型

Stable Diffusion是目前最受关注和应用广泛的扩散模型之一。

基本原理如下：

扩散模型，即正向过程，将数据逐步加噪，直到数据变成纯噪声。

反之，逆向过程，就是通过一些算法模型，比如U-net逐步去噪变成图片。

SD，就是结合了U-net、VAE、梯度下降、CLIP等多种神经网络结构与先进技术，再进行了用户界面的设计，从而形成WebUI和ComfyUI。

3、微调模型的四种类别

使用特定任务的数据集对预训练模型进行进一步的训练和调整，叫做微调Fine-tuning。

① Dreambooth

输出Checkpoint大模型
体积较大，为2G/4G/7G
配置要求高，训练速度慢

Dreambooth的工作原理

Dreambooth的工作原理，为实际改变模型本身的结构。

描述的句子会被转换成文本嵌入，每个单词都由一个向量表示，该向量包含了单词的一些语义信息。

一开始打问号的向量是随机生成的，需要通过训练来建立意义。

通常做法，是将Text embedding传入模型，并对样本图像施加不同程度的噪声，比如开始施加10步噪声，并给它一个略少噪声的版本（9步噪声），而模型是将10步噪声的图像去噪到9步的样子。（如：Dreambooth的工作原理图）

损失值Loss：

模型输出的图像与预期差别很大，loss值就越高；

模型输出的图像与预期差别很小，loss值就越低；

查看Loss值对比后，通过梯度更新来优化模型，最终模型逐渐理解何为“HiPhiZ”。

模型会在两者之间找差异，不断迭代，直到模型理解为止。

② LoRA 低秩模型

输出LoRA模型
体积较小，不超过150M
配置要求低，训练速度快

LoRA的工作原理，类似于Dreambooth。该技术并非是扩散模型专有的，而是从语言模型迁移来的。LoRA采用的方式，为向原有模型中插入新的数据处理层，避免修改原有模型的参数，实现一种轻量化的模型调参方式。（不同Dreambooth模型和底膜大小会一致，而LoRA冻结整个底膜，仅用一个新的层来实现这些变化。）

③ Textual Inversion 文本反转

输出embedding模型，一般用于负面提示词
体积较小，不超过1M
配置要求低，训练速度快

通过更新“HiPhi”代表的向量。

④ Hyper networks 超网络

已被LoRA所取代，弃用

4、常见底膜

Novel AI，二次元风格模型，其基于1.5模型加入大量二次元图像进行微调，再结合模型融合技术产生的。
这份完整版的模型已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

SD1.5底膜：

v1-5-pruned.ckpt，用于真实风格

animefull-latest.ckpt，NovelAI的模型，适合二次元风格

二、炼丹硬件配置

决定模型的训练速度的主要2个环节，是：

其中影响最大的是硬盘，因为在模型训练前，先从本地硬盘读取数据到内存，并做一些预处理，硬盘读取速度会影响训练的效率。如果读取速度快，送进GPU的数据多，GPU的利用率就越高。

三、炼丹安装

1、Kohya的LoRA脚本（仅了解）

https://github.com/kohya-ss/sd-scripts?tab=readme-ov-file

2、秋叶整合包

这份完整版的SD整合包已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述
PS：下载最新的版本使用

秋叶大大的丹炉使用，双击即可启动脚本

智源数据社区

更多推荐

[特殊字符] AIGC工具深度实战：GPT与通义灵码如何彻底重构企业开发流程

💡 Gartner最新预测：到2026年，超过80%的企业软件开发项目将使用AIGC工具作为核心生产力工具。：某医疗SaaS团队PRD→可运行API原型平均时间从5人日压缩至8小时。当代码生成速度提升转化为市场响应速度的提升，技术领导力的代差就此形成。：复杂报表开发生成时间由6小时→12分钟，准确率提升至92%：使用开源模型训练商业代码导致的License污染。：从明日晨会开始，所有技术