一文读懂：大模型训练、微调、推理的 GPU 选卡核心要点

编程唐小宝

1414人浏览 · 2025-07-16 14:55:27

编程唐小宝 · 2025-07-16 14:55:27 发布

在人工智能领域，大模型的发展日新月异。从训练到微调再到推理，每个环节都对计算能力有着极高要求，而 GPU 作为核心算力担当，其选择直接影响大模型应用的效率与成本。本文将深入探讨大模型训练、微调、推理过程中的 GPU 选卡核心要点。

什么是大模型训练、微调、推理？

大模型训练指的是利用大规模数据集对深度神经网络进行训练，以此提升模型的表达能力和预测性能。在训练过程中，模型会通过调整网络中的权重和偏置，使损失函数达到最小，进而实现模型性能的优化。

1、大模型训练：像建造全知图书馆

不妨这样想象：你是一名图书管理员，要为AI打造一座收纳全人类知识的图书馆。训练完成的模型，就如同这座整齐陈列着所有知识的图书馆。

训练的过程是这样的：

收集材料：将海量书籍（比如维基百科、小说、论文等）存入仓库。

制定规则：教AI辨认词语之间的关系（例如“猫追老鼠”中，“追”所代表的是动作关系）。

反复练习：让AI猜测下一句话的内容，猜错了就调整它的记忆库（也就是参数），直到能大致猜对为止（不同大模型的准确率存在差异，通常会有相应的评测）。

而训练的本质在于：通过海量训练数据（tokens）来调整模型参数（包括权重、偏置等），让模型掌握语言规律和常识。

这就像教婴儿认字——先让他们看上百万张图片，慢慢理解“猫”对应的是那种毛茸茸的动物。

大模型训练若进一步细分，可分为预训练和后训练。

大模型预训练（Pre-training）：模型先在大规模通用数据上进行无监督或自监督训练，学习通用知识、语义及基本能力。

例如DeepSeek-V3-Base、DeepSeek-V2、DeepSeek-Coder V1未经过任何微调，属于预训练大模型。

大模型后训练（Post-training）：在预训练模型的基础上，借助人类反馈（SFT/RL）优化行为，使其满足人类偏好等特定需求。

例如DeepSeek-V3、DeepSeek-R1系列、DeepSeek-Coder V2、DeepSeek-VL2均为后训练大模型。

预训练与后训练对比

2、大模型微调：将博士生培养专科医生

微调实际上也是模型后训练的一种方式。二者的区别主要在于实施主体：后训练一般由模型提供商负责，他们会在模型出厂前完成预训练与后训练，使模型达到可交付的状态；而作为后训练方式之一的微调，通常由模型使用者（甲方自身的技术团队或技术厂商）来进行，目的是打造领域垂直大模型。

举个例子，通用模型虽然已经掌握了医学基础知识（像解剖学名词等），但要应用于心脏手术，还需要进行专项训练：

定向输入：向模型投喂海量的心脏病例和手术记录（特定领域的数据）
专家经验（示范）：展示优秀医生的诊断思路（即带答案的例题，也就是问答对）
模拟考核：让模型诊断病例并对其表现评分，重点纠正误诊情况（即模型评价）

微调的本质是，在预训练模型的基础上，利用少量专业数据（例如仅为原始数据量的1%）来调整部分参数。这就好比让全科医生专攻心血管科——保留其基础能力（如问诊技巧），同时强化其专科知识（如心电图解读）。经过微调的模型，能够像资深医生一样，根据症状精准判断病因。

微调的方法多种多样，常用的有以下几种：

(1) 全量微调（Full Fine-Tuning）

全量微调是在预训练模型的基础上，对所有参数进行调整。在参数修改上，所有参数都会被更新。它的优点很明显，能够充分利用预训练模型的通用知识，同时针对特定任务进行优化，通常能取得较好的性能。但缺点也较为突出，对计算资源的需求较高，尤其是对于参数量极大的模型而言；而且训练时间较长，在数据量较少时，还可能导致模型过拟合。

(2) 参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）

参数高效微调的核心是只对模型的一部分参数进行微调，保持大部分参数不变，因此在资源利用上更为高效。常见的参数高效微调方法如下：

（a）LoRA（Low-Rank Adaptation）
LoRA通过低秩分解来调整模型的权重矩阵，只训练少量新增参数。它的优点是对计算资源需求低，训练时间短，且能保留预训练模型的大部分知识。不过，其性能可能无法达到全量微调的水平。
（b）Prefix-Tuning
Prefix-Tuning在模型的输入端添加可训练的前缀，这些前缀参数会在微调过程中被更新。它适用于自然语言生成任务，具有计算资源需求低、训练时间短的优点，但可能需要更多的调参经验。
（c）Adapter
Adapter在模型的每一层或某些层之间插入可训练的适配器模块，这些适配器参数在微调时会被更新。该方法计算资源需求低、训练时间短，还能针对多个任务进行微调，但同样可能需要较多的调参经验。
（d）BitFit
BitFit只微调模型的偏置项（bias terms），不改变权重。其最大优势是对计算资源的需求极低，训练时间非常短，但性能提升可能较为有限。

(3) 强化学习微调（Reinforcement Learning Fine-Tuning, RLHF）

强化学习微调运用强化学习方法，通过人类反馈或其他奖励信号来优化模型，模型参数会依据奖励信号进行更新。它的优点是能优化模型的交互行为，尤其在对话系统等交互式任务中表现突出，还能更灵活地调整模型行为以满足特定业务需求。但该方法实现复杂，需要设计合适的奖励机制，且训练过程可能不稳定，需要更多的调试和监控。

(4) 提示调优（Prompt Tuning）

提示调优通过冻结整个预训练模型，只允许每个下游任务在输入文本前添加可调的标记（Token）来优化模型参数，仅更新提示部分的参数。它具有计算资源需求低、训练时间短的优点，适用于少样本学习任务。不过，其性能可能略低于全量微调，且需要精心设计提示。

(5) 深度提示调优（Deep Prompt Tuning）

深度提示调优在预训练模型的每一层应用连续提示，而不仅限于输入层，同样只更新提示部分的参数。这种方法能在更深层次上优化模型，提高性能，适用于复杂任务，但实现复杂，需要更多的调参经验。

(6) 动态低秩适应（DyLoRA）

DyLoRA在LoRA的基础上，动态调整低秩矩阵的大小，只更新部分参数。它对计算资源需求低，训练时间短，能在更广泛的秩范围内优化模型性能，但实现复杂，需要更多的调参经验。

(7) 自适应低秩适应（AdaLoRA）

AdaLoRA根据权重矩阵的重要性得分，自适应地分配参数规模，根据重要性动态调整参数规模，只更新部分参数。该方法计算资源需求低，训练时间短，能更高效地利用参数，提高模型性能，但同样存在实现复杂、需要更多调参经验的问题。

(8) 量化低秩适应（QLoRA）

QLoRA结合了LoRA方法与深度量化技术，在减少模型存储需求的同时保持模型精度，只更新部分参数，同时进行量化。它对计算资源需求低，训练时间短，适用于资源有限的环境，但实现复杂，需要更多的调参经验。

3、大模型推理：像侦探破解悬案

前面讲了大模型训练，它的过程是构建多维语义（向量）空间的过程，不同的Token在一个空间位置上，那推理就是依据提示词Token，在向量空间提取相关的Token，形成一个完整答案。

大模型推理好比"教AI玩解谜游戏"——就像你给一个拥有全人类知识库的AI玩家，让它通过拆解线索、组合逻辑碎片，最终拼出完整答案的过程。

当用户问"如何用大象称体重？"，推理过程如同：

(1) 线索收集：唤醒与“大象-体重-称量”相关的记忆（例如阿基米德浮力原理）

(2) 逻辑推理：

第一步：回想“曹冲称象”的故事（进行类比迁移）
第二步：测算船的排水量与浮力之间的关系（开展数学推理）
第三步：规划具体的操作流程（运用工程思维）

(3) 验证与优化：核查方案的可行程度（比如考虑大象是否会配合），并制定出分步的指导内容

推理的本质：把输入的问题分解为知识图谱里的关联节点，借助Transformer架构的多层运算，最终得出逻辑通顺的答案。这就如同用千万块拼图（参数）拼出完整的图案，过程中会不断剔除错误的组合（像“用蚂蚁称大象”这类不合理的方案）。

大模型训练、微调、推理阶段对比总结

如果看到这里，对训练、微调、推理是什么还不明白的话，可以再做个类比。

这三个阶段如同教育体系——训练是义务教育打基础，微调是大学专业深造，推理则是职场实战应用。当前技术瓶颈在于如何让AI像人类一样，在少量微调后快速适应全新领域（如从医疗转向法律）。

4、大模型训练、微调、推理如何选择GPU？

哪些GPU适合大模型训练？哪些适合推理呢？

以下是NVIDIA H100、A100、A6000、A4000、V100、P6000、RTX 4000、L40s、L4的主要性能指标参数表：

该表格汇总了各款GPU的架构、FP16/FP32计算性能、Tensor Core性能、显存容量、显存类型及内存带宽，有助于对比不同GPU在各类任务场景中的适用程度。

从架构角度来看，通常越新的架构性能越具优势，这些架构按发布时间从早到晚排序如下：

Pascal（2016年发布）
Volta（2017年发布）
Turing（2018年发布）
Ampere（2020年发布）
Ada Lovelace（2022年发布）
Hopper（2022年发布）

2023年之后，又有A800、H800、H200、B100、B200、L40S（训练与推理一体）等新GPU推出。

更适合用于训练（微调）的GPU（大卡）：

H系列大卡和A100曾是训练GPT-3、GPT-4等大规模模型的首选，但如今H200、B200性价比更高，有望成为未来大模型训练的主流GPU。

V100仍是中型模型训练的可靠之选，尤其适合预算有限的情况。

A6000可在工作站环境中用于中小型模型的训练。

更适合用于推理的GPU：

A6000和L40s是推理任务的理想选项，它们具备强劲的性能和充足的显存，能高效处理大模型的推理工作。

A100和H100在超大规模并发或实时推理任务中表现出色，但由于成本较高，通常仅在特定场景中使用。

A4000和RTX 4000适合中小型推理任务，是经济实惠的选择。

L4非常适用于高效推理场景，特别是在图像、视频等需要高效能推理的应用中。它在性能与能效比之间实现了良好平衡，是性价比出众的推理GPU。

此外，还有许多国产GPU用于推理，如华为昇腾910B/C、昆仑芯等。

以上仅为当前主流的建议，实际选择时需考虑技术的发展变革以及各类显卡的市场价格波动，毕竟性价比才是关键。

5、大模型训练、微调、推理GPU显存需求计算

5.1 大模型训练GPU资源相关因素：

模型存储: 每个模型参数（权重和偏置项）都需要一定的存储空间。在训练过程中，这些参数会被更新，并且需要在显存中保存最新的值以便后续计算使用。

激活值存储: 在前向传播过程中，每一层的输出（激活值）也需要被暂时存储起来，以便在反向传播时用于计算梯度。这意味着除了模型参数外，还需要额外的空间来存储每一步的中间结果。

梯度存储: 在反向传播阶段，每个参数都会有一个对应的梯度，这些梯度也需要存储在显存中，直到它们被用来更新参数为止。

批处理大小: 训练时使用的批处理大小也会影响显存需求。较大的批处理可以提高训练效率，但会占用更多的显存，因为需要同时处理更多的样本数据。

优化器状态: 一些优化算法（如Adam或RMSprop）会在每个参数上维护额外的状态（如移动平均值等），这些状态同样需要存储空间。

其他开销: 除了上述主要因素之外，还有一些其他的开销，比如模型架构元数据、临时变量以及其他运行时需要的数据结构。

大模型训练近似计算公式如下：

大模型训练需要的算力究竟是怎么计算出来的呢？

OpenAI在Scaling Laws 论文（https://arxiv.org/pdf/2001.08361）中给我们提出了一个经验公式：

C = rT ≈ 6PD，这是一个简单计算方式，实际每一个大模型的情况不一样，会有一定的差别。

我们制作成了Excel计算公式，有需要的小伙伴入群后可以免费领取。

C：训练一个Transformer模型所需的算力，单位是FLOPS；

P：Transformer模型中参数的数量；

D：训练数据集的大小，也就是用来训练的tokens数；

r：训练集群中所有硬件总的计算吞吐，单位是FLOPS；

T：训练模型需要的时间，单位是秒。

系数6：Scaling Laws论文对这个公式做了简单推导，感兴趣的小伙伴可以查看论文原文。

在计算所需算力的时候，我们刚才都是使用 FLOPS这个单位（Floating Point Operations Per Second即每秒浮点运算次数），我们将其换算成天(day）更加直观。

以 Meta 开源的LLaMA-1模型为例。

其参数为65B，基于1.4T的tokens 数据集，使用了2048张A100 ，实际训练了21天，我们来复核计算一下时间。

1）该模型训练所需的算力计C算过程如下：

C = rT ≈ 6PD=66510^9*1.4*1012=546*10^21 FLOPS

2）我们查到A100 BF16 Tensor Core的算力为312 TFLOPS，实际上一块A100的算力一般在130-180 TFLOPS之间，我们取150，2048张卡的集群算力吞吐为：

r=204815010^12=300*1015 FLOPS，即300PFLOPS

3）代入到上面提到的公式：C = rT，得出训练LLaMA-1模型所需时间为：

T=C/r=54610^21/（300*1015）=1.8210^6 seconds ≈ 21 days

这一计算结果和 LLaMA-1 在论文中得出的实际训练时间基本一致。

这里要补充一下，随着大模型优化技术的不断发展，可能实际上的值会有不同，以上仅是一个估算。

5.2 大模型微调显存计算

要计算大型模型微调所需的显存，我们需要考虑训练过程中涉及的各种组成部分及其占用的显存。以下是根据给定内容总结的关键点：

微调显存组成部分

（1）模型权重：每个浮点数（float32）占用4字节的空间。

（2）优化器：不同的优化器需要的显存大小不同。

AdamW：对于每个参数，需要额外存储两种状态（动量和二阶矩），每个状态占用8字节，总计额外占用16字节，这说明优化器所占用的显存是全精度（float32）模型权重的2倍。

bitsandbytes优化的AdamW：每个参数需要额外存储的状态占用2字节，即全精度模型权重的一半。

SGD：优化器状态占用的显存与全精度模型权重相同。

（3）梯度：全精度（float32）模型权重所占用显存与梯度所占用显存相同。

（4）计算图内部变量（通常称为前向激活或中间激活）：

这些变量在PyTorch、TensorFlow等框架中用于执行前向和后向传播，需要存储图中的节点数据，这部分显存需求在运行时才能确定。

示例计算：

假设一个7B参数的全精度模型，每个参数占用4字节，则模型权重占用 (710^94) 字节 = 28GB。

使用AdamW优化器时，优化器状态占用 (710^916) 字节 = 112GB。

梯度占用与模型权重相同的显存，即28GB。

因此，总显存需求大约为 (28 + 112 + 28) GB = 168GB。

但是，考虑到实际情况中的显存需求通常是模型权重的3-4倍，那么对于7B参数的模型，显存需求大约为 (283) GB 到 (284) GB，即78GB到104GB。

显存这么贵，如果想减少推理显存大小怎么办，一般就得优化相关算法了，例如：

量化：使用更少的位数表示权重和梯度，例如使用8位或更低精度的表示。

模型切分：将模型分割成多个部分，分别在不同的设备上进行计算。

混合精度计算：使用混合精度训练，例如FP16或BF16，以减少显存占用。

Memory Offload：将部分数据卸载到主内存或其他存储设备，减少显存占用。

主流的计算加速框架如DeepSpeed、Megatron等已经实施了上述的一些技术来降低显存需求。

5.3 大模型推理的显存计算

大模型推理所需显存=模型参数部分+激活参数部分+KV Cache部分

（1）模型参数部分=模型参数量 × 精度系数

（2）激活参数部分=激活参数量 × 精度系数

（3）KV Cache部分=并发数 × （输入Token数+输出Token数） × 2 × 层数 × hidden_size × Sizeof(精度系数)

示例：以FP8精度的满血版DeepSeek-R1 671B为例（MoE架构），假设batch size=30(并发30），isl=2048，out=2048，num_layers=61，

hidden_size=7168总的显存容量评估如下：=671×1GB+37x1G+30×(2048+2048)×2×61×7168×1Bytes=671 GB + 100.08GB=808.08GB

其中，MoE 层和非 MoE 层的 kv cache 计算公式不一样。

对于非 MoE 层， KV Cache 的计算公式为：

KV Cache=2（表示 Key 和 Value 两个矩阵）×Batch Size×Sequence Length×Hidden Size×精度（字节数） × 层数

对于 MoE 层，KV Cache 的计算公式为：

KV Cache =2×Batch Size×Sequence Length×激活专家数量×压缩维度×精度（字节数）× 层数。

Sequence Length=输入Token数+输出Token数。

综上所述，选卡需综合任务需求、预算、硬件兼容性及场景特点，同时关注不同品牌产品的优劣势，才能选出最适配的 GPU，为大模型的高效运行提供有力支撑。

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！

智源数据社区

更多推荐

AI大模型微调~笔记本配置

最后提醒：如果只是学习微调小模型（如1.7B），RTX 4060/4070也够用；但若想长期深入，建议尽量投资。注：品牌也可选戴尔Alienware、惠普暗影精灵等，重点看GPU和散热。

智源数据社区

bert4keras预训练模型加载指南：支持BERT、RoBERTa、ALBERT

🤖 bert4keras是一个轻量级的Keras版Transformer模型库，让你能够快速加载BERT、RoBERTa、ALBERT等主流预训练模型，为自然语言处理任务提供强大支持！## 📋 项目简介bert4keras是一个专为人类设计的keras版transformer实现，核心目标是提供清晰、轻量级的代码，让你能够轻松加载和使用各种预训练模型。无论你是NLP新手还是资深开发者，

智源数据社区

零代码微调大模型：3步掌握LLaMA Factory核心功能

想要轻松微调上百种大型语言模型却担心编程门槛？LLaMA Factory正是为您量身打造的解决方案！作为业界领先的无代码大模型微调框架，LLaMA Factory让技术新手也能快速上手，在图形化界面中完成复杂的模型定制任务。无论您是希望构建个性化AI助手，还是需要针对特定领域优化模型性能，这个工具都能帮您实现从入门到精通的飞跃。## 🚀 快速入门：环境搭建与项目部署### 准备工作检查清