大模型从入门到精通(三)预训练:数据收集和预处理、模型架构设计、预训练任务设计、模型优化与微调
数据清洗步骤主要包含Quality Filtering,De-duplication,Privacy Reduction,Tokenization。这个过程比较简单,在此不赘述。首先回顾一下LLMs的主流架构,主要分为三类:Encoder-decoder,Causal Decoder,Prefix Decoder。其中后两种都是Decoder-only的结构。这类模型只包含编码器部分,适用于分类、
五、预训练
5.1 数据收集和预处理:
- 收集大量的文本数据,包括书籍、论文、网页等各种领域的语料。数据来源非常广,是一个巨大的异构数据源。
- 对数据进行清洗、格式化等预处理,以适合模型训练。
数据清洗步骤主要包含Quality Filtering,De-duplication,Privacy Reduction,Tokenization。
这个过程比较简单,在此不赘述。
5.2. 模型架构设计:
- 选择合适的模型架构,如Transformer编码器-解码器、纯编码器或纯解码器模型。
首先回顾一下LLMs的主流架构,主要分为三类:Encoder-decoder,Causal Decoder,Prefix Decoder。其中后两种都是Decoder-only的结构。
Encoder-only(仅编码器)模型: 这类模型只包含编码器部分,适用于分类、回归等任务,只需理解输入而不需要生成新的序列。代表模型有BERT。
Decoder-only(仅解码器)模型: 这类模型只包含解码器部分,适用于文本生成等任务,使用因果语言建模进行预训练,可以生成新的连贯文本序列。代表模型有GPT。
Sequence-to-sequence(序列到序列)模型: 这类模型同时包含编码器和解码器部分,适用于序列到序列的任务,如机器翻译。编码器负责将输入文本转换为连续表示,解码器负责根据编码器的输出生成输出序列。代表模型有T5。
总的来说,这三种Transformer架构各有优势,适用于不同的自然语言处理任务。纯编码器模型擅长理解和分类,纯解码器模型擅长生成,而编码器-解码器结合模型则可以处理序列到序列的转换任务。
完成架构设计后,还确定模型的参数规模,通常为数十亿到数万亿参数,这个也要根据具体的业务来确定,在此不表。
混合专家模型MoE
Mixture-of-Experts(MoE)是一种神经网络结构,它利用路由机制将输入数据动态分配给一组专家网络。这种设计使得模型能够根据输入数据的特征动态选择不同的专家进行处理,从而提升了模型的表达能力和效率。
MoE的核心理念是“众人拾柴火焰高”,即通过利用多个专家网络,每个专家网络专注于处理数据的不同方面,以实现更优秀的性能。其旨在构建一个动态系统,能够根据输入数据充分利用各专家的优势,以比单一模型更加灵活、准确地进行预测。
从技术角度来看,MoE是一种集成学习方法,它将一个大型任务分解为更小的子任务,并将每个子任务交由不同的专家处理。接着,系统会有一个智能的决策者,根据情况选择采纳哪个专家的建议,并将所有建议进行混合。
这个方法包括四个主要步骤:
- 将大问题分解为小块;
- 为每个小块培训一位高效聪明的专家;
- 引入一个决策者,即众所周知的门控模型,来决定由哪位专家主导;
- 汇总专家的建议和决策者的选择,得出最终的预测。
MoE的优势在于通过减少计算工作,使得模型的预训练速度更快。相比于为更多步骤训练更小的模型,为更少步骤训练更大的模型能够产生更好的结果。在推理阶段,与其他大型模型相比,参数数量相同的MoE模型表现出更快的推理速度。虽然它拥有许多参数,但只使用了一个子集,从而导致更快的预测速度。
在MoE系统中,传统Transformer模型中的每个前馈网络(FFN)层被替换为MoE层,该MoE层由两个主要组成部分构成:一个门控网络和若干数量的专家。
5.3. 预训练任务设计
预训练在将大规模语料库中的一般知识编码为海量模型参数方面发挥着关键作用。对于训练LLMs,常用的预训练任务有两种,即语言建模(Language Modelling)和去噪自编码(Denoising Autoencoding)。
Language Modelling。 语言建模任务(LM)是预训练解码器的最常用目标LLMs,例如 GPT3 和 PaLM。由于大多数语言任务都可以转化为基于输入的预测问题,因此这些仅解码器的 LLMs 可能有利于隐式学习如何以统一的 LM 方式完成这些任务。一些研究还表明,仅解码器 LLMs 可以通过自回归预测下一个标记自然地转移到某些任务,而无需微调。LM 的一个重要变体是prefix language modeling任务,它是为具有前缀解码器架构的预训练模型而设计的。随机选择的前缀内的标记不会用于计算前缀语言建模的损失。在预训练期间看到的标记数量相同的情况下,前缀语言建模的表现比语言建模稍差,因为模型预训练涉及的序列中的标记较少,给定一个标记序列,LM 任务旨在根据序列中前面的标记X自回归预测目标标记。
**Denoising Autoencoding。**除了传统的LM之外,去噪自动编码任务(DAE)也被广泛用于预训练语言模型,DAE任务在实现上似乎比LM任务更复杂。因此,它还没有被广泛用于预训练大型语言模型。现有以DAE为预训练目标的LLMs包括T5和GLM-130B。这些模型主要经过训练以自回归方式恢复替换的跨度。
Mixture-of-Denoisers。 也称为 UL2 loss,被引入作为预训练语言模型的统一目标。MoD 将 LM 和 DAE 目标视为不同类型的降噪任务,即 S 降噪器(LM)、R 降噪器(DAE,短跨度和低腐败)和 X 降噪器(DAE,长跨度或高腐败)。三个降噪任务中,S-降噪器与传统的LM目标类似,而R-降噪器和X-降噪器与DAE目标类似,但长度不同损坏文本的跨度和比率。对于以不同特殊标记(即{[R],[S],[X]})开头的输入句子,将使用相应的降噪器来优化模型。MoD已应用于最新的PaLM 2模型。
5.4. 模型优化与微调
在训练大型模型,尤其是深度学习模型时,通常需要采用一系列优化技术,以改善模型的泛化能力、减少过拟合、提高训练效率,并确保模型在真实世界数据上的表现。以下是一些常用的大模型优化技术:
1. 正则化:
- 权重正则化(L1/L2正则化): 通过在损失函数中添加一个与权重相关的项(L1范数或L2范数)来惩罚大的权重,减少模型复杂度。
- Dropout: 在训练过程中随机“丢弃”(即置为零)神经网络中的一些神经元,以防止模型对特定的训练样本过于依赖。
- 批归一化(Batch Normalization): 通过归一化每个小批量的输入,以加快训练过程并改善模型的性能与稳定性。
2. 数据增强:
- 通过随机转换和修改原始训练数据来创建额外的训练样本,可以增加模型见过的数据多样性。例如在图像领域,可以使用旋转、缩放、翻转、剪切和颜色变换等技术;在文本领域,可以使用回译、同义词替换等技术。
3.学习率调整:
- 学习率衰减: 随着训练的进行,逐步减小学习率以减少模型在训练后期的参数更新幅度。
- 适应性学习率优化器: 例如Adam、RMSprop等,自动调整每个参数的学习率。
4. 早停(Early Stopping):
- 在训练过程中,通过监控验证集的性能来决定何时停止训练。当验证集的性能不再提升时,停止训练以防止过拟合。
5. 梯度剪裁(Gradient Clipping):
- 在反向传播过程中限制梯度的大小,防止梯度爆炸问题。
6. 权重初始化:
- 使用例如Xavier初始化、He初始化等策略,合理设定权重的初始值,以确保模型在训练开始时更稳定。
7. 集成方法:
- 将多个模型的预测结果集成起来,如bagging、boosting或stacking等,通常能够提升模型的准确性和鲁棒性。
8. 迁移学习:
- 利用在大规模数据集上预训练的模型,在其基础上微调应用于特定任务,可以显著减少所需的训练数据量和提高性能。
这些技术可以独立使用,也可以组合使用,具体情况取决于模型的复杂度、可用的数据量和计算资源以及所面临的任务。通过有效地应用这些优化技术,可以让大型模型表现出色,同时避免在训练过程中遇到的常见问题。
总的来说,大模型的预训练是一个复杂的过程,需要大量数据、合理的模型设计和优化技术,最终目标是训练出一个通用性强、性能优秀的大模型。
如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】
更多推荐
所有评论(0)