大模型从入门到精通（三）预训练：数据收集和预处理、模型架构设计、预训练任务设计、模型优化与微调

数据清洗步骤主要包含Quality Filtering，De-duplication，Privacy Reduction，Tokenization。这个过程比较简单，在此不赘述。首先回顾一下LLMs的主流架构，主要分为三类：Encoder-decoder，Causal Decoder，Prefix Decoder。其中后两种都是Decoder-only的结构。这类模型只包含编码器部分,适用于分类、

Android老皮

1038人浏览 · 2025-04-13 08:45:00

Android老皮 · 2025-04-13 08:45:00 发布

五、预训练

5.1 数据收集和预处理：

收集大量的文本数据,包括书籍、论文、网页等各种领域的语料。数据来源非常广，是一个巨大的异构数据源。

对数据进行清洗、格式化等预处理,以适合模型训练。

数据清洗步骤主要包含Quality Filtering，De-duplication，Privacy Reduction，Tokenization。

这个过程比较简单，在此不赘述。

5.2. 模型架构设计：

选择合适的模型架构,如Transformer编码器-解码器、纯编码器或纯解码器模型。

首先回顾一下LLMs的主流架构，主要分为三类：Encoder-decoder，Causal Decoder，Prefix Decoder。其中后两种都是Decoder-only的结构。

在这里插入图片描述

Encoder-only（仅编码器）模型： 这类模型只包含编码器部分,适用于分类、回归等任务,只需理解输入而不需要生成新的序列。代表模型有BERT。

Decoder-only（仅解码器）模型： 这类模型只包含解码器部分,适用于文本生成等任务，使用因果语言建模进行预训练，可以生成新的连贯文本序列。代表模型有GPT。

Sequence-to-sequence（序列到序列）模型： 这类模型同时包含编码器和解码器部分,适用于序列到序列的任务,如机器翻译。编码器负责将输入文本转换为连续表示,解码器负责根据编码器的输出生成输出序列。代表模型有T5。

总的来说,这三种Transformer架构各有优势,适用于不同的自然语言处理任务。纯编码器模型擅长理解和分类,纯解码器模型擅长生成,而编码器-解码器结合模型则可以处理序列到序列的转换任务。

完成架构设计后，还确定模型的参数规模,通常为数十亿到数万亿参数，这个也要根据具体的业务来确定，在此不表。

混合专家模型MoE

Mixture-of-Experts（MoE）是一种神经网络结构，它利用路由机制将输入数据动态分配给一组专家网络。这种设计使得模型能够根据输入数据的特征动态选择不同的专家进行处理，从而提升了模型的表达能力和效率。

MoE的核心理念是“众人拾柴火焰高”，即通过利用多个专家网络，每个专家网络专注于处理数据的不同方面，以实现更优秀的性能。其旨在构建一个动态系统，能够根据输入数据充分利用各专家的优势，以比单一模型更加灵活、准确地进行预测。

从技术角度来看，MoE是一种集成学习方法，它将一个大型任务分解为更小的子任务，并将每个子任务交由不同的专家处理。接着，系统会有一个智能的决策者，根据情况选择采纳哪个专家的建议，并将所有建议进行混合。

这个方法包括四个主要步骤：

将大问题分解为小块；
为每个小块培训一位高效聪明的专家；
引入一个决策者，即众所周知的门控模型，来决定由哪位专家主导；
汇总专家的建议和决策者的选择，得出最终的预测。

MoE的优势在于通过减少计算工作，使得模型的预训练速度更快。相比于为更多步骤训练更小的模型，为更少步骤训练更大的模型能够产生更好的结果。在推理阶段，与其他大型模型相比，参数数量相同的MoE模型表现出更快的推理速度。虽然它拥有许多参数，但只使用了一个子集，从而导致更快的预测速度。

在MoE系统中，传统Transformer模型中的每个前馈网络（FFN）层被替换为MoE层，该MoE层由两个主要组成部分构成：一个门控网络和若干数量的专家。

在这里插入图片描述

5.3. 预训练任务设计

预训练在将大规模语料库中的一般知识编码为海量模型参数方面发挥着关键作用。对于训练LLMs，常用的预训练任务有两种，即语言建模（Language Modelling）和去噪自编码（Denoising Autoencoding）。

Language Modelling。 语言建模任务（LM）是预训练解码器的最常用目标LLMs，例如 GPT3 和 PaLM。由于大多数语言任务都可以转化为基于输入的预测问题，因此这些仅解码器的 LLMs 可能有利于隐式学习如何以统一的 LM 方式完成这些任务。一些研究还表明，仅解码器 LLMs 可以通过自回归预测下一个标记自然地转移到某些任务，而无需微调。LM 的一个重要变体是prefix language modeling任务，它是为具有前缀解码器架构的预训练模型而设计的。随机选择的前缀内的标记不会用于计算前缀语言建模的损失。在预训练期间看到的标记数量相同的情况下，前缀语言建模的表现比语言建模稍差，因为模型预训练涉及的序列中的标记较少，给定一个标记序列，LM 任务旨在根据序列中前面的标记X自回归预测目标标记。

**Denoising Autoencoding。**除了传统的LM之外，去噪自动编码任务（DAE）也被广泛用于预训练语言模型，DAE任务在实现上似乎比LM任务更复杂。因此，它还没有被广泛用于预训练大型语言模型。现有以DAE为预训练目标的LLMs包括T5和GLM-130B。这些模型主要经过训练以自回归方式恢复替换的跨度。

在这里插入图片描述

Mixture-of-Denoisers。 也称为 UL2 loss，被引入作为预训练语言模型的统一目标。MoD 将 LM 和 DAE 目标视为不同类型的降噪任务，即 S 降噪器（LM）、R 降噪器（DAE，短跨度和低腐败）和 X 降噪器（DAE，长跨度或高腐败）。三个降噪任务中，S-降噪器与传统的LM目标类似，而R-降噪器和X-降噪器与DAE目标类似，但长度不同损坏文本的跨度和比率。对于以不同特殊标记（即{[R]，[S]，[X]}）开头的输入句子，将使用相应的降噪器来优化模型。MoD已应用于最新的PaLM 2模型。