Datasets for Large Language Models: A Comprehensive Survey
https://arxiv.org/pdf/2402.18041.pdf

论文探索了大型语言模型(LLM)数据集,它们在LLM的显著进步中扮演着至关重要的角色。数据集作为基础架构,类似于根系,支撑并培育LLM的发展。因此,对这些数据集的审查成为研究中的关键话题。为了解决目前缺乏对LLM数据集全面概述和深入分析的问题,并洞察它们的现状和未来趋势,从五个角度整合和分类了LLM数据集的基本方面:

(1)预训练语料库;

(2)指令微调数据集;

(3)偏好数据集;

(4)评估数据集;

(5)特定任务:传统的自然语言处理(NLP)数据集。

本篇综述的整体架构

在这里插入图片描述
论文还提供了现有可用数据集资源的全面回顾,包括来自444个数据集的统计数据,涵盖8种语言类别,跨越32个领域。从20个维度的信息被纳入数据集统计。调查的总数据量超过774.5 TB的预训练语料库和7亿实例的其他数据集。旨在呈现LLM文本数据集的整体景观,为该领域的研究人员提供全面的参考,并为未来的研究做出贡献。

一些代表性的大型语言模型(LLM)数据集的时间线。橙色代表预训练语料库,黄色代表指令微调数据集,绿色代表偏好数据集,粉色代表评估数据集

在这里插入图片描述

一、预训练语料库

预训练语料库是在大型语言模型(LLM)预训练过程中使用的大量文本数据集合。在所有类型的数据集中,预训练语料库的规模通常是最大的。在预训练阶段,LLM从大量未标记的文本数据中学习广泛的知识,这些知识随后被存储在其模型参数中。这使得LLM具备了一定程度的语言理解和生成能力。预训练语料库可以包含各种类型的文本数据,如网页、学术材料、书籍,同时也包括来自不同领域的相关文本,例如法律文件、年度财务报告、医学教科书以及其他特定领域的数据

根据预训练语料库涉及的领域,它们可以分为两种类型:

第一种是通用预训练语料库,它包括来自不同领域和主题的大规模文本数据混合。数据通常包括来自互联网的文本内容,如新闻、社交媒体、百科全书等。其目标是为自然语言处理(NLP)任务提供通用的语言知识和数据资源。

通用预训练语料库分类:网页、语言文本、书籍、学术材料、代码、平行语料库、社交媒体和百科全书

在这里插入图片描述
通用预训练语料库信息部分总结。发布时间:“X”表示未知月份。公开与否:“All”表示完全开源;“Partial”表示部分开源;“Not”表示不开源。“许可证”表示该语料库遵循某种协议。如果该语料库是基于其他语料库构建的,那么源语料库的许可证也必须遵守。

在这里插入图片描述
第二种是特定领域的预训练语料库,它专门包含特定领域或主题的相关数据。其目的是为LLM提供专业知识。

特定领域预训练语料库分类:金融、医疗、法律、交通、数学

在这里插入图片描述
特定领域预训练语料库信息总结。公开与否:“All”表示完全开源;“Partial”表示部分开源。“许可证”表示该语料库遵循某种协议。如果该语料库是基于其他语料库构建的,那么源语料库的许可证也必须遵守。

在这里插入图片描述
在这里插入图片描述
论文还对14个代表性LLM的预训练语料库数据类型分布进行了统计分析。数据类型被归类为网页、对话数据、书籍与新闻、科学数据和代码等。

14个LLM使用的预训练语料库中数据类型的分布。每个饼图顶部显示LLM的名称,不同的颜色代表各种数据类型。

在这里插入图片描述

二、指令微调数据集

指令微调数据集由一系列文本对组成,包括“指令输入”和“答案输出”。“指令输入”代表人类对模型提出的请求,包括分类、摘要、改述等多种类型。“答案输出”是模型遵循指令后生成的响应,符合人类的期望。

构建指令微调数据集有四种方式:(1)手动创建(2)模型生成,例如使用Self-Instruct方法(3)收集和改进现有的开源数据集,以及(4)上述三种方法的结合

在这里插入图片描述
指令微调数据集用于进一步微调预训练的LLM,使模型更好地理解和遵循人类指令。这个过程有助于缩小LLM的下一个词预测目标与遵循人类指令的目标之间的差距,从而增强LLM的能力和可控性。

指令微调数据集可以分为两个主要类别:通用指令微调数据集和特定领域指令微调数据集。通用指令微调数据集包含多个领域的各种类型指令,旨在提高模型在广泛任务中的性能。通过微调,LLM可以更好地遵循通用指令。在特定领域指令微调数据集中,指令是专门为特定领域设计的。例如,医疗指令使模型能够学习和执行医疗诊断和医疗协助等任务。

15个细分指令类别的总结:推理、数学、头脑风暴、封闭问答、开放问答、编码、提取、生成、重写、摘要、分类、翻译、角色扮演、社交规范以及其他

在这里插入图片描述

三、偏好数据集

偏好数据集是一系列指令的集合,用于对同一指令输入的多个响应提供偏好评估。通常,它们由具有不同响应的指令对组成,以及来自人类或其他模型的反馈。这种设置反映了在给定任务或上下文中,人类或模型对不同响应的相对偏好。偏好数据集中的反馈信息通常通过投票、排序、评分或其他形式的比较表现出来

根据用于偏好评估的方法对各种偏好数据集进行的分类

在这里插入图片描述
不同的偏好评估方法的原理示意

在这里插入图片描述
偏好数据集主要用于大型模型的对齐阶段,旨在帮助使模型的输出更紧密地与人类偏好和期望对齐。与人类偏好的对齐体现在三个方面:实用性,即遵循指令的能力;诚实性,避免编造;安全性,避免生成非法或有害信息。RLHF和RLAIF(从AI反馈中学习的强化学习)都采用强化学习方法,使用反馈信号来优化模型。除了使用指令数据集进行微调外,还可以使用偏好数据集训练奖励模型。随后,可以根据奖励模型的反馈应用近端策略优化(PPO)算法进行进一步微调。

偏好数据集信息的总结。公开与否:“All”表示完全开源;“Partial”表示部分开源。“许可证”表示该数据集遵循某种协议。如果该数据集是基于其他数据集构建的,那么源数据集的许可证也必须遵守。

在这里插入图片描述
在这里插入图片描述

四、评估数据集

评估数据集是一组经过精心策划和注释的数据样本,用于评估LLM在各种任务上的表现。不同的评估数据集关注不同的评估方面,为不同模型提供客观的衡量标准。仅通过调整训练条件,包括预训练语料库、指令微调数据集和偏好数据集,LLM在相应评估数据集上的表现可以间接反映数据集的质量和有效性。这反过来有助于持续优化训练数据。

112个评估数据集的20个评估类别:通用、考试、学科、自然语言理解(NLU)、推理、知识、长文本、工具、代理、代码、OOD(Out-Of-Distribution,分布外)、法律、医疗、金融、社交规范、事实性、评估、多任务、多语言以及其他。

在这里插入图片描述
评估数据集信息的总结。公开与否:“All”表示完全开源;“Partial”表示部分开源;“Not”表示不开源。“许可证”表示该数据集遵循某种协议。如果该数据集是基于其他数据集构建的,那么源数据集的许可证也必须遵守。

在这里插入图片描述

五、特定任务:传统的自然语言处理(NLP)数据集

与传统的指令微调数据集不同,将专门用于自然语言任务的文本数据集,在LLM广泛采用之前,归类为传统NLP数据集。这些数据集没有指令格式,专门为训练、优化和测试传统NLP模型而精心设计。由此产生的NLP模型应用于多种文本处理任务,包括文本分类、信息提取、文本摘要等。

在当代LLM项目中,大量的传统NLP数据集得到应用。这些数据集扮演双重角色:首先,它们的格式和内容转变为LLM指令引导微调阶段的指令格式,增强模型遵循指令和在这些任务中表现出色;其次,它们作为LLM的评估数据集,使得可以比较不同LLM在自然语言任务上的表现。

传统NLP数据集被系统地分类为15个不同的类别,与各种任务相对应。这些类别包括:问答、识别文本蕴含、数学、共指解析、情感分析、语义匹配、文本生成、文本翻译、文本摘要、文本分类、文本质量评估、文本转代码、命名实体识别、关系提取和多任务。

传统自然语言处理(NLP)数据集中不同的NLP任务类别

在这里插入图片描述
在人工智能的广阔领域中,大型语言模型(LLMs)作为迅速增长的显著特征脱颖而出——类似于密集森林中的参天大树。滋养它们成长和发展的数据集可以比作这些树木至关重要的根系,为它们的表现提供必不可少的养分。遗憾的是,当前与LLM相关的数据集景观广泛,各种类型的数据集之间缺乏统一的综合。理解LLM数据集的现状和未来趋势是一个巨大的挑战。因此,论文提供了对LLM数据集的全面分析,从五个维度对与LLM相关的数据集进行分类和总结:预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集。除了这种分类,还确定了当前的挑战,并概述了未来数据集发展的潜在方向,涵盖四个关键领域:预训练、微调指令、强化学习和模型评估。这份综述能够成为学术界和工业界的研究人员,以及从事LLM的新手和熟练实践者的宝贵参考点。未来不断完善LLM数据集,促进一个健壮和标准化的数据集生态系统的发展,以及支持LLM的持续进步。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

更多推荐