预训练语言模型的使用方法

如何使用预训练模型一、思路首先要考虑目标模型的数据量及目标数据与源数据的相关性。一般要根据数据集与预训练模型数据集的不同相似度，采用不同的处理方法。上图中1、数据集小，数据相似度高理想情况，可以将预训练模型当做特征提取器使用，所以有时候称为特征抽取。做法：去掉输出层，将剩下的整个网络当做一个固定的特征提取机，应用到新的数据集中。2、数据集大，数据相似度高冻结预处理模型中少量较低层，修改分类器，然后

Quinn-ntmy

1641人浏览 · 2022-05-08 15:44:40

Quinn-ntmy · 2022-05-08 15:44:40 发布

如何使用预训练模型

一、思路

首先要考虑目标模型的数据量及目标数据与源数据的相关性。
一般要根据数据集与预训练模型数据集的不同相似度，采用不同的处理方法。
在这里插入图片描述
上图中
1、数据集小，数据相似度高
理想情况，可以将预训练模型当做特征提取器使用，所以有时候称为特征抽取。
做法：去掉输出层，将剩下的整个网络当做一个固定的特征提取机，应用到新的数据集中。
在这里插入图片描述
2、数据集大，数据相似度高
冻结预处理模型中少量较低层，修改分类器，然后在新数据集的基础上重新开始训练。

3、数据集小，数据相似度不高
冻结预训练模型中较少的网络高层，然后重新训练后面的网络，修改分类器。相似度不高，so 重新训练的过程很关键！！
数据集大小不足这方面通过冻结预训练模型中一些较低的网络层进行弥补。
在这里插入图片描述

4、数据集大，数据相似度不大
大数据集，NN的训练过程比较有效率。但相似度不高时，预训练模型会很不高效，to do：将预训练模型中的权重全都初始化后再到新数据集的基础上重新开始训练。
在这里插入图片描述
【注】具体操作时，往往会同时尝试多种方法，从其中选最优。

二、获取预训练模型

1、PyTorch的工具包torchvision中的models模块（torchvision.models），使用时需设置 pretrained=True。
2、tensorflow.keras.application 或可以在TensorFlowHub网站（https://tfhub.dev/google/）上下载。
3、huggingFace-transformers（NLP预训练模型库）

智源数据社区

更多推荐

自然语言处理(NLP)-下游任务&数据集：语言模型、机器翻译、问答、文本分类、情感分析、文本生成、自动摘要、命名实体识别、阅读理解、自然语言推理、信息提取、词性标注、共指消解、实体链接【＞200项】

智源数据社区

利用科大讯飞开放平台进行自然语言处理（NLP）Python

最近在做聊天机器人的人工智能实践，需要用到依存句法分析和语义依存分析，所以利用强大的中文语言技术平台注册及快速入门网址 https://www.xfyun.cn/快速入门文档 https://www.xfyun.cn/doc/platform/quickguide.htmlIP白名单设置运行demo时，会出现类似{"code":"10105","data":{},"desc":"ill...