1、首先使用小数据集训练大模型一定要有大模型的优化器停止状态参数(没有的话尽量将学习率设置的小点),和停止时候权重参数,也就是要有预训模型
2,最好不要冻结参数,冻结虽然会节约时间但是未必能达到好的效果
3,总结就是迁移学习为啥一定是不同领域的迁移呢,
4,上面的理论皆来自一次偶然发生的意外得到的结果
其实即使是同一个数据集也是可以细分为不同领域的,比如中文对话,比如作为的类型,使用通用文本训练后,使用上面所说的微迁移,应该很快就能达到效果,
就像你的有一生不断的忘记以前学习新的知识一样。微迁移就是不断的学习或者是复习。微体现再微小新的数据和微小的学习率,属于增量式学习,就要复习以前的数据集(微小的学习以前的数据)

Logo

更多推荐