2024年8月29日下午,智源人工智能研究院联合中国互联网协会人工智能工委会、中国AIIA联盟数据委员会、SegmentFault思否、51CTO、CSDN等多个机构共同举办了“数据与模型行业应用系列Workshop”第二期。本次活动邀请到了来自智源研究院、海天瑞声、作业帮、百川智能、医渡云、Datastrato的专家学者,共同探讨了数据集构建和数据策略探索、数据目录建设以及大模型在教育、医疗等行业的落地应用

       活动伊始,智源研究院的大模型算法专家张博文和李季杰两位老师分享了智源“千万级指令数据集Infinity Instruct”在数学领域的拓展和对齐阶段的探索。Infinity Instruct是智源研究院在6月发布的千万级指令微调数据集。Infinity Instruct 1.0版发布后,在Huggingface等开源社区引发了广泛关注,带来了大量模型微调工作。Infinity Instruct持续迭代更新,实现了仅通过微调即可支持70B模型达到接近GPT-4水平。近期,智源基础模型团队基于Infinity Instruct1.0,继续在数学、偏好对齐等瓶颈能力上扩展数据的效果边界,推动语言能力持续提升。在2.0版本,针对数学这一重点瓶颈领域,通过合成可无限扩增的PoT数据的方法,可大幅提升7B基础语言模型和基础代码模型的zero-shot数学能力。随后,基于Infinity-Instruct构建了第一版对齐数据集,经验证可大幅提升微调模型的对话性能

       随后,海天瑞声CTO黄宇凯老师分享了海天在AI数据领域的探索与实践。他首先强调了高质量数据集对未来AI技术发展的关键作用,并分享了海天瑞声如何应对数据生成与标注中的挑战,介绍了海天大模型服务平台。作业帮首席科学家宋旸老师则带来了关于作业帮写作大模型技术实践的主题演讲,以作业帮写作大模型为例,详细介绍了基座训练、微调优化以及上线后不断迭代优化的过程,讨论了在教育领域中如何利用技术方案,实现从场景适配到特定知识注入,再到幻觉问题缓解和用户偏好对齐,最终实现模型在写作领域的落地的过程,并分享了从数据准备到模型上线后的迭代优化过程中的经验和教训。百川智能预训练数据策略研究员张宇鹏从数据质量与数据配比入手,讲解百川智能在预训练数据策略方向上的创新实践与积累。他指出模型通过质量控制,可以在更小的模型训练较少的数据下,达到更好的效果数据质量并不是一个很好被定义的术语,不应完全以人类的偏好进行数据筛选,从模型自身+人类+自我学习的视角可以更好的进行数据筛选。数据配比可以采用小模型拟合scaling law 的形式来确定,显著减少对大模型实验的依赖。医渡科技旗下开心健康子公司CTO Arthur则探讨了大型语言模型在医学领域的应用,从最初不可能的任务到如今的应用蓬勃发展,揭示了未来医学领域中大型语言模型的巨大潜力。Datastrato副总裁史少锋分享了如何构建面向AI的统一数据目录,提出构建一个多云多源异构数据的统一数据目录,可以有效支持AI大模型训练和应用,提供数据发现、集成、血缘、权限管控、敏感信息识别及生命周期管理等功能,确保在合法合规的前提下实现成本降低和效率提升。

       智源研究院将持续举办此类活动,诚邀更多业界伙伴共同探索数据与模型应用的未来之路。扫描下方二维码加入智源数据社区,欢迎您的加入!

附录: 嘉宾分享资料,欢迎获取。特别说明:仅供学习和科研使用,严禁商用!!! 

 

1、智源千万级指令数据集Infinity Instruct在数学和对齐领域的探索

链接: https://pan.baidu.com/s/1PQUSE2eQaXQK5Y9JUowayQ 

提取码: 8nb4

2、海天瑞声在AI数据领域的探索

链接: https://pan.baidu.com/s/1Z9cH0bmUNlOPOHxTnO1yXQ 

提取码: racg

3、百川预训练数据策略的探索有实践

链接: https://pan.baidu.com/s/1P2sP20rQb1OCOoGXtqKvIA

提取码: 22ty

4、医渡云-LLM在医疗领域探索

https://pan.baidu.com/s/1J5JfZBIdMjsptjuEtET0yw 

提取码: 8bg3

 

Logo

更多推荐