智源十大行业高质量数据集开放申请，经验证可显著提升模型行业能力！

Aquila-Med-Chat (RL)在C-Eval上以及单轮多轮对话能力的表现尤为突出（见图2-图5）。Aquila-Med是针对医疗领域的复杂性场景的解决方案，基于Aquila的大规模双语医疗语言模型，在持续预训练阶段，Aquila-Med使用了高质量行业数据集中的医疗数据，实验结果表明：持续预训练阶段，Aquila-Med在多个基准测试上表现良好，特别是在MMLU上的表现显著提升（见图1）

智源研究院官方账号

459人浏览 · 2024-07-04 14:50:29

智源研究院官方账号 · 2024-07-04 14:50:29 发布

近日，智源研究院非开源、高质量行业预训练数据集开放申请。该数据集覆盖医疗、教育、文学、金融、旅游、法律、体育、汽车、新闻、农业十大行业，总量达597GB。

智源研究院对较难获取的非开源高质量数据、合作伙伴贡献的数据、有行业特征的开源数据进行了基于规则及模型的过滤、数据去重等加工处理，并针对中文数据标注了字母数字比例、平均行长度、语言的置信度得分、最大行长度、困惑度等12种标签，使得行业数据集领域特征密度明显高于通用训练数据，适合特定行业业务问题下模型的前置继续训练或混合数据训练。

其中，医疗行业数据的价值和效果，已在智源研究院医疗语言模型Aquila-Med的训练过程中得到了验证。

Aquila-Med是针对医疗领域的复杂性场景的解决方案，基于Aquila的大规模双语医疗语言模型，在持续预训练阶段，Aquila-Med使用了高质量行业数据集中的医疗数据，实验结果表明：持续预训练阶段，Aquila-Med在多个基准测试上表现良好，特别是在MMLU上的表现显著提升（见图1）。

图1

模型对齐阶段，智源从医学主题问题和医生-患者咨询两个方面进行评估，Aquila-Med-Chat在指令跟随能力方面表现出色。Aquila-Med-Chat (RL)在C-Eval上以及单轮多轮对话能力的表现尤为突出（见图2-图5）。因此，Aquila-Med在多个基准测试上的强大表现验证了医疗行业数据集的质量和训练方法的有效性。

图2

图3

图4

图5

目前，加入智源研究院“行业数据集-场景应用创新计划”即有机会获得行业数据集资源，助力大模型企业的行业模型训练和应用场景落地。

立即参与请点击：https://jwolpxeehx.feishu.cn/share/base/form/shrcnoftHAXa9CZJ9los8PaeUPg

同时，欢迎加入智源数据群，探讨数据集和模型落地：

智源数据社区

更多推荐

自然语言处理(NLP)-下游任务&数据集：语言模型、机器翻译、问答、文本分类、情感分析、文本生成、自动摘要、命名实体识别、阅读理解、自然语言推理、信息提取、词性标注、共指消解、实体链接【＞200项】

智源数据社区

利用科大讯飞开放平台进行自然语言处理（NLP）Python

最近在做聊天机器人的人工智能实践，需要用到依存句法分析和语义依存分析，所以利用强大的中文语言技术平台注册及快速入门网址 https://www.xfyun.cn/快速入门文档 https://www.xfyun.cn/doc/platform/quickguide.htmlIP白名单设置运行demo时，会出现类似{"code":"10105","data":{},"desc":"ill...