智源研究院发布中文互联网语料库 CCI3.0 推动数据共建共享

Jasmine_BAAI

202人浏览 · 2024-11-07 08:50:40

Jasmine_BAAI · 2024-11-07 08:50:40 发布

近日，在由中央网信办指导，北京市委网信办、北京市经济和信息化局、北京市新闻出版局、北京市版权局承办的2024北京文化论坛“新兴业态与技术融合”平行论坛上，智源研究院正式发布中文互联网语料库CCI 3.0(Chinese Corpora Internet，简称 CCI)，包括1000GB的数据集以及498GB的高质量子集CCI3.0-HQ。智源研究院于2023年11月首次开源CCI 1.0，并在2024年4月发布CCI 2.0。目前，CCI系列数据集下载量已超过4万次，服务500多个企事业单位的大模型研发，助力高质量中文语料和训练数据建设，支撑中国人工智能产业生态发展。

CCI 3.0下载地址

Flopsera：

http://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

Huggingface：https://huggingface.co/datasets/BAAI/CCI3-Data

Datahub：

https://data.baai.ac.cn/details/BAAI-CCI3

1 规模扩大，来源广泛

CCI 3.0收录超过2.68亿个网页，涵盖新闻、社交媒体、博客等多个领域。CCI 3.0的数据规模相较于CCI 2.0扩大近一倍，数据来源机构扩展至20多家，显著提升数据覆盖面和代表性。

2 精细标注，赋能应用

CCI 3.0对原始数据进行了覆盖语法、句法、教育程度等10多个维度的细粒度分类和详细标记，以筛选高价值数据，为企业定制个性化训练数据提供可能性。此外，CCI 3.0 HQ是基于70B模型自动标注样本，然后训练小尺寸质量模型进行优中选优得到的高质量子集，可更好地满足不同行业和应用场景的需求。

3 效果显著，更懂中文

同一500M模型基于不同的数据集从零开始训练100B数据对比实验表明，CCI 3.0在单独中文语料训练和中英文语料混合训练的效果上优于其他数据集，而CCI 3.0 HQ的效果更加突出。

智源数据社区

更多推荐

AI大模型微调~笔记本配置

最后提醒：如果只是学习微调小模型（如1.7B），RTX 4060/4070也够用；但若想长期深入，建议尽量投资。注：品牌也可选戴尔Alienware、惠普暗影精灵等，重点看GPU和散热。

智源数据社区

bert4keras预训练模型加载指南：支持BERT、RoBERTa、ALBERT

🤖 bert4keras是一个轻量级的Keras版Transformer模型库，让你能够快速加载BERT、RoBERTa、ALBERT等主流预训练模型，为自然语言处理任务提供强大支持！## 📋 项目简介bert4keras是一个专为人类设计的keras版transformer实现，核心目标是提供清晰、轻量级的代码，让你能够轻松加载和使用各种预训练模型。无论你是NLP新手还是资深开发者，

智源数据社区

零代码微调大模型：3步掌握LLaMA Factory核心功能

想要轻松微调上百种大型语言模型却担心编程门槛？LLaMA Factory正是为您量身打造的解决方案！作为业界领先的无代码大模型微调框架，LLaMA Factory让技术新手也能快速上手，在图形化界面中完成复杂的模型定制任务。无论您是希望构建个性化AI助手，还是需要针对特定领域优化模型性能，这个工具都能帮您实现从入门到精通的飞跃。## 🚀 快速入门：环境搭建与项目部署### 准备工作检查清