智源研究院发布CCICCI开源中文互联网词库 4.0

研发家 | 2025-07-05 33

2025年5月6日,智源研究院在法国巴黎举行的GOSIM全球开源创新论坛上发布了CCIM大型开源文本数据集。 4.0,再一次为世界大模型改革创新提供重要的开源资源,积极推进全球开源合作。

CCI 4.0兼顾多样性和高质量,从单一语言数据扩展到多语言数据。本次发布包括中英文两种语言,并在后续发布中开放更多语言版本。另外,CCI 为了提高预训练模型的基本推理能力,4.0首次采用CoT方式生成推理轨迹数据。CCI 4.0数据由智源研究院牵头,包括阿里云、上海人工智能实验室、华为、外出询问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀宇科技、月亮暗面、紫东太初、中科闻歌、科大讯飞等多家机构共同贡献。

2023年11月,智源研究院首次发布中国互联网词库CCI。 CCI2.0和CCI3.0的迭代分别在2024年3月和10月完成,系列数据集的下载量已经超过14万次,支持500多家企事业单位的大型研发。

CCI这次开源 4.0-M2-V1包含三个子数据,即CCI。 4.0-M2-BaseV11、CCI 4.0-M2-CoTV1和CCI 4.0-M2-ExtraV1,总数为35TB。在这些数据中,CCI 4.0-M2-BaseV11是中英双语数据,数据总量达26000GB,中文信息量为4300GB,相较于CCI 3.0数据规模增长4倍;CCI 4.0-M2-CoTV1是中英文双语生成数据,其中超过4亿条反向生成人类思维轨迹数据用于提高推理能力,总token数量达到425B(4250亿),比目前世界上最大的开源生成数据Cosmopedia规模增长近20倍。

依据来源不同的数据,CCI 4.0在施工过程中采用了去重、质量分类、QA生成、loss过滤的处理原则。对英语数据进行领域分类和流畅过滤;对于中文数据,对全局和不同领域的字符串进行去重,对常规、低质量、不同领域进行流畅的水平过滤,对各种质量进行评分和分类;对于生成数据,处理语义分段和摘要、总结思维链和生成问题。智源研究院就CCI进行了为确保数据安全合规,对4.0数据开源进行了严格的审查。

CCI 4.0数据集中的英文材料、中文材料和生成数据可以有效提高模型训练的效率和性能。

未来,智源研究院将继续开展高质量数据开源建设,不断提高数据质量,扩大语言和内容覆盖面,增加数据集的领域支持,帮助全球大型开源创新和人工智能产业发展。

赞一个

分享:
打开微信扫一扫
33
版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权
更多服务
招商合作
请您完善以下信息,我们会尽快与您联系!
论文投稿
参加会议
合作办会
期刊合作
论文辅导
科研绘图
论文翻译润色
论文查重
其他
提交
专家招募
个人信息
联系信息
提交
在线客服
商务合作
专家招募
常见问题
手机端
扫描二维码
与学术大咖共探知识边界
出版无忧
投稿无忧
翻译服务
润色服务
自助查重
排版校对
科研绘图