智源研究院发布CCICCI开源中文互联网词库 4.0
研发家 | 2025-07-05 33

2025年5月6日,智源研究院在法国巴黎举行的GOSIM全球开源创新论坛上发布了CCIM大型开源文本数据集。 4.0,再一次为世界大模型改革创新提供重要的开源资源,积极推进全球开源合作。

CCI 4.0兼顾多样性和高质量,从单一语言数据扩展到多语言数据。本次发布包括中英文两种语言,并在后续发布中开放更多语言版本。另外,CCI 为了提高预训练模型的基本推理能力,4.0首次采用CoT方式生成推理轨迹数据。CCI 4.0数据由智源研究院牵头,包括阿里云、上海人工智能实验室、华为、外出询问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀宇科技、月亮暗面、紫东太初、中科闻歌、科大讯飞等多家机构共同贡献。

2023年11月,智源研究院首次发布中国互联网词库CCI。 CCI2.0和CCI3.0的迭代分别在2024年3月和10月完成,系列数据集的下载量已经超过14万次,支持500多家企事业单位的大型研发。

CCI这次开源 4.0-M2-V1包含三个子数据,即CCI。 4.0-M2-BaseV11、CCI 4.0-M2-CoTV1和CCI 4.0-M2-ExtraV1,总数为35TB。在这些数据中,CCI 4.0-M2-BaseV11是中英双语数据,数据总量达26000GB,中文信息量为4300GB,相较于CCI 3.0数据规模增长4倍;CCI 4.0-M2-CoTV1是中英文双语生成数据,其中超过4亿条反向生成人类思维轨迹数据用于提高推理能力,总token数量达到425B(4250亿),比目前世界上最大的开源生成数据Cosmopedia规模增长近20倍。

依据来源不同的数据,CCI 4.0在施工过程中采用了去重、质量分类、QA生成、loss过滤的处理原则。对英语数据进行领域分类和流畅过滤;对于中文数据,对全局和不同领域的字符串进行去重,对常规、低质量、不同领域进行流畅的水平过滤,对各种质量进行评分和分类;对于生成数据,处理语义分段和摘要、总结思维链和生成问题。智源研究院就CCI进行了为确保数据安全合规,对4.0数据开源进行了严格的审查。

CCI 4.0数据集中的英文材料、中文材料和生成数据可以有效提高模型训练的效率和性能。

未来,智源研究院将继续开展高质量数据开源建设,不断提高数据质量,扩大语言和内容覆盖面,增加数据集的领域支持,帮助全球大型开源创新和人工智能产业发展。

赞一个

分享:
打开微信扫一扫
33
版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权
更多服务
招商合作
请您完善以下信息,我们会尽快与您联系!
论文投稿
参加会议
合作办会
期刊合作
论文辅导
科研绘图
论文翻译润色
论文查重
其他
提交
专家招募
个人信息
联系信息
提交
在线客服
商务合作
专家招募
常见问题
手机端
扫描二维码
与学术大咖共探知识边界
出版支持
翻译服务
润色服务
自助查重
排版校对