2025年5月6日,智源研究院在法国巴黎举行的GOSIM全球开源创新论坛上发布了CCIM大型开源文本数据集。 4.0,再一次为世界大模型改革创新提供重要的开源资源,积极推进全球开源合作。
CCI 4.0兼顾多样性和高质量,从单一语言数据扩展到多语言数据。本次发布包括中英文两种语言,并在后续发布中开放更多语言版本。另外,CCI 为了提高预训练模型的基本推理能力,4.0首次采用CoT方式生成推理轨迹数据。CCI 4.0数据由智源研究院牵头,包括阿里云、上海人工智能实验室、华为、外出询问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀宇科技、月亮暗面、紫东太初、中科闻歌、科大讯飞等多家机构共同贡献。
2023年11月,智源研究院首次发布中国互联网词库CCI。 CCI2.0和CCI3.0的迭代分别在2024年3月和10月完成,系列数据集的下载量已经超过14万次,支持500多家企事业单位的大型研发。
CCI这次开源 4.0-M2-V1包含三个子数据,即CCI。 4.0-M2-BaseV11、CCI 4.0-M2-CoTV1和CCI 4.0-M2-ExtraV1,总数为35TB。在这些数据中,CCI 4.0-M2-BaseV11是中英双语数据,数据总量达26000GB,中文信息量为4300GB,相较于CCI 3.0数据规模增长4倍;CCI 4.0-M2-CoTV1是中英文双语生成数据,其中超过4亿条反向生成人类思维轨迹数据用于提高推理能力,总token数量达到425B(4250亿),比目前世界上最大的开源生成数据Cosmopedia规模增长近20倍。
依据来源不同的数据,CCI 4.0在施工过程中采用了去重、质量分类、QA生成、loss过滤的处理原则。对英语数据进行领域分类和流畅过滤;对于中文数据,对全局和不同领域的字符串进行去重,对常规、低质量、不同领域进行流畅的水平过滤,对各种质量进行评分和分类;对于生成数据,处理语义分段和摘要、总结思维链和生成问题。智源研究院就CCI进行了为确保数据安全合规,对4.0数据开源进行了严格的审查。
CCI 4.0数据集中的英文材料、中文材料和生成数据可以有效提高模型训练的效率和性能。
未来,智源研究院将继续开展高质量数据开源建设,不断提高数据质量,扩大语言和内容覆盖面,增加数据集的领域支持,帮助全球大型开源创新和人工智能产业发展。
赞一个