请问你们罕见的开源的数据呢?
#3
by
Johnson0817 - opened
“罕见的开源了高质量预训练数据集,我们将我们的训练数据Skywork-150B数据进行开源,该数据集对中文网页进行精心清洗和过滤,大约包含1500亿中文字符,硬盘大小约为600G,是目前最大的开源中文数据集。”
请问你们罕见的开源的数据呢?
https://huggingface.co/datasets/Skywork/SkyPile-150B/tree/main/data
weitianwen changed discussion status to
closed