[Dataset] Pretrain-corpus
updated
Viewer
•
Updated
•
470M
•
43.2k
•
326
EssentialAI/essential-web-v1.0
Preview
•
Updated
•
3.39k
•
214
Viewer
•
Updated
•
52.5B
•
182k
•
2.6k
HuggingFaceFW/fineweb-edu
Viewer
•
Updated
•
3.5B
•
331k
•
897
Viewer
•
Updated
•
4.48B
•
65.5k
•
710
data-is-better-together/fineweb-c
Viewer
•
Updated
•
88.7k
•
1.42k
•
58
Viewer
•
Updated
•
170M
•
53.6k
•
89
Updated
•
1.62k
•
971
Viewer
•
Updated
•
621M
•
31k
•
85
mlfoundations/dclm-baseline-1.0
Preview
•
Updated
•
511k
•
251
Preview
•
Updated
•
185k
•
85