国内平台提供免费数据集,用于AI训练。许多是公共领域或CC许可。
PaddlePaddle数据集:包括图像分类(如PP-Human)、NLP(如中文情感分析数据集)。免费下载,用于研究。访问:
https://www.paddlepaddle.org.cn/datasets
阿里云天池数据集:数百个竞赛数据集,覆盖医疗图像、推荐系统等。开源,允许下载和使用。许多是CC0或免费许可。访问:
https://tianchi.aliyun.com/dataset
百度AI Studio数据集:如中文文本分类、语音识别数据集。免费,集成在平台中。访问:
https://aistudio.baidu.com/datasetoverview
Gitee开源数据集:镜像如中文Wikipedia数据集、情感分析集。搜索“AI dataset”。许可大多公共领域。
Pangeanic中文数据集:专为AI训练的中文文本数据集(虽国际,但有国内访问支持)。访问:通过国内代理或直接(检查稳定性)。
OpenDataLab:引领AI大模型的开放数据平台,包含100万条高等教育数据集(数学、物理、计算机)。首批30万条开源,CC许可。访问:
https://opendatalab.com/
ModelScope数据集:魔搭社区提供模型和数据集,如中文NLP和CV数据集。开源,允许下载。访问:
https://modelscope.cn/datasets
千言 (LUGE):全面中文开源数据集合,覆盖NLP任务(如情感分析、机器翻译)。公共领域。访问:
https://www.luge.ai/#/
OpenCSG Chinese Fineweb Edu:高质量中文预训练语料数据集,教育领域专用。开源,去重处理。访问:
https://opencsg.com/ 或火山引擎开发者社区。
WiseModel数据集:中立AI开源社区数据集,覆盖多领域。访问:
https://www.wisemodel.cn/dataset
图书馆提醒各位读者,很多工具需要注册,介意个人隐私的请谨慎使用。