AI训练数据集-济南大学图书馆

国内平台提供免费数据集，用于AI训练。许多是公共领域或CC许可。

PaddlePaddle数据集：包括图像分类（如PP-Human）、NLP（如中文情感分析数据集）。免费下载，用于研究。访问：

阿里云天池数据集：数百个竞赛数据集，覆盖医疗图像、推荐系统等。开源，允许下载和使用。许多是CC0或免费许可。访问：

百度AI Studio数据集：如中文文本分类、语音识别数据集。免费，集成在平台中。访问：

Gitee开源数据集：镜像如中文Wikipedia数据集、情感分析集。搜索“AI dataset”。许可大多公共领域。

Pangeanic中文数据集：专为AI训练的中文文本数据集（虽国际，但有国内访问支持）。访问：通过国内代理或直接（检查稳定性）。

OpenDataLab：引领AI大模型的开放数据平台，包含100万条高等教育数据集（数学、物理、计算机）。首批30万条开源，CC许可。访问：

ModelScope数据集：魔搭社区提供模型和数据集，如中文NLP和CV数据集。开源，允许下载。访问：

千言 (LUGE)：全面中文开源数据集合，覆盖NLP任务（如情感分析、机器翻译）。公共领域。访问：

OpenCSG Chinese Fineweb Edu：高质量中文预训练语料数据集，教育领域专用。开源，去重处理。访问：

https://opencsg.com/ 或火山引擎开发者社区。

WiseModel数据集：中立AI开源社区数据集，覆盖多领域。访问：

图书馆提醒各位读者，很多工具需要注册，介意个人隐私的请谨慎使用。