推荐数据集与资源
1. 常用公开数据集
计算机视觉
- MNIST: 手写数字数据集(0-9),包含60,000训练样本和10,000测试样本
链接: http://yann.lecun.com/exdb/mnist/ - CIFAR-10/100: 10类或100类物体分类数据集(32x32彩色图像)
链接: https://www.cs.toronto.edu/~kriz/cifar.html - ImageNet: 1,000类物体分类数据集(1400万标注图像)
链接: http://www.image-net.org/ - COCO: 通用图像理解数据集(目标检测/分割/字幕生成)
链接: https://cocodataset.org/
自然语言处理
- GLUE Benchmark: 9个自然语言理解任务基准
链接: https://gluebenchmark.com/ - SQuAD: 阅读理解数据集(10万+问答对)
链接: https://rajpurkar.github.io/SQuAD-explorer/ - WikiText: 维基百科文章语言建模数据集
链接: https://blog.salesforceairesearch.com/the-wikitext-long-term-dependency-language-modeling-dataset/
其他领域
- LibriSpeech: 1,000小时英语语音数据集
链接: http://www.openslr.org/12 - UCI Machine Learning Repository: 500+跨领域数据集
链接: https://archive.ics.uci.edu/ml/index.php
2. 竞赛平台
- Kaggle: 包含数据集、竞赛和社区 Notebook
链接: https://www.kaggle.com/ - AI Challenger: 中文多模态竞赛平台
链接: https://challenger.ai/ - DrivenData: 社会影响力方向数据竞赛
链接: https://www.drivendata.org/
3. 学习资源
在线课程
Deep Learning Specialization (Coursera)
Andrew Ng 主讲,涵盖CNN/RNN/Transformer等
链接: https://www.coursera.org/specializations/deep-learningFast.ai 实战课程
"Top-down" 教学法,含PyTorch实践
链接: https://course.fast.ai/
开源项目
Hugging Face Transformers
预训练模型库(BERT/GPT等)
链接: https://huggingface.co/transformers/TensorFlow Model Garden
官方模型实现集合
链接: https://github.com/tensorflow/models
4. 论文与前沿追踪
arXiv.org: 最新论文预印本平台
推荐分类: cs.CV(计算机视觉), cs.CL(自然语言处理), cs.LG(机器学习)
链接: https://arxiv.org/Papers With Code: 论文与代码实现关联平台
链接: https://paperswithcode.com/
5. 工具推荐
- Weights & Biases: 实验跟踪工具
链接: https://wandb.ai/ - DVC: 数据版本控制工具
链接: https://dvc.org/ - Gradio: 快速构建模型Demo
链接: https://gradio.app/
该附录包含:
1. 结构化分类:按领域划分数据集
2. 直接可用的资源链接
3. 覆盖从入门到进阶的多层次资源
4. 包含工具链推荐(实验管理/部署等)
5. 标注重点资源的特性说明