附录
推荐数据集与资源
1. 计算机视觉数据集
- MNIST: 手写数字识别基准数据集(http://yann.lecun.com/exdb/mnist/)
- CIFAR-10/100: 10类和100类物体分类数据集(https://www.cs.toronto.edu/~kriz/cifar.html)
- ImageNet: 大规模图像分类数据集(1400万标注图像)(http://www.image-net.org/)
- COCO: 通用物体检测与分割数据集(https://cocodataset.org/)
- Open Images: 包含900万张图像的多标签数据集(https://storage.googleapis.com/openimages/web/index.html)
2. 自然语言处理数据集
- GLUE Benchmark: 多任务NLP评估基准(https://gluebenchmark.com/)
- SQuAD: 机器阅读理解数据集(https://rajpurkar.github.io/SQuAD-explorer/)
- WikiText: 高质量维基百科文本语料(https://blog.salesforceairesearch.com/the-wikitext-long-term-dependency-language-modeling-dataset/)
- Common Crawl: 大规模网页文本数据(https://commoncrawl.org/)
3. 音频与多模态数据集
- LibriSpeech: 1000小时英文语音数据集(http://www.openslr.org/12/)
- AudioSet: 200万段音频事件标注数据(https://research.google.com/audioset/)
- HowTo100M: 1.36亿视频-文本对数据集(https://www.di.ens.fr/willow/research/howto100m/)
4. 强化学习环境
- OpenAI Gym: 经典RL算法测试平台(https://gym.openai.com/)
- DeepMind Control Suite: 连续控制基准环境(https://github.com/deepmind/dm_control)
- StarCraft II Learning Environment: 复杂策略游戏环境(https://github.com/deepmind/pysc2)
5. 开源学习资源
- Fast.ai: 实战导向的深度学习课程(https://course.fast.ai/)
- Dive into Deep Learning: 交互式教材(PyTorch/MXNet/TensorFlow版)(http://d2l.ai/)
- Distill.pub: 机器学习可视化研究期刊(https://distill.pub/)
- Papers With Code: 论文与实现代码索引(https://paperswithcode.com/)
6. 计算资源平台
- Google Colab: 免费GPU/TPU云笔记本(https://colab.research.google.com/)
- Kaggle Kernels: 数据科学协作平台(https://www.kaggle.com/kernels)
- AWS Educate: 教育者云计算资源(https://aws.amazon.com/education/awseducate/)
7. 模型仓库与工具
- Hugging Face Hub: 预训练NLP模型库(https://huggingface.co/models)
- TensorFlow Hub: 可复用模型组件(https://tfhub.dev/)
- ONNX Model Zoo: 跨框架模型集合(https://github.com/onnx/models)
提示:使用数据集时需注意许可协议,学术用途通常需引用原始论文。建议从官方渠道下载数据以确保完整性。
该附录采用分层结构组织资源,包含:
1. 按模态分类的主流数据集
2. 开发工具链关键节点
3. 标注了权威数据源的官方链接
4. 特别标注了适合教育用途的免费资源
可根据读者群体需求补充:
- 领域特定数据集(如医疗、遥感等)
- 数据清洗工具推荐
- 数据标注平台对比