Tailwind CSSTailwind CSS
Home
  • Tailwind CSS 书籍目录
  • Vue 3 开发实战指南
  • React 和 Next.js 学习
  • TypeScript
  • React开发框架书籍大纲
  • Shadcn学习大纲
  • Swift 编程语言:从入门到进阶
  • SwiftUI 学习指南
  • 函数式编程大纲
  • Swift 异步编程语言
  • Swift 协议化编程
  • SwiftUI MVVM 开发模式
  • SwiftUI 图表开发书籍
  • SwiftData
  • ArkTS编程语言:从入门到精通
  • 仓颉编程语言:从入门到精通
  • 鸿蒙手机客户端开发实战
  • WPF书籍
  • C#开发书籍
learn
  • Java编程语言
  • Kotlin 编程入门与实战
  • /python/outline.html
  • AI Agent
  • MCP (Model Context Protocol) 应用指南
  • 深度学习
  • 深度学习
  • 强化学习: 理论与实践
  • 扩散模型书籍
  • Agentic AI for Everyone
langchain
Home
  • Tailwind CSS 书籍目录
  • Vue 3 开发实战指南
  • React 和 Next.js 学习
  • TypeScript
  • React开发框架书籍大纲
  • Shadcn学习大纲
  • Swift 编程语言:从入门到进阶
  • SwiftUI 学习指南
  • 函数式编程大纲
  • Swift 异步编程语言
  • Swift 协议化编程
  • SwiftUI MVVM 开发模式
  • SwiftUI 图表开发书籍
  • SwiftData
  • ArkTS编程语言:从入门到精通
  • 仓颉编程语言:从入门到精通
  • 鸿蒙手机客户端开发实战
  • WPF书籍
  • C#开发书籍
learn
  • Java编程语言
  • Kotlin 编程入门与实战
  • /python/outline.html
  • AI Agent
  • MCP (Model Context Protocol) 应用指南
  • 深度学习
  • 深度学习
  • 强化学习: 理论与实践
  • 扩散模型书籍
  • Agentic AI for Everyone
langchain
  • 附录

附录

推荐数据集与资源

1. 计算机视觉数据集

  • MNIST: 手写数字识别基准数据集(http://yann.lecun.com/exdb/mnist/)
  • CIFAR-10/100: 10类和100类物体分类数据集(https://www.cs.toronto.edu/~kriz/cifar.html)
  • ImageNet: 大规模图像分类数据集(1400万标注图像)(http://www.image-net.org/)
  • COCO: 通用物体检测与分割数据集(https://cocodataset.org/)
  • Open Images: 包含900万张图像的多标签数据集(https://storage.googleapis.com/openimages/web/index.html)

2. 自然语言处理数据集

  • GLUE Benchmark: 多任务NLP评估基准(https://gluebenchmark.com/)
  • SQuAD: 机器阅读理解数据集(https://rajpurkar.github.io/SQuAD-explorer/)
  • WikiText: 高质量维基百科文本语料(https://blog.salesforceairesearch.com/the-wikitext-long-term-dependency-language-modeling-dataset/)
  • Common Crawl: 大规模网页文本数据(https://commoncrawl.org/)

3. 音频与多模态数据集

  • LibriSpeech: 1000小时英文语音数据集(http://www.openslr.org/12/)
  • AudioSet: 200万段音频事件标注数据(https://research.google.com/audioset/)
  • HowTo100M: 1.36亿视频-文本对数据集(https://www.di.ens.fr/willow/research/howto100m/)

4. 强化学习环境

  • OpenAI Gym: 经典RL算法测试平台(https://gym.openai.com/)
  • DeepMind Control Suite: 连续控制基准环境(https://github.com/deepmind/dm_control)
  • StarCraft II Learning Environment: 复杂策略游戏环境(https://github.com/deepmind/pysc2)

5. 开源学习资源

  • Fast.ai: 实战导向的深度学习课程(https://course.fast.ai/)
  • Dive into Deep Learning: 交互式教材(PyTorch/MXNet/TensorFlow版)(http://d2l.ai/)
  • Distill.pub: 机器学习可视化研究期刊(https://distill.pub/)
  • Papers With Code: 论文与实现代码索引(https://paperswithcode.com/)

6. 计算资源平台

  • Google Colab: 免费GPU/TPU云笔记本(https://colab.research.google.com/)
  • Kaggle Kernels: 数据科学协作平台(https://www.kaggle.com/kernels)
  • AWS Educate: 教育者云计算资源(https://aws.amazon.com/education/awseducate/)

7. 模型仓库与工具

  • Hugging Face Hub: 预训练NLP模型库(https://huggingface.co/models)
  • TensorFlow Hub: 可复用模型组件(https://tfhub.dev/)
  • ONNX Model Zoo: 跨框架模型集合(https://github.com/onnx/models)

提示:使用数据集时需注意许可协议,学术用途通常需引用原始论文。建议从官方渠道下载数据以确保完整性。


该附录采用分层结构组织资源,包含:
1. 按模态分类的主流数据集
2. 开发工具链关键节点
3. 标注了权威数据源的官方链接
4. 特别标注了适合教育用途的免费资源
可根据读者群体需求补充:
- 领域特定数据集(如医疗、遥感等)
- 数据清洗工具推荐
- 数据标注平台对比
Last Updated:: 5/20/25, 7:33 PM