Tailwind CSSTailwind CSS
Home
  • Tailwind CSS 书籍目录
  • Vue 3 开发实战指南
  • React 和 Next.js 学习
  • TypeScript
  • React开发框架书籍大纲
  • Shadcn学习大纲
  • Swift 编程语言:从入门到进阶
  • SwiftUI 学习指南
  • 函数式编程大纲
  • Swift 异步编程语言
  • Swift 协议化编程
  • SwiftUI MVVM 开发模式
  • SwiftUI 图表开发书籍
  • SwiftData
  • ArkTS编程语言:从入门到精通
  • 仓颉编程语言:从入门到精通
  • 鸿蒙手机客户端开发实战
  • WPF书籍
  • C#开发书籍
learn
  • Java编程语言
  • Kotlin 编程入门与实战
  • /python/outline.html
  • AI Agent
  • MCP (Model Context Protocol) 应用指南
  • 深度学习
  • 深度学习
  • 强化学习: 理论与实践
  • 扩散模型书籍
  • Agentic AI for Everyone
langchain
Home
  • Tailwind CSS 书籍目录
  • Vue 3 开发实战指南
  • React 和 Next.js 学习
  • TypeScript
  • React开发框架书籍大纲
  • Shadcn学习大纲
  • Swift 编程语言:从入门到进阶
  • SwiftUI 学习指南
  • 函数式编程大纲
  • Swift 异步编程语言
  • Swift 协议化编程
  • SwiftUI MVVM 开发模式
  • SwiftUI 图表开发书籍
  • SwiftData
  • ArkTS编程语言:从入门到精通
  • 仓颉编程语言:从入门到精通
  • 鸿蒙手机客户端开发实战
  • WPF书籍
  • C#开发书籍
learn
  • Java编程语言
  • Kotlin 编程入门与实战
  • /python/outline.html
  • AI Agent
  • MCP (Model Context Protocol) 应用指南
  • 深度学习
  • 深度学习
  • 强化学习: 理论与实践
  • 扩散模型书籍
  • Agentic AI for Everyone
langchain
  • 推荐数据集与资源

推荐数据集与资源

1. 常用公开数据集

计算机视觉

  • MNIST: 手写数字数据集(0-9),包含60,000训练样本和10,000测试样本
    链接: http://yann.lecun.com/exdb/mnist/
  • CIFAR-10/100: 10类或100类物体分类数据集(32x32彩色图像)
    链接: https://www.cs.toronto.edu/~kriz/cifar.html
  • ImageNet: 1,000类物体分类数据集(1400万标注图像)
    链接: http://www.image-net.org/
  • COCO: 通用图像理解数据集(目标检测/分割/字幕生成)
    链接: https://cocodataset.org/

自然语言处理

  • GLUE Benchmark: 9个自然语言理解任务基准
    链接: https://gluebenchmark.com/
  • SQuAD: 阅读理解数据集(10万+问答对)
    链接: https://rajpurkar.github.io/SQuAD-explorer/
  • WikiText: 维基百科文章语言建模数据集
    链接: https://blog.salesforceairesearch.com/the-wikitext-long-term-dependency-language-modeling-dataset/

其他领域

  • LibriSpeech: 1,000小时英语语音数据集
    链接: http://www.openslr.org/12
  • UCI Machine Learning Repository: 500+跨领域数据集
    链接: https://archive.ics.uci.edu/ml/index.php

2. 竞赛平台

  • Kaggle: 包含数据集、竞赛和社区 Notebook
    链接: https://www.kaggle.com/
  • AI Challenger: 中文多模态竞赛平台
    链接: https://challenger.ai/
  • DrivenData: 社会影响力方向数据竞赛
    链接: https://www.drivendata.org/

3. 学习资源

在线课程

  • Deep Learning Specialization (Coursera)
    Andrew Ng 主讲,涵盖CNN/RNN/Transformer等
    链接: https://www.coursera.org/specializations/deep-learning

  • Fast.ai 实战课程
    "Top-down" 教学法,含PyTorch实践
    链接: https://course.fast.ai/

开源项目

  • Hugging Face Transformers
    预训练模型库(BERT/GPT等)
    链接: https://huggingface.co/transformers/

  • TensorFlow Model Garden
    官方模型实现集合
    链接: https://github.com/tensorflow/models


4. 论文与前沿追踪

  • arXiv.org: 最新论文预印本平台
    推荐分类: cs.CV(计算机视觉), cs.CL(自然语言处理), cs.LG(机器学习)
    链接: https://arxiv.org/

  • Papers With Code: 论文与代码实现关联平台
    链接: https://paperswithcode.com/


5. 工具推荐

  • Weights & Biases: 实验跟踪工具
    链接: https://wandb.ai/
  • DVC: 数据版本控制工具
    链接: https://dvc.org/
  • Gradio: 快速构建模型Demo
    链接: https://gradio.app/

该附录包含:
1. 结构化分类:按领域划分数据集
2. 直接可用的资源链接
3. 覆盖从入门到进阶的多层次资源
4. 包含工具链推荐(实验管理/部署等)
5. 标注重点资源的特性说明
Last Updated:: 6/17/25, 10:13 AM