第1章：深度学习简介

图像与视觉应用

1. 计算机视觉的变革

深度学习彻底改变了计算机视觉领域，使得机器能够以接近甚至超越人类水平的性能完成视觉任务。传统方法依赖手工设计特征（如SIFT、HOG），而深度学习通过卷积神经网络（CNN）自动学习多层次的特征表示。

2. 核心应用场景

(1) 图像分类

经典任务：识别图像中的主要对象类别（如猫、狗、汽车）。
代表性模型：AlexNet（2012年ImageNet竞赛冠军）、ResNet。
典型数据集：ImageNet、CIFAR-10/100。

(2) 目标检测

任务目标：定位图像中多个对象的位置（边界框）并分类。
主流算法：
- 两阶段检测器：Faster R-CNN（基于区域提议）。
- 单阶段检测器：YOLO（实时检测）、SSD。
应用场景：自动驾驶（行人/车辆检测）、安防监控。

(3) 图像分割

语义分割：为每个像素分配类别标签（如区分道路、天空）。
- 模型：U-Net（医学图像）、DeepLab。
实例分割：区分同类物体的不同实例（如多人场景中的个体）。
- 模型：Mask R-CNN。

(4) 人脸识别

技术栈：人脸检测（MTCNN）+ 特征提取（FaceNet）+ 匹配（余弦相似度）。
应用：手机解锁、身份验证、社交媒体标签。

3. 前沿方向

生成式视觉：
- 图像生成（如StyleGAN生成逼真人脸）、图像超分辨率（ESRGAN）。
视频分析：
- 动作识别（3D CNN）、视频目标跟踪（Siamese网络）。
多模态融合：
- 视觉-语言模型（如CLIP、DALL·E）。

4. 实际案例

医疗影像：
- CNN用于X光片中的肺炎检测（准确率超95%）。
农业：
- 无人机图像分析作物健康状况（如病害识别）。
工业：
- 缺陷检测（PCB板、纺织品瑕疵）。

5. 挑战与限制

数据需求：依赖大规模标注数据（缓解方案：迁移学习、数据增强）。
对抗攻击：微小扰动可误导模型（如停车标志被误识别为限速标志）。
计算成本：实时部署需模型轻量化（MobileNet、知识蒸馏）。

代码示例（PyTorch图像分类片段）

import torchvision.models as models
model = models.resnet18(pretrained=True)  # 加载预训练ResNet
model.eval()  # 切换到推理模式

关键术语
卷积层（Convolutional Layer）：局部感受野的权重共享，提取空间特征。
迁移学习（Transfer Learning）：复用预训练模型的特征提取层。