第1章:深度学习简介
图像与视觉应用
1. 计算机视觉的变革
深度学习彻底改变了计算机视觉领域,使得机器能够以接近甚至超越人类水平的性能完成视觉任务。传统方法依赖手工设计特征(如SIFT、HOG),而深度学习通过卷积神经网络(CNN)自动学习多层次的特征表示。
2. 核心应用场景
(1) 图像分类
- 经典任务:识别图像中的主要对象类别(如猫、狗、汽车)。
- 代表性模型:AlexNet(2012年ImageNet竞赛冠军)、ResNet。
- 典型数据集:ImageNet、CIFAR-10/100。
(2) 目标检测
- 任务目标:定位图像中多个对象的位置(边界框)并分类。
- 主流算法:
- 两阶段检测器:Faster R-CNN(基于区域提议)。
- 单阶段检测器:YOLO(实时检测)、SSD。
- 应用场景:自动驾驶(行人/车辆检测)、安防监控。
(3) 图像分割
- 语义分割:为每个像素分配类别标签(如区分道路、天空)。
- 模型:U-Net(医学图像)、DeepLab。
- 实例分割:区分同类物体的不同实例(如多人场景中的个体)。
- 模型:Mask R-CNN。
(4) 人脸识别
- 技术栈:人脸检测(MTCNN)+ 特征提取(FaceNet)+ 匹配(余弦相似度)。
- 应用:手机解锁、身份验证、社交媒体标签。
3. 前沿方向
- 生成式视觉:
- 图像生成(如StyleGAN生成逼真人脸)、图像超分辨率(ESRGAN)。
- 视频分析:
- 动作识别(3D CNN)、视频目标跟踪(Siamese网络)。
- 多模态融合:
- 视觉-语言模型(如CLIP、DALL·E)。
4. 实际案例
- 医疗影像:
- CNN用于X光片中的肺炎检测(准确率超95%)。
- 农业:
- 无人机图像分析作物健康状况(如病害识别)。
- 工业:
- 缺陷检测(PCB板、纺织品瑕疵)。
5. 挑战与限制
- 数据需求:依赖大规模标注数据(缓解方案:迁移学习、数据增强)。
- 对抗攻击:微小扰动可误导模型(如停车标志被误识别为限速标志)。
- 计算成本:实时部署需模型轻量化(MobileNet、知识蒸馏)。
代码示例(PyTorch图像分类片段)
import torchvision.models as models model = models.resnet18(pretrained=True) # 加载预训练ResNet model.eval() # 切换到推理模式
关键术语
- 卷积层(Convolutional Layer):局部感受野的权重共享,提取空间特征。
- 迁移学习(Transfer Learning):复用预训练模型的特征提取层。
