Tailwind CSSTailwind CSS
Home
  • Tailwind CSS 书籍目录
  • Vue 3 开发实战指南
  • React 和 Next.js 学习
  • TypeScript
  • React开发框架书籍大纲
  • Shadcn学习大纲
  • Swift 编程语言:从入门到进阶
  • SwiftUI 学习指南
  • 函数式编程大纲
  • Swift 异步编程语言
  • Swift 协议化编程
  • SwiftUI MVVM 开发模式
  • SwiftUI 图表开发书籍
  • SwiftData
  • ArkTS编程语言:从入门到精通
  • 仓颉编程语言:从入门到精通
  • 鸿蒙手机客户端开发实战
  • WPF书籍
  • C#开发书籍
learn
  • Java编程语言
  • Kotlin 编程入门与实战
  • /python/outline.html
  • AI Agent
  • MCP (Model Context Protocol) 应用指南
  • 深度学习
  • 深度学习
  • 强化学习: 理论与实践
  • 扩散模型书籍
  • Agentic AI for Everyone
langchain
Home
  • Tailwind CSS 书籍目录
  • Vue 3 开发实战指南
  • React 和 Next.js 学习
  • TypeScript
  • React开发框架书籍大纲
  • Shadcn学习大纲
  • Swift 编程语言:从入门到进阶
  • SwiftUI 学习指南
  • 函数式编程大纲
  • Swift 异步编程语言
  • Swift 协议化编程
  • SwiftUI MVVM 开发模式
  • SwiftUI 图表开发书籍
  • SwiftData
  • ArkTS编程语言:从入门到精通
  • 仓颉编程语言:从入门到精通
  • 鸿蒙手机客户端开发实战
  • WPF书籍
  • C#开发书籍
learn
  • Java编程语言
  • Kotlin 编程入门与实战
  • /python/outline.html
  • AI Agent
  • MCP (Model Context Protocol) 应用指南
  • 深度学习
  • 深度学习
  • 强化学习: 理论与实践
  • 扩散模型书籍
  • Agentic AI for Everyone
langchain
  • 第9章:深度学习的工程实践

第9章:深度学习的工程实践

数据预处理与增强

1. 数据预处理的核心目标

  • 消除数据偏差:处理缺失值、异常值和噪声
  • 统一数据尺度:标准化(Z-score)和归一化(Min-Max)
  • 特征工程:类别特征编码(One-Hot/Label Encoding)、文本分词
  • 维度处理:PCA降维、特征选择(基于方差/模型)

2. 常见预处理技术

2.1 数值数据

# 标准化示例
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)

2.2 图像数据

  • 通道标准化(ImageNet均值:[0.485, 0.456, 0.406])
  • 灰度化/色彩空间转换(RGB→HSV)
  • 分辨率统一(双线性插值)

2.3 文本数据

  • 词袋模型/TF-IDF
  • 子词切分(BPE/WordPiece)
  • 序列填充(Padding)与截断

3. 数据增强策略

3.1 图像增强

技术参数示例效果
随机旋转degrees=(-15, 15)增加旋转不变性
色彩抖动brightness=0.2, contrast=0.3提升光照鲁棒性
CutMixα=1.0区域混合增强泛化能力

3.2 文本增强

  • 同义词替换(WordNet/NLTK)
  • 回译(Back Translation)
  • EDA技术(随机插入/删除/交换)

4. 工程实践要点

  1. 流水线设计:使用torchvision.transforms或tf.data构建可复用的预处理管道
  2. 内存优化:
    • 生成器模式(Keras的ImageDataGenerator)
    • LMDB/HDF5二进制存储
  3. 验证方法:确保增强不改变数据语义(如医疗图像的翻转可能不适用)

5. 典型案例

COVID-19 CT分类任务:

  • 原始数据不足→采用弹性变形增强
  • 窗宽窗位调整(-1000~400HU)
  • 最终使模型AUC提升12%

"数据质量决定模型上限,预处理决定能否逼近这个上限" —— Andrew Ng

[附] 推荐工具:

  • OpenCV(图像处理)
  • Albumentations(高性能增强库)
  • TextAttack(文本增强框架)
Last Updated:: 5/20/25, 7:33 PM