第2章:数学与计算基础
线性代数入门
1. 向量与矩阵基础
向量的定义与操作
向量是深度学习中最基本的数据结构,表示为一维数组。关键操作包括:- 加法:对应元素相加
- 点积:
- 范数:衡量向量大小,如L2范数
矩阵的定义与性质
矩阵是二维数组,常用于表示线性变换。核心概念:- 矩阵乘法: 其中
- 转置: 的行列互换
- 特殊矩阵:单位矩阵、对角矩阵等
2. 线性变换与特征分解
线性变换的几何意义
矩阵乘法可表示旋转、缩放等变换。例如,矩阵 实现二维旋转。特征值与特征向量
对于矩阵 ,若 ,则:- 为特征值
- 为特征向量
应用:PCA降维、矩阵稳定性分析。
3. 张量运算
张量的概念
张量是多维数组的泛化形式:- 0阶张量:标量
- 1阶张量:向量
- 2阶张量:矩阵
- 高阶张量:图像数据(如3阶张量表示RGB图片)
常见操作
- 广播机制:不同形状张量间的运算自动扩展
- 爱因斯坦求和约定:简化复杂张量运算表达式
4. 代码示例(Python)
import numpy as np
# 向量与矩阵运算示例
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
print("矩阵乘法结果:\n", A @ B) # 或 np.dot(A, B)
# 特征分解示例
eigenvalues, eigenvectors = np.linalg.eig(A)
print("特征值:", eigenvalues)
print("特征向量:\n", eigenvectors)
5. 深度学习中的关键应用
- 权重表示:神经网络层间连接用矩阵存储
- 卷积运算:图像处理中的滤波器是张量运算
- 注意力机制:Query-Key矩阵乘法计算相似度
关键点记忆:矩阵乘法是神经网络前向传播的核心操作,反向传播依赖于矩阵的链式求导法则。
延伸阅读
- 《线性代数应该这样学》- Sheldon Axler
- NumPy官方文档中的线性代数模块(
np.linalg)
