了解机器学习 - 3. 数学部分学习路线(线性代数 + 微积分 + 概率统计)
先明确核心原则:不用啃完整大学教材,只学机器学习真正高频用到的部分,重点理解「直观意义 + 在AI里的作用」,跳过复杂证明和冷门知识点。学的时候遵循「先懂概念→知道在哪用→用到时再深挖」,不用一次性全学透。
一、线性代数:机器学习的数据骨架
核心定位
所有数据、模型参数、神经网络运算,本质都是线性代数的运算。神经网络的「前向传播」,核心就是一层层的矩阵乘法 + 非线性激活。可以说,线性代数是AI的“数据语言”。
必学核心知识点
1. 四层基础数据结构
从简单到复杂,对应AI里不同形态的数据:
| 名称 | 通俗解释 | 维度 | AI里的对应场景 |
|---|---|---|---|
| 标量 | 单个数字 | 0维 | 学习率、损失值、单个预测结果 |
| 向量 | 一排数字(一维数组) | 1维 | 单条样本的所有特征,比如[面积60, 房间数2, 楼层5] |
| 矩阵 | 二维表格,行×列 | 2维 | 整个数据集:每行1条样本,每列1个特征 |
| 张量 | 多维数组 | N维 | 图片(高×宽×3通道)、视频、批量特征图;PyTorch/TensorFlow的基础数据单位就叫Tensor |
2. 向量核心运算:点积(内积)
- 规则:两个长度相同的向量,对应位置相乘再相加,最终得到一个标量。
- AI核心用途:加权求和
模型做预测的本质,就是「特征 × 对应权重,再全部加起来」,这就是向量点积。 - 例子(房价预测):
特征向量 = [60, 2](60平米,2个房间)
权重向量 = [3, 10](每平米3万,每个房间加10万)
预测房价 = 60×3 + 2×10 = 200万 → 这就是一次点积运算
3. 矩阵核心运算:矩阵乘法
这是深度学习最核心的运算,没有之一。
- 规则:第一个矩阵的「行」和第二个矩阵的「列」做点积,结果组成新矩阵。
- 维度匹配要求:A(m行n列) × B(n行p列) = C(m行p列)
- 关键特点:不满足交换律,A×B ≠ B×A
- AI核心用途:批量加权求和
一次计算一整批样本的预测结果,不用一条条算,效率极高。 - 例子:
100条房屋样本的特征矩阵(100×3) × 权重矩阵(3×1) = 预测结果矩阵(100×1)
一次性算出100套房子的预测价格。
4. 两个常用操作
- 转置:把矩阵的行和列互换。作用:调整维度,让两个矩阵满足乘法要求。
- 逆矩阵:类似数字里的“倒数”,A×A⁻¹ = 单位矩阵。作用:线性回归的最小二乘法求解,入门阶段用得少,知道概念即可。
5. L1/L2范数
- 通俗解释:衡量一个向量的“长度/大小”。
- L2范数:向量每个元素平方和再开根号,就是我们常说的“欧氏距离”。
- L1范数:向量每个元素的绝对值之和。
- AI核心用途:正则化
在损失函数里加入权重的范数,限制权重不能太大,防止模型“死记硬背训练数据”(过拟合)。最常用的是L2正则化。
6. 线性变换的直观理解
矩阵乘法的本质,是对向量做「旋转、缩放、拉伸」的空间变换。
神经网络每一层的作用:先做一次线性变换(矩阵乘法),再用激活函数把直线“掰弯”,多层叠加后就能拟合极其复杂的规律。
了解即可(入门不用深挖)
行列式、秩、特征值/特征向量、奇异值分解(SVD)。
它们会在PCA降维、推荐系统矩阵分解里用到,但入门阶段会调用工具函数就行,不用自己推导计算。
二、微积分:模型学习的动力核心
核心定位
机器学习的核心算法是梯度下降——模型不断改错、优化参数的过程,而“梯度”就是微积分里偏导数组成的向量。反向传播算法,本质就是用链式法则一层层反向计算梯度。
零基础划重点:只学「导数→偏导数→梯度→链式法则」,积分几乎用不到,可以先不学。
必学核心知识点
1. 导数:单变量的变化率
- 通俗解释:函数在某一点的斜率,代表「x变一点点,y会变多少」。
- 导数>0:x增大,y跟着变大;
- 导数<0:x增大,y反而变小;
- 导数=0:到达最高点或最低点。
- AI里的意义:
损失函数 J(w) 表示“权重为w时,模型的误差有多大”。
对w求导,就能知道:权重w调大一点点,误差会变大还是变小、变多少,从而知道该把w调大还是调小。
2. 偏导数:多变量的“单变量变化率”
- 通俗解释:函数有很多个变量(比如模型有100个权重参数),只让其中一个变量动,其他全部固定不动,算这个变量的变化率。
- AI里的意义:
模型有几百上千个权重,对每个权重单独求偏导,就能知道每个参数对最终误差的影响有多大,逐个调整参数让误差变小。 - 例子:房价模型有两个权重w₁(面积权重)、w₂(房间数权重),对w₁求偏导,就能知道“面积权重调1个单位,总误差会变多少”。
3. 梯度:所有偏导数组成的向量
- 通俗解释:梯度是一个向量,它指向函数值上升最快的方向。
- 核心结论(梯度下降算法):
我们的目标是让损失(误差)变小,所以参数更新要往梯度的反方向走。
简化公式:新权重 = 旧权重 - 学习率 × 梯度- 学习率:更新的“步长”,步太大容易跳过最低点,步太小收敛太慢。
4. 链式法则:复合函数求导
- 通俗解释:像链条一样,一层层传递变化率。对于 y = f(g(x)),y对x的导数 = y对g的导数 × g对x的导数。
- AI核心用途:反向传播算法的灵魂
深层神经网络有很多层,误差从输出层产生,要靠链式法则一层层往回传,算出每一层权重的梯度。就像“倒推责任”:最终结果错了,看看每一层该负多少责任。
5. 激活函数的导数
- Sigmoid函数:把数值压缩到0~1之间,导数最大值只有0.25。网络深了之后,梯度越传越小,前面的层几乎学不到东西,这就是梯度消失。
- ReLU函数:正数部分导数=1,负数部分导数=0。大幅缓解了梯度消失问题,是现在最常用的激活函数。
了解即可(入门不用深挖)
高阶导数、泰勒展开、积分、凸优化证明。
积分只在概率分布的理论推导里出现,入门会用现成的分布函数就行,不用自己计算积分。
三、概率统计:模型判断的逻辑依据
核心定位
机器学习处理的是“不确定性”——预测不是100%准确,而是给出概率。模型评估、参数优化、生成模型、噪声处理都离不开概率统计。
必学核心知识点
1. 基础概率概念
- 概率:事件发生的可能性,取值在0~1之间。
- 联合概率:事件A和事件B同时发生的概率,记为 P(A,B)。
- 条件概率:事件B已经发生的前提下,事件A发生的概率,记为 P(A|B)。
- 例子:
P(垃圾邮件) = 0.3(所有邮件里30%是垃圾邮件)
P(垃圾邮件 | 含“中奖”字样) = 0.9(含“中奖”的邮件里,90%是垃圾邮件)
2. 贝叶斯定理
- 公式:
P(A|B) = P(B|A) × P(A) / P(B) - 通俗解释:我们先有一个「先验概率」P(A),当看到新的证据B之后,更新得到更准确的「后验概率」P(A|B)。
- AI用途:朴素贝叶斯分类算法、贝叶斯优化、概率类模型。
- 例子:
先验:随便一封邮件是垃圾邮件的概率30%;
看到邮件里有“中奖”二字,更新后验概率:这封邮件90%是垃圾邮件。
3. 随机变量与核心分布
-
随机变量:把随机事件的结果用数字表示
- 离散型:分类任务的结果,比如 0=猫、1=狗;
- 连续型:回归任务的结果,比如房价、身高。
-
正态分布(高斯分布)——最重要的分布
- 形状:中间高、两边低的钟形曲线,大部分数据集中在均值附近。
- 两个参数:均值μ(中心位置)、方差σ²(数据分散程度)。
- AI用途:神经网络权重初始化、数据归一化、噪声建模。很多自然数据本身就近似正态分布。
-
均匀分布:所有结果出现的概率相等。
- AI用途:随机初始化参数、数据增强随机裁剪。
4. 期望、方差、标准差
- 期望(均值):随机变量的平均结果,记为 E[X]。
- 方差:衡量数据的离散/波动程度,
Var(X) = 数据与均值差的平方的平均值。 - 标准差:方差开根号,和原数据单位一致,更直观。
- AI核心用途:数据标准化/归一化
把不同量纲的特征(比如面积0-200、房间数0-5)统一变成「均值0、方差1」,让模型训练更稳定、收敛更快。
5. 协方差与相关系数
- 协方差:衡量两个变量是“正相关”还是“负相关”。
- 相关系数:把协方差归一化到-1~1之间,衡量相关性强弱(1=完全正相关,-1=完全负相关,0=不相关)。
- AI用途:特征工程
去掉高度相关的冗余特征,减少计算量,避免模型被重复信息干扰。
6. 最大似然估计(MLE)
- 通俗解释:找到一组参数,让“我们观测到现有数据”的概率最大。
- AI核心意义:模型训练的本质
我们训练模型找最优权重,本质就是最大化似然概率——让模型的输出最贴合训练数据。 - 例子:扔硬币10次,7次正面朝上,最大似然估计得到“正面朝上的概率是0.7”。
了解即可(入门不用深挖)
假设检验、t检验、卡方检验、贝叶斯网络、马尔可夫链。
这些在传统统计分析里常用,深度学习入门阶段几乎碰不到。
四、零基础学习建议
-
优先级排序:线性代数 > 微积分 > 概率统计
线性代数是数据和运算的基础,最先学;微积分核心掌握梯度概念,跟着梯度下降算法一起学;概率统计可以边做项目边补。 -
重直观意义,轻公式推导
比如记住“梯度就是上坡方向”“矩阵乘法就是批量加权求和”,比背推导过程有用得多。入门阶段能对应上AI场景、会用工具计算就够。 -
边用边学,不要等“数学学好了”再学AI
正确节奏:学一点基础概念 → 跑通简单模型 → 遇到不懂的数学点回头补 → 再进阶。纯啃数学教材很容易枯燥放弃。 -
动手验证,用代码代替手算
学线性代数就用NumPy写代码算矩阵乘法、点积;学梯度就手动算一遍简单函数的梯度,再用框架的自动微分验证,比光看公式印象深得多。