了解机器学习 - 3. 数学部分学习路线(线性代数 + 微积分 + 概率统计)

先明确核心原则:不用啃完整大学教材,只学机器学习真正高频用到的部分,重点理解「直观意义 + 在AI里的作用」,跳过复杂证明和冷门知识点。学的时候遵循「先懂概念→知道在哪用→用到时再深挖」,不用一次性全学透。


一、线性代数:机器学习的数据骨架

核心定位

所有数据、模型参数、神经网络运算,本质都是线性代数的运算。神经网络的「前向传播」,核心就是一层层的矩阵乘法 + 非线性激活。可以说,线性代数是AI的“数据语言”。

必学核心知识点

1. 四层基础数据结构

从简单到复杂,对应AI里不同形态的数据:

名称通俗解释维度AI里的对应场景
标量单个数字0维学习率、损失值、单个预测结果
向量一排数字(一维数组)1维单条样本的所有特征,比如[面积60, 房间数2, 楼层5]
矩阵二维表格,行×列2维整个数据集:每行1条样本,每列1个特征
张量多维数组N维图片(高×宽×3通道)、视频、批量特征图;PyTorch/TensorFlow的基础数据单位就叫Tensor

2. 向量核心运算:点积(内积)

  • 规则:两个长度相同的向量,对应位置相乘再相加,最终得到一个标量。
  • AI核心用途:加权求和
    模型做预测的本质,就是「特征 × 对应权重,再全部加起来」,这就是向量点积。
  • 例子(房价预测):
    特征向量 = [60, 2](60平米,2个房间)
    权重向量 = [3, 10](每平米3万,每个房间加10万)
    预测房价 = 60×3 + 2×10 = 200万 → 这就是一次点积运算

3. 矩阵核心运算:矩阵乘法

这是深度学习最核心的运算,没有之一。

  • 规则:第一个矩阵的「行」和第二个矩阵的「列」做点积,结果组成新矩阵。
    • 维度匹配要求:A(m行n列) × B(n行p列) = C(m行p列)
    • 关键特点:不满足交换律,A×B ≠ B×A
  • AI核心用途:批量加权求和
    一次计算一整批样本的预测结果,不用一条条算,效率极高。
  • 例子:
    100条房屋样本的特征矩阵(100×3) × 权重矩阵(3×1) = 预测结果矩阵(100×1)
    一次性算出100套房子的预测价格。

4. 两个常用操作

  • 转置:把矩阵的行和列互换。作用:调整维度,让两个矩阵满足乘法要求。
  • 逆矩阵:类似数字里的“倒数”,A×A⁻¹ = 单位矩阵。作用:线性回归的最小二乘法求解,入门阶段用得少,知道概念即可。

5. L1/L2范数

  • 通俗解释:衡量一个向量的“长度/大小”。
    • L2范数:向量每个元素平方和再开根号,就是我们常说的“欧氏距离”。
    • L1范数:向量每个元素的绝对值之和。
  • AI核心用途:正则化
    在损失函数里加入权重的范数,限制权重不能太大,防止模型“死记硬背训练数据”(过拟合)。最常用的是L2正则化。

6. 线性变换的直观理解

矩阵乘法的本质,是对向量做「旋转、缩放、拉伸」的空间变换。
神经网络每一层的作用:先做一次线性变换(矩阵乘法),再用激活函数把直线“掰弯”,多层叠加后就能拟合极其复杂的规律。

了解即可(入门不用深挖)

行列式、秩、特征值/特征向量、奇异值分解(SVD)。
它们会在PCA降维、推荐系统矩阵分解里用到,但入门阶段会调用工具函数就行,不用自己推导计算。


二、微积分:模型学习的动力核心

核心定位

机器学习的核心算法是梯度下降——模型不断改错、优化参数的过程,而“梯度”就是微积分里偏导数组成的向量。反向传播算法,本质就是用链式法则一层层反向计算梯度。

零基础划重点:只学「导数→偏导数→梯度→链式法则」,积分几乎用不到,可以先不学。

必学核心知识点

1. 导数:单变量的变化率

  • 通俗解释:函数在某一点的斜率,代表「x变一点点,y会变多少」。
    • 导数>0:x增大,y跟着变大;
    • 导数<0:x增大,y反而变小;
    • 导数=0:到达最高点或最低点。
  • AI里的意义
    损失函数 J(w) 表示“权重为w时,模型的误差有多大”。
    对w求导,就能知道:权重w调大一点点,误差会变大还是变小、变多少,从而知道该把w调大还是调小。

2. 偏导数:多变量的“单变量变化率”

  • 通俗解释:函数有很多个变量(比如模型有100个权重参数),只让其中一个变量动,其他全部固定不动,算这个变量的变化率。
  • AI里的意义
    模型有几百上千个权重,对每个权重单独求偏导,就能知道每个参数对最终误差的影响有多大,逐个调整参数让误差变小。
  • 例子:房价模型有两个权重w₁(面积权重)、w₂(房间数权重),对w₁求偏导,就能知道“面积权重调1个单位,总误差会变多少”。

3. 梯度:所有偏导数组成的向量

  • 通俗解释:梯度是一个向量,它指向函数值上升最快的方向
  • 核心结论(梯度下降算法)
    我们的目标是让损失(误差)变小,所以参数更新要往梯度的反方向走。
    简化公式:新权重 = 旧权重 - 学习率 × 梯度
    • 学习率:更新的“步长”,步太大容易跳过最低点,步太小收敛太慢。

4. 链式法则:复合函数求导

  • 通俗解释:像链条一样,一层层传递变化率。对于 y = f(g(x)),y对x的导数 = y对g的导数 × g对x的导数。
  • AI核心用途:反向传播算法的灵魂
    深层神经网络有很多层,误差从输出层产生,要靠链式法则一层层往回传,算出每一层权重的梯度。就像“倒推责任”:最终结果错了,看看每一层该负多少责任。

5. 激活函数的导数

  • Sigmoid函数:把数值压缩到0~1之间,导数最大值只有0.25。网络深了之后,梯度越传越小,前面的层几乎学不到东西,这就是梯度消失
  • ReLU函数:正数部分导数=1,负数部分导数=0。大幅缓解了梯度消失问题,是现在最常用的激活函数。

了解即可(入门不用深挖)

高阶导数、泰勒展开、积分、凸优化证明。
积分只在概率分布的理论推导里出现,入门会用现成的分布函数就行,不用自己计算积分。


三、概率统计:模型判断的逻辑依据

核心定位

机器学习处理的是“不确定性”——预测不是100%准确,而是给出概率。模型评估、参数优化、生成模型、噪声处理都离不开概率统计。

必学核心知识点

1. 基础概率概念

  • 概率:事件发生的可能性,取值在0~1之间。
  • 联合概率:事件A和事件B同时发生的概率,记为 P(A,B)。
  • 条件概率:事件B已经发生的前提下,事件A发生的概率,记为 P(A|B)。
  • 例子:
    P(垃圾邮件) = 0.3(所有邮件里30%是垃圾邮件)
    P(垃圾邮件 | 含“中奖”字样) = 0.9(含“中奖”的邮件里,90%是垃圾邮件)

2. 贝叶斯定理

  • 公式:P(A|B) = P(B|A) × P(A) / P(B)
  • 通俗解释:我们先有一个「先验概率」P(A),当看到新的证据B之后,更新得到更准确的「后验概率」P(A|B)。
  • AI用途:朴素贝叶斯分类算法、贝叶斯优化、概率类模型。
  • 例子:
    先验:随便一封邮件是垃圾邮件的概率30%;
    看到邮件里有“中奖”二字,更新后验概率:这封邮件90%是垃圾邮件。

3. 随机变量与核心分布

  • 随机变量:把随机事件的结果用数字表示

    • 离散型:分类任务的结果,比如 0=猫、1=狗;
    • 连续型:回归任务的结果,比如房价、身高。
  • 正态分布(高斯分布)——最重要的分布

    • 形状:中间高、两边低的钟形曲线,大部分数据集中在均值附近。
    • 两个参数:均值μ(中心位置)、方差σ²(数据分散程度)。
    • AI用途:神经网络权重初始化、数据归一化、噪声建模。很多自然数据本身就近似正态分布。
  • 均匀分布:所有结果出现的概率相等。

    • AI用途:随机初始化参数、数据增强随机裁剪。

4. 期望、方差、标准差

  • 期望(均值):随机变量的平均结果,记为 E[X]。
  • 方差:衡量数据的离散/波动程度,Var(X) = 数据与均值差的平方的平均值
  • 标准差:方差开根号,和原数据单位一致,更直观。
  • AI核心用途:数据标准化/归一化
    把不同量纲的特征(比如面积0-200、房间数0-5)统一变成「均值0、方差1」,让模型训练更稳定、收敛更快。

5. 协方差与相关系数

  • 协方差:衡量两个变量是“正相关”还是“负相关”。
  • 相关系数:把协方差归一化到-1~1之间,衡量相关性强弱(1=完全正相关,-1=完全负相关,0=不相关)。
  • AI用途:特征工程
    去掉高度相关的冗余特征,减少计算量,避免模型被重复信息干扰。

6. 最大似然估计(MLE)

  • 通俗解释:找到一组参数,让“我们观测到现有数据”的概率最大。
  • AI核心意义:模型训练的本质
    我们训练模型找最优权重,本质就是最大化似然概率——让模型的输出最贴合训练数据。
  • 例子:扔硬币10次,7次正面朝上,最大似然估计得到“正面朝上的概率是0.7”。

了解即可(入门不用深挖)

假设检验、t检验、卡方检验、贝叶斯网络、马尔可夫链。
这些在传统统计分析里常用,深度学习入门阶段几乎碰不到。


四、零基础学习建议

  1. 优先级排序:线性代数 > 微积分 > 概率统计
    线性代数是数据和运算的基础,最先学;微积分核心掌握梯度概念,跟着梯度下降算法一起学;概率统计可以边做项目边补。

  2. 重直观意义,轻公式推导
    比如记住“梯度就是上坡方向”“矩阵乘法就是批量加权求和”,比背推导过程有用得多。入门阶段能对应上AI场景、会用工具计算就够。

  3. 边用边学,不要等“数学学好了”再学AI
    正确节奏:学一点基础概念 → 跑通简单模型 → 遇到不懂的数学点回头补 → 再进阶。纯啃数学教材很容易枯燥放弃。

  4. 动手验证,用代码代替手算
    学线性代数就用NumPy写代码算矩阵乘法、点积;学梯度就手动算一遍简单函数的梯度,再用框架的自动微分验证,比光看公式印象深得多。