了解机器学习-3.数学部分学习路线（线性代数 + 微积分 + 概率统计）

机器学习

了解机器学习 - 3. 数学部分学习路线（线性代数 + 微积分 + 概率统计）

先明确核心原则：不用啃完整大学教材，只学机器学习真正高频用到的部分，重点理解「直观意义 + 在AI里的作用」，跳过复杂证明和冷门知识点。学的时候遵循「先懂概念→知道在哪用→用到时再深挖」，不用一次性全学透。

一、线性代数：机器学习的数据骨架

核心定位

所有数据、模型参数、神经网络运算，本质都是线性代数的运算。神经网络的「前向传播」，核心就是一层层的矩阵乘法 + 非线性激活。可以说，线性代数是AI的“数据语言”。

必学核心知识点

1. 四层基础数据结构

从简单到复杂，对应AI里不同形态的数据：

名称	通俗解释	维度	AI里的对应场景
标量	单个数字	0维	学习率、损失值、单个预测结果
向量	一排数字（一维数组）	1维	单条样本的所有特征，比如`[面积60, 房间数2, 楼层5]`
矩阵	二维表格，行×列	2维	整个数据集：每行1条样本，每列1个特征
张量	多维数组	N维	图片（高×宽×3通道）、视频、批量特征图；PyTorch/TensorFlow的基础数据单位就叫Tensor

2. 向量核心运算：点积（内积）

规则：两个长度相同的向量，对应位置相乘再相加，最终得到一个标量。
AI核心用途：加权求和
模型做预测的本质，就是「特征 × 对应权重，再全部加起来」，这就是向量点积。
例子（房价预测）：
特征向量 = [60, 2]（60平米，2个房间）
权重向量 = [3, 10]（每平米3万，每个房间加10万）
预测房价 = 60×3 + 2×10 = 200万 → 这就是一次点积运算

3. 矩阵核心运算：矩阵乘法

这是深度学习最核心的运算，没有之一。

规则：第一个矩阵的「行」和第二个矩阵的「列」做点积，结果组成新矩阵。
- 维度匹配要求：A(m行n列) × B(n行p列) = C(m行p列)
- 关键特点：不满足交换律，A×B ≠ B×A
AI核心用途：批量加权求和
一次计算一整批样本的预测结果，不用一条条算，效率极高。
例子：
100条房屋样本的特征矩阵（100×3） × 权重矩阵（3×1） = 预测结果矩阵（100×1）
一次性算出100套房子的预测价格。

4. 两个常用操作

转置：把矩阵的行和列互换。作用：调整维度，让两个矩阵满足乘法要求。
逆矩阵：类似数字里的“倒数”，A×A⁻¹ = 单位矩阵。作用：线性回归的最小二乘法求解，入门阶段用得少，知道概念即可。

5. L1/L2范数

通俗解释：衡量一个向量的“长度/大小”。
- L2范数：向量每个元素平方和再开根号，就是我们常说的“欧氏距离”。
- L1范数：向量每个元素的绝对值之和。
AI核心用途：正则化
在损失函数里加入权重的范数，限制权重不能太大，防止模型“死记硬背训练数据”（过拟合）。最常用的是L2正则化。

6. 线性变换的直观理解

矩阵乘法的本质，是对向量做「旋转、缩放、拉伸」的空间变换。
神经网络每一层的作用：先做一次线性变换（矩阵乘法），再用激活函数把直线“掰弯”，多层叠加后就能拟合极其复杂的规律。

了解即可（入门不用深挖）

行列式、秩、特征值/特征向量、奇异值分解（SVD）。
它们会在PCA降维、推荐系统矩阵分解里用到，但入门阶段会调用工具函数就行，不用自己推导计算。

二、微积分：模型学习的动力核心

核心定位

机器学习的核心算法是梯度下降——模型不断改错、优化参数的过程，而“梯度”就是微积分里偏导数组成的向量。反向传播算法，本质就是用链式法则一层层反向计算梯度。

零基础划重点：只学「导数→偏导数→梯度→链式法则」，积分几乎用不到，可以先不学。

必学核心知识点

1. 导数：单变量的变化率

通俗解释：函数在某一点的斜率，代表「x变一点点，y会变多少」。
- 导数>0：x增大，y跟着变大；
- 导数<0：x增大，y反而变小；
- 导数=0：到达最高点或最低点。
AI里的意义：
损失函数 J(w) 表示“权重为w时，模型的误差有多大”。
对w求导，就能知道：权重w调大一点点，误差会变大还是变小、变多少，从而知道该把w调大还是调小。

2. 偏导数：多变量的“单变量变化率”

通俗解释：函数有很多个变量（比如模型有100个权重参数），只让其中一个变量动，其他全部固定不动，算这个变量的变化率。
AI里的意义：
模型有几百上千个权重，对每个权重单独求偏导，就能知道每个参数对最终误差的影响有多大，逐个调整参数让误差变小。
例子：房价模型有两个权重w₁（面积权重）、w₂（房间数权重），对w₁求偏导，就能知道“面积权重调1个单位，总误差会变多少”。

3. 梯度：所有偏导数组成的向量

通俗解释：梯度是一个向量，它指向函数值上升最快的方向。
核心结论（梯度下降算法）：
我们的目标是让损失（误差）变小，所以参数更新要往梯度的反方向走。
简化公式：新权重 = 旧权重 - 学习率 × 梯度
- 学习率：更新的“步长”，步太大容易跳过最低点，步太小收敛太慢。

4. 链式法则：复合函数求导

通俗解释：像链条一样，一层层传递变化率。对于 y = f(g(x))，y对x的导数 = y对g的导数 × g对x的导数。
AI核心用途：反向传播算法的灵魂
深层神经网络有很多层，误差从输出层产生，要靠链式法则一层层往回传，算出每一层权重的梯度。就像“倒推责任”：最终结果错了，看看每一层该负多少责任。

5. 激活函数的导数

Sigmoid函数：把数值压缩到0~1之间，导数最大值只有0.25。网络深了之后，梯度越传越小，前面的层几乎学不到东西，这就是梯度消失。
ReLU函数：正数部分导数=1，负数部分导数=0。大幅缓解了梯度消失问题，是现在最常用的激活函数。

了解即可（入门不用深挖）

高阶导数、泰勒展开、积分、凸优化证明。
积分只在概率分布的理论推导里出现，入门会用现成的分布函数就行，不用自己计算积分。

三、概率统计：模型判断的逻辑依据

核心定位

机器学习处理的是“不确定性”——预测不是100%准确，而是给出概率。模型评估、参数优化、生成模型、噪声处理都离不开概率统计。

必学核心知识点

1. 基础概率概念

概率：事件发生的可能性，取值在0~1之间。
联合概率：事件A和事件B同时发生的概率，记为 P(A,B)。
条件概率：事件B已经发生的前提下，事件A发生的概率，记为 P(A|B)。
例子：
P(垃圾邮件) = 0.3（所有邮件里30%是垃圾邮件）
P(垃圾邮件 | 含“中奖”字样) = 0.9（含“中奖”的邮件里，90%是垃圾邮件）

2. 贝叶斯定理

公式：P(A|B) = P(B|A) × P(A) / P(B)
通俗解释：我们先有一个「先验概率」P(A)，当看到新的证据B之后，更新得到更准确的「后验概率」P(A|B)。
AI用途：朴素贝叶斯分类算法、贝叶斯优化、概率类模型。
例子：
先验：随便一封邮件是垃圾邮件的概率30%；
看到邮件里有“中奖”二字，更新后验概率：这封邮件90%是垃圾邮件。

3. 随机变量与核心分布

随机变量：把随机事件的结果用数字表示
- 离散型：分类任务的结果，比如 0=猫、1=狗；
- 连续型：回归任务的结果，比如房价、身高。
正态分布（高斯分布）——最重要的分布
- 形状：中间高、两边低的钟形曲线，大部分数据集中在均值附近。
- 两个参数：均值μ（中心位置）、方差σ²（数据分散程度）。
- AI用途：神经网络权重初始化、数据归一化、噪声建模。很多自然数据本身就近似正态分布。
均匀分布：所有结果出现的概率相等。
- AI用途：随机初始化参数、数据增强随机裁剪。

4. 期望、方差、标准差

期望（均值）：随机变量的平均结果，记为 E[X]。
方差：衡量数据的离散/波动程度，Var(X) = 数据与均值差的平方的平均值。
标准差：方差开根号，和原数据单位一致，更直观。
AI核心用途：数据标准化/归一化
把不同量纲的特征（比如面积0-200、房间数0-5）统一变成「均值0、方差1」，让模型训练更稳定、收敛更快。

5. 协方差与相关系数

协方差：衡量两个变量是“正相关”还是“负相关”。
相关系数：把协方差归一化到-1~1之间，衡量相关性强弱（1=完全正相关，-1=完全负相关，0=不相关）。
AI用途：特征工程
去掉高度相关的冗余特征，减少计算量，避免模型被重复信息干扰。

6. 最大似然估计（MLE）

通俗解释：找到一组参数，让“我们观测到现有数据”的概率最大。
AI核心意义：模型训练的本质
我们训练模型找最优权重，本质就是最大化似然概率——让模型的输出最贴合训练数据。
例子：扔硬币10次，7次正面朝上，最大似然估计得到“正面朝上的概率是0.7”。

了解即可（入门不用深挖）

假设检验、t检验、卡方检验、贝叶斯网络、马尔可夫链。
这些在传统统计分析里常用，深度学习入门阶段几乎碰不到。

四、零基础学习建议

优先级排序：线性代数 > 微积分 > 概率统计
线性代数是数据和运算的基础，最先学；微积分核心掌握梯度概念，跟着梯度下降算法一起学；概率统计可以边做项目边补。
重直观意义，轻公式推导
比如记住“梯度就是上坡方向”“矩阵乘法就是批量加权求和”，比背推导过程有用得多。入门阶段能对应上AI场景、会用工具计算就够。
边用边学，不要等“数学学好了”再学AI
正确节奏：学一点基础概念 → 跑通简单模型 → 遇到不懂的数学点回头补 → 再进阶。纯啃数学教材很容易枯燥放弃。
动手验证，用代码代替手算
学线性代数就用NumPy写代码算矩阵乘法、点积；学梯度就手动算一遍简单函数的梯度，再用框架的自动微分验证，比光看公式印象深得多。

如果觉得文章对你有用，请随意赞赏

ai

了解机器学习-3.数学部分学习路线（线性代数 + 微积分 + 概率统计）

https://wuanwanghao.top/archives/liao-jie-ji-qi-xue-xi-shu-xue-bu-fen-xue-xi-lu-xian-xian-xing-dai-shu-wei-ji-fen-gai-lu-tong-ji

作者

忘皓

发布于

2026-06-24

更新于

2026-06-24

许可协议

CC BY 4.0

了解机器学习-3.数学部分学习路线（线性代数 + 微积分 + 概率统计）

了解机器学习 - 3. 数学部分学习路线（线性代数 + 微积分 + 概率统计）

一、线性代数：机器学习的数据骨架

核心定位

必学核心知识点

1. 四层基础数据结构

2. 向量核心运算：点积（内积）

3. 矩阵核心运算：矩阵乘法

4. 两个常用操作

5. L1/L2范数

6. 线性变换的直观理解

了解即可（入门不用深挖）

二、微积分：模型学习的动力核心

核心定位

必学核心知识点

1. 导数：单变量的变化率

2. 偏导数：多变量的“单变量变化率”

3. 梯度：所有偏导数组成的向量

4. 链式法则：复合函数求导

5. 激活函数的导数

了解即可（入门不用深挖）

三、概率统计：模型判断的逻辑依据

核心定位

必学核心知识点

1. 基础概率概念

2. 贝叶斯定理

3. 随机变量与核心分布

4. 期望、方差、标准差

5. 协方差与相关系数

6. 最大似然估计（MLE）

了解即可（入门不用深挖）

四、零基础学习建议

作者

发布于

更新于

许可协议

评论