了解机器学习-1.机器学习的发展历史

机器学习

了解机器学习- 1. 机器学习的发展历史

一、先搞懂基础概念：AI / 机器学习 / 深度学习

我们用「识别图片里的猫」这个例子，把三个层级和核心术语讲明白：

1. 三者的包含关系

人工智能（AI）
【术语解释】人工智能是一个大目标：让机器具备人类一样的智能能力（看、听、思考、决策等）。它包含很多技术路线，机器学习是其中最主流的一条。

机器学习（ML）
【术语解释】机器学习是实现人工智能的一种方法：不给机器写死一条条规则，而是给它大量数据，让它自己从数据里总结规律、学会做判断。

传统机器学习：需要人先帮机器提炼好「判断依据」（比如猫有尖耳朵、长胡须、圆脸），机器再根据这些依据去分类。

深度学习（DL）
【术语解释】深度学习是机器学习的一个分支，核心是多层神经网络（层数≥3就可以叫“深度”）。它不需要人手动提炼判断依据，能自己从原始像素里一层层找出规律（像素→边缘→纹理→器官→整体猫脸）。

一句话总结：深度学习 ⊂ 机器学习 ⊂ 人工智能。

2. 两个最核心的基础术语

特征工程
【术语解释】人工帮机器提炼“判断依据”的过程。比如识别垃圾邮件，人提前标注“含中奖、汇款字样的大概率是垃圾邮件”，这个提炼规则的工作就是特征工程。

传统机器学习非常依赖人工特征工程，效果上限取决于人的经验；
深度学习自动做特征工程，这是它最大的革命。

神经网络
【术语解释】模仿人类大脑神经元连接方式设计的数学模型，由一层层“神经元节点”组成，数据从输入层传进去，经过中间层计算，最后输出结果。层数越多，模型能学习的规律越复杂。

二、完整发展史：从规则到机器学习，再到深度学习

阶段1：萌芽与第一次寒冬（1940年代 — 1980年代末）

核心：神经网络从无到有，刚火就遇冷。

1943年：M-P神经元模型
【术语解释】最早的数学化神经元，用简单的电路模拟大脑神经元的“刺激-响应”逻辑，是所有神经网络的理论原点。
1958年：感知机（Perceptron）
【术语解释】世界上第一个可以学习的单层神经网络，能做简单的是非分类（比如区分两种形状），当时被寄予厚望。
1969年：第一次AI寒冬
数学家明斯基出版《感知机》，证明单层神经网络连最简单的“异或问题”都解决不了（比如判断两个输入是否不一样），直接给神经网络浇了冷水，此后近20年神经网络研究几乎停滞。
1986年：反向传播算法（BP算法）
【术语解释】训练多层神经网络的核心算法。简单说就是“错题订正机制”：模型预测错了，就从输出层往回一层层调整每个神经元的参数，让下次预测更准。
- 它解决了多层网络不会“学习”的难题，神经网络短暂复兴。
同期主流：符号主义/专家系统
【术语解释】靠人工写死大量逻辑规则来实现智能，比如医疗专家系统把医生的诊断经验一条条写成代码。当时是AI主流，本质和“机器学习”不是一条路线。

阶段2：传统机器学习黄金期（1990年代 — 2012年）

核心：统计学习成为主流，神经网络再次遇冷（第二次寒冬）。

1995年：支持向量机（SVM）
【术语解释】一种经典的分类算法，数学理论非常严谨，在小数据集上效果稳定、泛化能力强，很快成为工业界首选。
2001年：随机森林
【术语解释】集成学习算法的代表，把很多棵决策树组合起来，抗过拟合能力强，不用复杂调参，至今仍是传统机器学习的常用算法。
1998年：LeNet-5
【术语解释】杨立昆设计的第一个实用卷积神经网络（CNN），用于手写数字识别，准确率达99%。但当时算力不足、数据太少，没有普及开。
为什么神经网络又冷了？
数据少、算力贵，多层网络训练慢、容易过拟合，效果打不过SVM、随机森林，工业界更愿意用成熟稳定的传统算法。

阶段3：深度学习爆发期（2012年 — 2017年）

核心：GPU算力+大数据让神经网络彻底翻身，CV/NLP全面革命。

注 CV (Computer Vision = 计算机视觉)
注 NLP (Natural Language Processing = 自然语言处理)

2012年：AlexNet —— 深度学习元年标志
【术语解释】Hinton团队设计的8层卷积神经网络，在ImageNet图像分类比赛中，把错误率从26%直接打到15.3%，碾压第二名的传统SVM方案。
- 关键创新：用GPU加速训练、ReLU激活函数（解决梯度消失）、Dropout（防止过拟合）。
- 【术语解释：梯度消失】深层网络训练时，误差往回传的过程中会越来越小，前面的层几乎学不到东西，是早年深度网络训不深的核心原因。
2014年：GAN生成对抗网络
【术语解释】一种生成式模型，由“生成器”和“判别器”互相对抗训练，能生成以假乱真的图片、视频，是AIGC的技术源头之一。
2015年：ResNet残差网络
【术语解释】何恺明提出的“残差连接”结构，完美解决了深层网络的梯度消失问题，网络层数从十几层直接做到上百层，图像识别准确率首次超过人类。

阶段4：大模型时代（2017年 — 至今）

核心：Transformer架构统一NLP，大模型走向通用智能。

2017年：Transformer
【术语解释】Google提出的全新网络架构，核心是自注意力机制——模型能自动关注输入里的关键信息（比如翻译句子时，一个词能关联到上下文里所有相关的词）。
- 它摆脱了CNN、RNN的结构限制，非常适合并行计算，是现在所有大语言模型、多模态模型的基础。
2018年起：BERT、GPT系列、多模态大模型
基于Transformer，NLP、语音、图像、视频领域陆续被大模型攻克，AI从“专用任务”走向“通用能力”。

三、技术框架完整迭代史（补全所有主流框架）

框架就是“写AI模型的工具包”，不用从零写矩阵运算、反向传播，开箱就能搭模型、训模型。我们按时间线和定位分类讲：

阶段1：传统机器学习工具库（2000年前后 — 至今）

主打传统统计算法，不涉及深度神经网络，至今仍在数据预处理、小数据任务中广泛使用。

Scikit-learn（2010，Python社区）
- 定位：Python生态最主流的传统机器学习库
- 特点：封装了SVM、随机森林、逻辑回归、聚类降维等几乎所有经典算法，API统一、上手简单，配套了完整的特征工程、模型评估工具。
- 现状：至今仍是数据分析、机器学习入门、小数据任务的首选。
Weka
- 定位：Java语言的可视化机器学习工具
- 特点：有图形界面，不用写代码就能跑算法，适合教学、快速验证思路。
LibSVM / LibLinear
- 定位：SVM算法的专用高效库
- 特点：轻量、速度极快，只做SVM相关算法，早年工业界做分类任务必备。

阶段2：深度学习初代先驱（2010 — 2015）

第一批能搭深度神经网络的框架，现在基本都停止维护了，属于“铺路者”。

Theano（2008，蒙特利尔大学）
- 定位：世界上第一个Python深度学习库
- 贡献：首创了符号计算、自动微分【术语解释：自动帮你算梯度，不用手动推导求导公式】，奠定了所有后续深度学习框架的基础。
- 现状：2017年停止维护，被TensorFlow、PyTorch取代。
Caffe（2013，贾扬清/伯克利）
- 定位：早期计算机视觉领域的主流框架
- 特点：专门优化了卷积神经网络，速度快、部署方便，配好配置文件就能跑，不用写太多代码。
- 现状：后续衍生出Caffe2，最终被PyTorch整合。
Torch（2002，纽约大学）
- 定位：Lua语言的科学计算+深度学习框架
- 特点：灵活、动态执行，研究人员很喜欢，但Lua语言太小众，普及受限。
- 现状：是PyTorch的前身，PyTorch把它的设计思想迁移到了Python上。

阶段3：第二代主流框架争霸（2015 — 2020）

深度学习爆发后，大厂入场，形成“三足鼎立”格局，最终逐步走向两强。

TensorFlow（2015，Google）
- 定位：工业界曾经的绝对主流
- 1.x版本：采用静态计算图
  【术语解释：计算图】神经网络的运算流程图，所有加减乘除、矩阵运算都按图执行。
  - 静态图：先定义完整的图，再统一执行（先画完施工图再施工），运行速度快、适合部署，但调试非常麻烦，写代码体验差。
- 2.x版本（2019）：改成动态图优先、动静统一，并把Keras集成成官方高阶API，易用性大幅提升。
- 生态：TensorFlow Lite（手机端部署）、TensorFlow.js（浏览器运行）、TPU硬件支持，部署能力依然最强。
- 现状：工业界存量项目多，新研究项目逐步被PyTorch超越。
MXNet（2015，社区主导 / 亚马逊AWS官方）
- 定位：曾经的“第三极”，性能极强的多语言框架
- 核心特点：
  - 天生支持动静合一：既可以用动态图调试，也可以转静态图部署，兼顾灵活和效率；
  - 内存优化做得极好，同样的显卡能训更大的模型；
  - 支持Python、C++、R、Scala等多语言，适配工业界不同技术栈。
- 兴衰：早年是亚马逊AWS的官方推荐框架，国内也有很多公司用。但社区运营和生态建设不如PyTorch、TensorFlow，研究人员用得少，新论文复现优先度低，逐步淡出主流。
- 现状：亚马逊内部仍在使用，社区活跃度大幅下降。
PyTorch（2016，Meta / Facebook）
- 定位：当前研究界绝对主流，工业界快速追赶
- 核心特点：原生动态计算图，写代码和普通Python完全一样，打断点调试非常方便，学习门槛远低于早期TensorFlow。
- 发展：从1.0版本开始加入静态图导出（TorchScript）、分布式训练、混合精度训练，补齐生产部署能力；2.x版本进一步优化编译加速，兼顾研究灵活度和工业性能。
- 现状：顶会论文里90%以上都用PyTorch实现，是新手入门、学术研究的首选，工业界部署生态也越来越完善。

补充：容易被单独提及的Keras

定位：高阶深度学习API，本身不是完整框架，底层可以接TensorFlow、Theano、CNTK。
特点：接口设计极其简洁，几行代码就能搭一个神经网络，新手友好度拉满。
现状：2019年被Google收购，正式成为TensorFlow 2.x的官方高阶API，不再独立发展。

阶段4：国产深度学习框架（2016 — 至今）

适配国产硬件、服务国内产业落地，在政企、工业场景应用广泛。

飞桨 PaddlePaddle（2016，百度）
- 定位：国内产业落地最广的国产开源框架
- 发展：
  - 2.0版本完成“动静统一”架构升级，对齐PyTorch/TF的开发体验；
  - 3.0版本重点优化大模型训推一体、自动并行、国产硬件适配，支撑文心系列大模型。
- 优势：产业端工具链极完善，有大量开箱即用的工业场景模型（OCR、质检、推荐等），适配昆仑芯、昇腾等国产芯片，国内制造业、政企项目用得很多。
MindSpore 昇思（2019，华为）
- 定位：全场景AI框架，深度适配华为昇腾芯片
- 特点：主打“全场景协同”（云、边、端统一部署），自动并行能力强，大模型训练效率高，在华为生态、政企项目中广泛使用。

其他历史框架（了解即可）

CNTK（微软认知工具包）：微软出品，语音识别场景优化极强，2019年停止维护，微软后续转向PyTorch生态。
Darknet：C语言写的轻量框架，专门用来跑YOLO目标检测，体积小、速度快，适合嵌入式部署。

阶段5：大模型时代的专项框架（2020 — 至今）

千亿万亿参数的大模型，单卡根本装不下，原生框架不够用，催生了一批专门做分布式训练、推理优化的工具。

Hugging Face Transformers
- 定位：大模型时代的“应用商店”
- 特点：封装了几乎所有主流大模型（BERT、GPT、LLaMA、文心等），统一API，一行代码就能加载预训练模型，不用自己从零实现Transformer。现在是AI开发者的必备工具。
DeepSpeed（微软）
- 定位：大模型训练/推理加速库
- 核心技术：ZeRO内存优化技术，把模型参数拆分到多张卡上，单卡能训的参数量翻几倍，大幅降低大模型训练门槛。
Megatron-LM（英伟达）
- 定位：大模型分布式训练专用框架
- 核心：实现了张量并行、流水线并行等多种分布式策略，最大化GPU利用率，是训练百亿/千亿参数大模型的主流底座。
JAX（Google）
- 定位：科研向高性能计算框架
- 特点：结合了NumPy的易用性和XLA编译器的极致性能，自动微分能力极强，适合做前沿算法研究，很多大模型新工作会用JAX实现。

四、框架迭代的核心规律

从难用到易用：从纯学术工具到工程化平台，动态图、高阶API不断降低开发门槛；
从单卡到分布式：模型参数量爆炸，框架核心竞争力从“单卡性能”转向“分布式并行能力”；
从重训练到训推一体：不再只关注训练快，同时兼顾模型压缩、量化、多端部署全链路；
生态决定胜负：MXNet性能不输对手，但社区、论文复现、第三方工具生态落后，最终掉队；PyTorch靠研究社区反推工业落地，逐步成为主流。

如果觉得文章对你有用，请随意赞赏

了解机器学习-1.机器学习的发展历史

https://wuanwanghao.top/archives/ji-qi-xue-xi-de-fa-zhan-li-shi

作者

忘皓

发布于

2026-06-24

更新于

2026-06-24

许可协议

CC BY 4.0

了解机器学习-1.机器学习的发展历史

了解机器学习- 1. 机器学习的发展历史

一、先搞懂基础概念：AI / 机器学习 / 深度学习

1. 三者的包含关系

2. 两个最核心的基础术语

二、完整发展史：从规则到机器学习，再到深度学习

阶段1：萌芽与第一次寒冬（1940年代 — 1980年代末）

阶段2：传统机器学习黄金期（1990年代 — 2012年）

阶段3：深度学习爆发期（2012年 — 2017年）

阶段4：大模型时代（2017年 — 至今）

三、技术框架完整迭代史（补全所有主流框架）

阶段1：传统机器学习工具库（2000年前后 — 至今）

阶段2：深度学习初代先驱（2010 — 2015）

阶段3：第二代主流框架争霸（2015 — 2020）

补充：容易被单独提及的Keras

阶段4：国产深度学习框架（2016 — 至今）

其他历史框架（了解即可）

阶段5：大模型时代的专项框架（2020 — 至今）

四、框架迭代的核心规律

作者

发布于

更新于

许可协议

评论