L0 第 1 篇 🥚 难度 🕒 12 分钟

AI、机器学习、深度学习、大模型，到底什么关系？

一篇文章拆清楚四个被搞混最多的词，从此你不会再被任何吹牛和黑话唬住。

阿

阿莱

2026/5/27

如果你最近一两年才开始关心 AI，你很可能听过这些词：人工智能、机器学习、深度学习、神经网络、大模型、LLM、生成式 AI、Transformer、ChatGPT……

它们到底什么关系？

听完不同的人讲，你会得到完全冲突的答案：有人说 “AI 就是机器学习”，有人说 “深度学习是机器学习的一种”，有人说 “大模型不是 AI 是 LLM”。然后你越听越糊涂，索性放弃理解，觉得这就是黑话圈的事。

不。这套术语其实非常清晰，只是大家在不同场合用得太松散。这篇我们花 12 分钟，把它一次性整理清楚——读完你会发现，它就是一个俄罗斯套娃。

💡 一句话先讲完

人工智能（AI）⊃ 机器学习（ML）⊃ 深度学习（DL）⊃ 大模型（含 LLM）。每一层都是上一层的”一种实现方式”。

一、人工智能（AI）：最外层的”野心”

人工智能这个词，1956 年在达特茅斯会议上被一群科学家发明出来。它从一开始就是个目标，不是一个技术：

“让机器表现出某种’智能’行为。”

注意——它根本没说怎么做。

所以历史上「AI」这把伞下，曾经容纳过千奇百怪的方法：

1960 年代的专家系统：人类把规则写死给机器（“如果发烧 + 咳嗽 + 寒战，那就开抗生素 X”）。
1970 年代的符号主义：用逻辑推理引擎模拟思考。
1980 年代的搜索算法：让机器穷举可能性来下棋（深蓝就是这一脉）。
1990 年代以后的机器学习：让机器从数据里”自己悟”。

所以：只要让机器做”看起来像人才会做的事”，都算 AI。计算器算 1+1 算不算？不算——因为它没”看起来很聪明”。AlphaGo 算不算？算。ChatGPT 算不算？当然算。

AI 是一个愿景词。它不告诉你怎么实现，只告诉你”想干什么”。

二、机器学习（ML）：让机器”自己悟”

到了 1980-1990 年代，研究者发现：让人去写规则太累了，而且写不全。

举个例子。你想让计算机识别一张图片是不是猫。如果用传统编程：

# 传统方式：手工编写规则
def is_cat(image):
    if has_pointy_ears(image) and has_whiskers(image) and is_furry(image):
        return True
    # ... 然后呢？长毛猫？无毛猫？侧脸的猫？
    # ... 怎么写完这无穷多种情况？

这条路走不通。所以有人提出了一个根本不同的思路：

不要告诉计算机”猫是什么”，给它看 100 万张标好”猫/不是猫”的图，让它自己琢磨规则。

这就是 机器学习（Machine Learning, ML）。

它有一个核心三件套：

数据：成千上万的样本（图 + 标签）
模型：一个带参数的函数 f(image) → 标签，参数初始时是随机的
训练：不断调整参数，让 f 在样本上的”猜测错误”越来越小

🔬 一个直觉

“训练”这两个字其实超贴切——就像训练一只狗听口令，你不断给反馈（对/错），它的”内在参数”慢慢往正确的方向调，直到能稳定回应你。

ML 在 1990s–2000s 大行其道。它包括了一大堆方法：

线性回归 —— 拟合一条直线
决策树 —— 通过一连串”是不是”问题分类
K 近邻 —— 看你像哪些邻居就归到哪类
支持向量机（SVM） —— 找一条最佳分界面
随机森林 —— 一堆决策树投票
……

这些方法都是机器学习，但它们不是深度学习。

三、深度学习（DL）：机器学习里”特别能打”的一支

时间来到 2010 年前后。研究者们注意到，机器学习里有一个方法虽然原理早在 1958 年就提出过（神经网络），但因为算力不够、数据不够，一直效果平平——直到 GPU 和大规模数据集出现，它突然爆发了。

这个方法叫 深度学习（Deep Learning, DL）。

它的”深”，不是说它有多高深，而是字面意义的——层数多。

一个传统神经网络可能就 1-2 层，深度学习把它堆到几十层、几百层、上千层。每一层都对输入做一次变换，层数越多，模型能学到的”模式”越复杂。

2012 年的拐点

2012 年，多伦多大学的 Geoffrey Hinton 团队用一个叫 AlexNet 的 8 层深度神经网络参加 ImageNet 图像识别比赛——错误率从前一年的 25.8% 降到 16.4%。

这个数字让全世界都跳起来了。后续几年，深度学习以摧枯拉朽之势横扫了：

图像识别（CNN，2012）
语音识别（RNN，2013-2015）
围棋（AlphaGo，2016）
机器翻译（Seq2Seq + Attention，2014-2017）
……

💡 为什么深度学习这么能打

传统机器学习需要人类手工设计特征（比如，识别猫要先告诉它”看耳朵形状”）；深度学习把特征学习也交给了模型自己——它从原始像素里就能学出”什么是边缘 → 什么是耳朵 → 什么是猫脸”。

所以：深度学习是机器学习的一种，专指那些用”多层神经网络”的方法。其它机器学习方法（线性回归、决策树等）虽然还在用，但风头被深度学习抢去了。

四、大模型与 LLM：深度学习里”特别大”的一脉

故事到了 2017 年还有一个关键节点：Google 的研究者发表了一篇论文：

“Attention Is All You Need”

这篇论文提出了一种新的神经网络结构——Transformer。它本来是为机器翻译设计的，但很快人们发现：

Transformer 这个东西，只要喂的数据足够多、参数堆得足够大，能力就能持续涨——而且没看到天花板。

这个发现彻底改变了一切。

2018 年：OpenAI 用 Transformer 训了 GPT-1（1.17 亿参数）
2019 年：GPT-2（15 亿参数），开始能写像样的文章
2020 年：GPT-3（1750 亿参数），震撼世界
2022 年：ChatGPT 上线，AI 走入普通人生活
2024-2026 年：GPT-4、Claude、Gemini、Llama……越练越大

这些动辄上亿、上千亿参数的神经网络，因为体量巨大，被统称为 大模型（Large Models）。

LLM 是 Large Language Model（大语言模型）的缩写——专指处理语言的大模型。GPT、Claude、Llama 都是 LLM。如果是处理图像的，叫 LVM（视觉大模型）；处理多种模态的，叫多模态大模型。

⚠️ 一个容易混的点

“大模型”是个尺寸定义，不是架构定义。它一定是深度学习，几乎一定基于 Transformer，参数量大到一定阈值（通常 10 亿以上），就被算作”大”。

五、把它们摞在一起

现在你可以画一张包含关系图了：

┌───────────────────────────────────────────────┐
│ 人工智能 (AI) — 1956年提出的愿景              │
│                                                │
│  ┌─────────────────────────────────────────┐  │
│  │ 机器学习 (ML) — 让机器从数据中"自己悟"  │  │
│  │                                          │  │
│  │  ┌────────────────────────────────────┐ │  │
│  │  │ 深度学习 (DL) — 多层神经网络        │ │  │
│  │  │                                     │ │  │
│  │  │  ┌──────────────────────────────┐  │ │  │
│  │  │  │ 大模型 — 参数极多、规模极大   │  │ │  │
│  │  │  │   ├── LLM（语言大模型）       │  │ │  │
│  │  │  │   ├── LVM（视觉大模型）       │  │ │  │
│  │  │  │   └── 多模态大模型             │  │ │  │
│  │  │  └──────────────────────────────┘  │ │  │
│  │  └────────────────────────────────────┘ │  │
│  │  也包括：决策树 / SVM / 随机森林 / ...   │  │
│  └─────────────────────────────────────────┘  │
│  也包括：专家系统 / 搜索算法 / 规则引擎...     │
└───────────────────────────────────────────────┘

读完你应该能秒答这些问题：

Q1：ChatGPT 是 AI 吗？是 ML 吗？是 DL 吗？是 LLM 吗？ A：都是！它处于最里层，所以同时属于以上所有外层。

Q2：决策树是 AI 吗？是 DL 吗？ A：是 AI、是 ML、不是 DL——它不是多层神经网络。

Q3：一个手工写规则的”客服机器人”算 AI 吗？ A：算 AI（属于”专家系统”传统），不算 ML（没从数据里学）。

六、为什么大家容易搞混

主要因为词被滥用了：

媒体喜欢说 “AI 来了”——其实 90% 时候它在指 LLM
投资人说 “我们投 AI 公司”——其实 90% 时候在投深度学习应用
某些产品说 “我们用了 AI”——可能只是接了个 OpenAI API

这种用法在当下没办法纠正。但你心里要清楚：当一个外行说”AI”的时候，他大概率指的是 LLM；当一个工程师说”AI”的时候，他可能在指 ML 或 DL；当一个学者说”AI”的时候，他大概率指的是 1956 年的那个原义。

听不同的人说话，你需要在脑子里默默翻译。

七、那我接下来该学什么

如果你是冲着”理解 ChatGPT 怎么工作的”来的——

恭喜，你刚刚走完了 AI 知识地图的最外圈一遍。接下来你可以：

走 L0 路径：继续读完 L0 的其它 11 篇，把 AI 当下能做什么、安全风险、提示词这些”用户向”的内容补齐
跳到 L4：直接学 LLM 怎么炼成、怎么用、怎么调
走 L1-L3：从数学和经典 ML 一步步啃到 Transformer

我个人建议：先读完 L0。它不需要任何前置，但能让你建立起整个版图，后面学具体技术时不会迷路。

📝 一个小小请求

如果这篇对你有用，欢迎收藏并分享给同样困惑的朋友。HelloAI 是个免费、无广告、永远开源的小项目——你的一次转发，就是最大的支持。

下一篇：《一篇文章读完 AI 简史：从图灵到 ChatGPT》

自测一下

快速自测：AI / ML / DL / LLM

3 题

🔗 被以下 3 篇文章引用

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。