HelloAI
L0 第 1 篇 🥚 难度 🕒 12 分钟

AI、机器学习、深度学习、大模型,到底什么关系?

一篇文章拆清楚四个被搞混最多的词,从此你不会再被任何吹牛和黑话唬住。

阿莱
2026/5/27

如果你最近一两年才开始关心 AI,你很可能听过这些词:人工智能机器学习深度学习神经网络大模型LLM生成式 AITransformerChatGPT……

它们到底什么关系?

听完不同的人讲,你会得到完全冲突的答案:有人说 “AI 就是机器学习”,有人说 “深度学习是机器学习的一种”,有人说 “大模型不是 AI 是 LLM”。然后你越听越糊涂,索性放弃理解,觉得这就是黑话圈的事。

不。这套术语其实非常清晰,只是大家在不同场合用得太松散。这篇我们花 12 分钟,把它一次性整理清楚——读完你会发现,它就是一个俄罗斯套娃

💡 一句话先讲完

人工智能(AI)⊃ 机器学习(ML)⊃ 深度学习(DL)⊃ 大模型(含 LLM)。每一层都是上一层的”一种实现方式”。

一、人工智能(AI):最外层的”野心”

人工智能这个词,1956 年在达特茅斯会议上被一群科学家发明出来。它从一开始就是个目标,不是一个技术

“让机器表现出某种’智能’行为。”

注意——它根本没说怎么做。

所以历史上「AI」这把伞下,曾经容纳过千奇百怪的方法:

  • 1960 年代的专家系统:人类把规则写死给机器(“如果发烧 + 咳嗽 + 寒战,那就开抗生素 X”)。
  • 1970 年代的符号主义:用逻辑推理引擎模拟思考。
  • 1980 年代的搜索算法:让机器穷举可能性来下棋(深蓝就是这一脉)。
  • 1990 年代以后的机器学习:让机器从数据里”自己悟”。

所以:只要让机器做”看起来像人才会做的事”,都算 AI。计算器算 1+1 算不算?不算——因为它没”看起来很聪明”。AlphaGo 算不算?算。ChatGPT 算不算?当然算。

AI 是一个愿景词。它不告诉你怎么实现,只告诉你”想干什么”。

二、机器学习(ML):让机器”自己悟”

到了 1980-1990 年代,研究者发现:让人去写规则太累了,而且写不全

举个例子。你想让计算机识别一张图片是不是猫。如果用传统编程:

# 传统方式:手工编写规则
def is_cat(image):
    if has_pointy_ears(image) and has_whiskers(image) and is_furry(image):
        return True
    # ... 然后呢?长毛猫?无毛猫?侧脸的猫?
    # ... 怎么写完这无穷多种情况?

这条路走不通。所以有人提出了一个根本不同的思路:

不要告诉计算机”猫是什么”,给它看 100 万张标好”猫/不是猫”的图,让它自己琢磨规则。

这就是 机器学习(Machine Learning, ML)

它有一个核心三件套:

  1. 数据:成千上万的样本(图 + 标签)
  2. 模型:一个带参数的函数 f(image) → 标签,参数初始时是随机的
  3. 训练:不断调整参数,让 f 在样本上的”猜测错误”越来越小
🔬 一个直觉

“训练”这两个字其实超贴切——就像训练一只狗听口令,你不断给反馈(对/错),它的”内在参数”慢慢往正确的方向调,直到能稳定回应你。

ML 在 1990s–2000s 大行其道。它包括了一大堆方法:

  • 线性回归 —— 拟合一条直线
  • 决策树 —— 通过一连串”是不是”问题分类
  • K 近邻 —— 看你像哪些邻居就归到哪类
  • 支持向量机(SVM) —— 找一条最佳分界面
  • 随机森林 —— 一堆决策树投票
  • ……

这些方法都是机器学习,但它们不是深度学习

三、深度学习(DL):机器学习里”特别能打”的一支

时间来到 2010 年前后。研究者们注意到,机器学习里有一个方法虽然原理早在 1958 年就提出过(神经网络),但因为算力不够、数据不够,一直效果平平——直到 GPU 和大规模数据集出现,它突然爆发了。

这个方法叫 深度学习(Deep Learning, DL)

它的”深”,不是说它有多高深,而是字面意义的——层数多

一个传统神经网络可能就 1-2 层,深度学习把它堆到几十层、几百层、上千层。每一层都对输入做一次变换,层数越多,模型能学到的”模式”越复杂。

2012 年的拐点

2012 年,多伦多大学的 Geoffrey Hinton 团队用一个叫 AlexNet 的 8 层深度神经网络参加 ImageNet 图像识别比赛——错误率从前一年的 25.8% 降到 16.4%。

这个数字让全世界都跳起来了。后续几年,深度学习以摧枯拉朽之势横扫了:

  • 图像识别(CNN,2012)
  • 语音识别(RNN,2013-2015)
  • 围棋(AlphaGo,2016)
  • 机器翻译(Seq2Seq + Attention,2014-2017)
  • ……
💡 为什么深度学习这么能打

传统机器学习需要人类手工设计特征(比如,识别猫要先告诉它”看耳朵形状”);深度学习把特征学习也交给了模型自己——它从原始像素里就能学出”什么是边缘 → 什么是耳朵 → 什么是猫脸”。

所以:深度学习是机器学习的一种,专指那些用”多层神经网络”的方法。其它机器学习方法(线性回归、决策树等)虽然还在用,但风头被深度学习抢去了。

四、大模型与 LLM:深度学习里”特别大”的一脉

故事到了 2017 年还有一个关键节点:Google 的研究者发表了一篇论文:

“Attention Is All You Need”

这篇论文提出了一种新的神经网络结构——Transformer。它本来是为机器翻译设计的,但很快人们发现:

Transformer 这个东西,只要喂的数据足够多、参数堆得足够大,能力就能持续涨——而且没看到天花板。

这个发现彻底改变了一切。

  • 2018 年:OpenAI 用 Transformer 训了 GPT-1(1.17 亿参数)
  • 2019 年:GPT-2(15 亿参数),开始能写像样的文章
  • 2020 年:GPT-3(1750 亿参数),震撼世界
  • 2022 年:ChatGPT 上线,AI 走入普通人生活
  • 2024-2026 年:GPT-4、Claude、Gemini、Llama……越练越大

这些动辄上亿、上千亿参数的神经网络,因为体量巨大,被统称为 大模型(Large Models)

LLMLarge Language Model(大语言模型)的缩写——专指处理语言的大模型。GPT、Claude、Llama 都是 LLM。如果是处理图像的,叫 LVM(视觉大模型);处理多种模态的,叫多模态大模型。

⚠️ 一个容易混的点

“大模型”是个尺寸定义,不是架构定义。它一定是深度学习,几乎一定基于 Transformer,参数量大到一定阈值(通常 10 亿以上),就被算作”大”。

五、把它们摞在一起

现在你可以画一张包含关系图了:

┌───────────────────────────────────────────────┐
│ 人工智能 (AI) — 1956年提出的愿景              │
│                                                │
│  ┌─────────────────────────────────────────┐  │
│  │ 机器学习 (ML) — 让机器从数据中"自己悟"  │  │
│  │                                          │  │
│  │  ┌────────────────────────────────────┐ │  │
│  │  │ 深度学习 (DL) — 多层神经网络        │ │  │
│  │  │                                     │ │  │
│  │  │  ┌──────────────────────────────┐  │ │  │
│  │  │  │ 大模型 — 参数极多、规模极大   │  │ │  │
│  │  │  │   ├── LLM(语言大模型)       │  │ │  │
│  │  │  │   ├── LVM(视觉大模型)       │  │ │  │
│  │  │  │   └── 多模态大模型             │  │ │  │
│  │  │  └──────────────────────────────┘  │ │  │
│  │  └────────────────────────────────────┘ │  │
│  │  也包括:决策树 / SVM / 随机森林 / ...   │  │
│  └─────────────────────────────────────────┘  │
│  也包括:专家系统 / 搜索算法 / 规则引擎...     │
└───────────────────────────────────────────────┘

读完你应该能秒答这些问题:

Q1:ChatGPT 是 AI 吗?是 ML 吗?是 DL 吗?是 LLM 吗? A:都是!它处于最里层,所以同时属于以上所有外层。

Q2:决策树是 AI 吗?是 DL 吗? A:是 AI、是 ML、不是 DL——它不是多层神经网络。

Q3:一个手工写规则的”客服机器人”算 AI 吗? A:算 AI(属于”专家系统”传统),不算 ML(没从数据里学)。

六、为什么大家容易搞混

主要因为词被滥用了

  • 媒体喜欢说 “AI 来了”——其实 90% 时候它在指 LLM
  • 投资人说 “我们投 AI 公司”——其实 90% 时候在投深度学习应用
  • 某些产品说 “我们用了 AI”——可能只是接了个 OpenAI API

这种用法在当下没办法纠正。但你心里要清楚:当一个外行说”AI”的时候,他大概率指的是 LLM;当一个工程师说”AI”的时候,他可能在指 ML 或 DL;当一个学者说”AI”的时候,他大概率指的是 1956 年的那个原义

听不同的人说话,你需要在脑子里默默翻译。

七、那我接下来该学什么

如果你是冲着”理解 ChatGPT 怎么工作的”来的——

恭喜,你刚刚走完了 AI 知识地图的最外圈一遍。接下来你可以:

  • 走 L0 路径:继续读完 L0 的其它 11 篇,把 AI 当下能做什么、安全风险、提示词这些”用户向”的内容补齐
  • 跳到 L4:直接学 LLM 怎么炼成、怎么用、怎么调
  • 走 L1-L3:从数学和经典 ML 一步步啃到 Transformer

我个人建议:先读完 L0。它不需要任何前置,但能让你建立起整个版图,后面学具体技术时不会迷路。

📝 一个小小请求

如果这篇对你有用,欢迎收藏并分享给同样困惑的朋友。HelloAI 是个免费、无广告、永远开源的小项目——你的一次转发,就是最大的支持。

下一篇:《一篇文章读完 AI 简史:从图灵到 ChatGPT》

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。