AI、机器学习、深度学习、大模型,到底什么关系?
一篇文章拆清楚四个被搞混最多的词,从此你不会再被任何吹牛和黑话唬住。
如果你最近一两年才开始关心 AI,你很可能听过这些词:人工智能、机器学习、深度学习、神经网络、大模型、LLM、生成式 AI、Transformer、ChatGPT……
它们到底什么关系?
听完不同的人讲,你会得到完全冲突的答案:有人说 “AI 就是机器学习”,有人说 “深度学习是机器学习的一种”,有人说 “大模型不是 AI 是 LLM”。然后你越听越糊涂,索性放弃理解,觉得这就是黑话圈的事。
不。这套术语其实非常清晰,只是大家在不同场合用得太松散。这篇我们花 12 分钟,把它一次性整理清楚——读完你会发现,它就是一个俄罗斯套娃。
人工智能(AI)⊃ 机器学习(ML)⊃ 深度学习(DL)⊃ 大模型(含 LLM)。每一层都是上一层的”一种实现方式”。
一、人工智能(AI):最外层的”野心”
人工智能这个词,1956 年在达特茅斯会议上被一群科学家发明出来。它从一开始就是个目标,不是一个技术:
“让机器表现出某种’智能’行为。”
注意——它根本没说怎么做。
所以历史上「AI」这把伞下,曾经容纳过千奇百怪的方法:
- 1960 年代的专家系统:人类把规则写死给机器(“如果发烧 + 咳嗽 + 寒战,那就开抗生素 X”)。
- 1970 年代的符号主义:用逻辑推理引擎模拟思考。
- 1980 年代的搜索算法:让机器穷举可能性来下棋(深蓝就是这一脉)。
- 1990 年代以后的机器学习:让机器从数据里”自己悟”。
所以:只要让机器做”看起来像人才会做的事”,都算 AI。计算器算 1+1 算不算?不算——因为它没”看起来很聪明”。AlphaGo 算不算?算。ChatGPT 算不算?当然算。
AI 是一个愿景词。它不告诉你怎么实现,只告诉你”想干什么”。
二、机器学习(ML):让机器”自己悟”
到了 1980-1990 年代,研究者发现:让人去写规则太累了,而且写不全。
举个例子。你想让计算机识别一张图片是不是猫。如果用传统编程:
# 传统方式:手工编写规则
def is_cat(image):
if has_pointy_ears(image) and has_whiskers(image) and is_furry(image):
return True
# ... 然后呢?长毛猫?无毛猫?侧脸的猫?
# ... 怎么写完这无穷多种情况?
这条路走不通。所以有人提出了一个根本不同的思路:
不要告诉计算机”猫是什么”,给它看 100 万张标好”猫/不是猫”的图,让它自己琢磨规则。
这就是 机器学习(Machine Learning, ML)。
它有一个核心三件套:
- 数据:成千上万的样本(图 + 标签)
- 模型:一个带参数的函数
f(image) → 标签,参数初始时是随机的 - 训练:不断调整参数,让 f 在样本上的”猜测错误”越来越小
“训练”这两个字其实超贴切——就像训练一只狗听口令,你不断给反馈(对/错),它的”内在参数”慢慢往正确的方向调,直到能稳定回应你。
ML 在 1990s–2000s 大行其道。它包括了一大堆方法:
- 线性回归 —— 拟合一条直线
- 决策树 —— 通过一连串”是不是”问题分类
- K 近邻 —— 看你像哪些邻居就归到哪类
- 支持向量机(SVM) —— 找一条最佳分界面
- 随机森林 —— 一堆决策树投票
- ……
这些方法都是机器学习,但它们不是深度学习。
三、深度学习(DL):机器学习里”特别能打”的一支
时间来到 2010 年前后。研究者们注意到,机器学习里有一个方法虽然原理早在 1958 年就提出过(神经网络),但因为算力不够、数据不够,一直效果平平——直到 GPU 和大规模数据集出现,它突然爆发了。
这个方法叫 深度学习(Deep Learning, DL)。
它的”深”,不是说它有多高深,而是字面意义的——层数多。
一个传统神经网络可能就 1-2 层,深度学习把它堆到几十层、几百层、上千层。每一层都对输入做一次变换,层数越多,模型能学到的”模式”越复杂。
2012 年的拐点
2012 年,多伦多大学的 Geoffrey Hinton 团队用一个叫 AlexNet 的 8 层深度神经网络参加 ImageNet 图像识别比赛——错误率从前一年的 25.8% 降到 16.4%。
这个数字让全世界都跳起来了。后续几年,深度学习以摧枯拉朽之势横扫了:
- 图像识别(CNN,2012)
- 语音识别(RNN,2013-2015)
- 围棋(AlphaGo,2016)
- 机器翻译(Seq2Seq + Attention,2014-2017)
- ……
传统机器学习需要人类手工设计特征(比如,识别猫要先告诉它”看耳朵形状”);深度学习把特征学习也交给了模型自己——它从原始像素里就能学出”什么是边缘 → 什么是耳朵 → 什么是猫脸”。
所以:深度学习是机器学习的一种,专指那些用”多层神经网络”的方法。其它机器学习方法(线性回归、决策树等)虽然还在用,但风头被深度学习抢去了。
四、大模型与 LLM:深度学习里”特别大”的一脉
故事到了 2017 年还有一个关键节点:Google 的研究者发表了一篇论文:
“Attention Is All You Need”
这篇论文提出了一种新的神经网络结构——Transformer。它本来是为机器翻译设计的,但很快人们发现:
Transformer 这个东西,只要喂的数据足够多、参数堆得足够大,能力就能持续涨——而且没看到天花板。
这个发现彻底改变了一切。
- 2018 年:OpenAI 用 Transformer 训了 GPT-1(1.17 亿参数)
- 2019 年:GPT-2(15 亿参数),开始能写像样的文章
- 2020 年:GPT-3(1750 亿参数),震撼世界
- 2022 年:ChatGPT 上线,AI 走入普通人生活
- 2024-2026 年:GPT-4、Claude、Gemini、Llama……越练越大
这些动辄上亿、上千亿参数的神经网络,因为体量巨大,被统称为 大模型(Large Models)。
LLM 是 Large Language Model(大语言模型)的缩写——专指处理语言的大模型。GPT、Claude、Llama 都是 LLM。如果是处理图像的,叫 LVM(视觉大模型);处理多种模态的,叫多模态大模型。
“大模型”是个尺寸定义,不是架构定义。它一定是深度学习,几乎一定基于 Transformer,参数量大到一定阈值(通常 10 亿以上),就被算作”大”。
五、把它们摞在一起
现在你可以画一张包含关系图了:
┌───────────────────────────────────────────────┐
│ 人工智能 (AI) — 1956年提出的愿景 │
│ │
│ ┌─────────────────────────────────────────┐ │
│ │ 机器学习 (ML) — 让机器从数据中"自己悟" │ │
│ │ │ │
│ │ ┌────────────────────────────────────┐ │ │
│ │ │ 深度学习 (DL) — 多层神经网络 │ │ │
│ │ │ │ │ │
│ │ │ ┌──────────────────────────────┐ │ │ │
│ │ │ │ 大模型 — 参数极多、规模极大 │ │ │ │
│ │ │ │ ├── LLM(语言大模型) │ │ │ │
│ │ │ │ ├── LVM(视觉大模型) │ │ │ │
│ │ │ │ └── 多模态大模型 │ │ │ │
│ │ │ └──────────────────────────────┘ │ │ │
│ │ └────────────────────────────────────┘ │ │
│ │ 也包括:决策树 / SVM / 随机森林 / ... │ │
│ └─────────────────────────────────────────┘ │
│ 也包括:专家系统 / 搜索算法 / 规则引擎... │
└───────────────────────────────────────────────┘
读完你应该能秒答这些问题:
Q1:ChatGPT 是 AI 吗?是 ML 吗?是 DL 吗?是 LLM 吗? A:都是!它处于最里层,所以同时属于以上所有外层。
Q2:决策树是 AI 吗?是 DL 吗? A:是 AI、是 ML、不是 DL——它不是多层神经网络。
Q3:一个手工写规则的”客服机器人”算 AI 吗? A:算 AI(属于”专家系统”传统),不算 ML(没从数据里学)。
六、为什么大家容易搞混
主要因为词被滥用了:
- 媒体喜欢说 “AI 来了”——其实 90% 时候它在指 LLM
- 投资人说 “我们投 AI 公司”——其实 90% 时候在投深度学习应用
- 某些产品说 “我们用了 AI”——可能只是接了个 OpenAI API
这种用法在当下没办法纠正。但你心里要清楚:当一个外行说”AI”的时候,他大概率指的是 LLM;当一个工程师说”AI”的时候,他可能在指 ML 或 DL;当一个学者说”AI”的时候,他大概率指的是 1956 年的那个原义。
听不同的人说话,你需要在脑子里默默翻译。
七、那我接下来该学什么
如果你是冲着”理解 ChatGPT 怎么工作的”来的——
恭喜,你刚刚走完了 AI 知识地图的最外圈一遍。接下来你可以:
- 走 L0 路径:继续读完 L0 的其它 11 篇,把 AI 当下能做什么、安全风险、提示词这些”用户向”的内容补齐
- 跳到 L4:直接学 LLM 怎么炼成、怎么用、怎么调
- 走 L1-L3:从数学和经典 ML 一步步啃到 Transformer
我个人建议:先读完 L0。它不需要任何前置,但能让你建立起整个版图,后面学具体技术时不会迷路。
如果这篇对你有用,欢迎收藏并分享给同样困惑的朋友。HelloAI 是个免费、无广告、永远开源的小项目——你的一次转发,就是最大的支持。
下一篇:《一篇文章读完 AI 简史:从图灵到 ChatGPT》
读到这里说明你认真在学 🎯
订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。
讨论区
· 用 GitHub 账号登录评论src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。