L2 第 1 篇 🐣 难度 🕒 12 分钟

监督 / 无监督 / 强化：机器学习的三大世界观

所有机器学习算法都属于这三类之一。理解这个分类，你立刻能给任何算法"找它的家"。

阿

阿莱

2026/6/24

L1 数学块结束，恭喜你装备好了 ML 的全部”内功”。现在我们走 L2——经典机器学习。

L2 不像 L3、L4 那么”性感”（没 Transformer、没 ChatGPT），但它每一个算法都是工业界正在用的真东西。一个 ML 工程师如果只懂深度学习不懂经典 ML，他无法解决 60% 的真实业务问题。

L2 第一篇：把所有算法分进三个世界。

三个世界观

机器学习按”数据形态”分成 3 大类：

            ┌── 监督学习（你有标签）
            │
机器学习 ───┼── 无监督学习（你没标签）
            │
            └── 强化学习（你只有奖励信号）

每类对应一种世界假设——数据长什么样、训练目标是什么。

监督学习：有”老师”批改

数据形态：每个样本都有标签。

（x, y）
（图片, "猫" / "狗"）
（邮件文本, "垃圾" / "正常"）
（房子特征, 价格）
（病人指标, "确诊" / "未确诊"）

目标：学一个函数 $f(x) \to y$ 。

这是最广泛使用的范式。ML 工业界 80% 的应用都是监督学习。

两个子类型

按 $y$ 的类型分：

类型	$y$ 是什么	例子	典型算法
分类（Classification）	离散类别	是不是垃圾邮件 / 患什么病	逻辑回归、决策树、SVM、随机森林、神经网络
回归（Regression）	连续数值	房价、销售额、温度	线性回归、决策树、XGBoost、神经网络

注意一个有意思的事实：很多算法既能分类又能回归（决策树、神经网络、XGBoost）。它们的区别只是损失函数和输出层。

监督学习的”灵魂”

监督学习的成败 = 标签的质量。

标签错 → 模型学错
标签少 → 模型不够泛化
标签贵 → 项目成本高

真实痛点：医疗 AI 标注一张 CT 需要专科医生 10 分钟、200 块。1 万张就是 200 万元——比训模型的算力贵 10 倍。

L4 我们会讲到 半监督学习 和 自监督学习 —— 它们是为了对抗”标签太贵”问题而生的。

无监督学习：没有”老师”，自己悟

数据形态：只有 $x$ ，没有 $y$ 。

[一堆点（没标签）]
[一堆用户行为日志（没标签）]
[一堆文章（没主题）]

目标：发现数据内在的结构。

三大任务

1. 聚类（Clustering）

把相似的样本聚成一堆。

例：电商有 100 万用户，把他们自动分成 5 类：

“高频高消费”
“低频高消费”
“高频低消费”
“新用户”
“流失用户”

不需要标签——算法自己发现这种结构。典型算法：K-Means、DBSCAN、层次聚类。

2. 降维（Dimensionality Reduction）

把 768 维向量压成 2 维，方便可视化。

或：在不丢太多信息的前提下把 100 维特征压到 20 维，让后续模型训练更快、更稳。

典型算法：PCA、t-SNE、UMAP、自编码器。

Embedding 空间漫游可视化就是 t-SNE 的实例——把高维词向量压到 2D。

3. 异常检测（Anomaly Detection）

识别”和大多数样本不一样”的少数样本。

例：信用卡欺诈、机器故障、网络入侵——所有”异常”都比”正常”少得多。

典型算法：Isolation Forest、One-Class SVM、自编码器重建误差。

💡 无监督的痛点

无监督学习最大的难题不是算法——是怎么知道学得好不好。

监督学习有标签可对答案，无监督没有。所以无监督的评估常常依赖”业务上是否有用”——很主观。

强化学习：通过奖励”摸索”

数据形态：智能体在环境里行动，每个行动得到奖励或惩罚。

环境（围棋盘 / 游戏 / 机器人世界）
  ↓ 观察
智能体 → 选择行动 → 得到奖励 + 新观察
  ↑___________________________|

目标：学一个”策略” $\pi(action | state)$ ，最大化长期累积奖励。

例子

下棋：状态 = 当前棋局；行动 = 下一步走法；奖励 = 输赢
机器人：状态 = 摄像头画面；行动 = 关节角度；奖励 = 完成任务 + 1
推荐系统：状态 = 用户历史；行动 = 推荐什么；奖励 = 是否点击/购买
AlphaGo：明面是监督（学人类棋谱）+ 强化（自我对弈）的混合

难在哪

强化学习的难度远超监督学习：

维度	监督学习	强化学习
反馈	立即（每个样本一个标签）	延迟（可能下棋 50 步后才知输赢）
数据	静态收集	智能体行动产生
探索 vs 利用	不存在	核心难题
训练稳定性	相对稳	极不稳定

真实情况：经典 RL 在工业界用的不多——除了游戏 AI 和机器人，大多数公司用不到。

但 RLHF 例外：ChatGPT、Claude 这些 LLM 的训练流程里都有 RL（让模型从人类反馈学），这才是 RL 最广泛的工业应用。

一些跨范式的”杂种”

实际工作中纯监督/纯无监督的项目反而少——混合最常见：

半监督学习（Semi-supervised）

有少量标签 + 大量无标签数据。先用无标签数据”预训练”，再用少量标签”微调”。

LLM 的训练完美演示了这个思路：先在海量互联网文本上自监督预训练，再用少量人类标注做 RLHF 微调。

自监督学习（Self-supervised）

数据本身就构造标签。比如：把句子里随机词遮住，让模型猜——这是 BERT 的做法（遮蔽语言模型）。

当下 LLM、CLIP、SAM 等基础模型都是自监督。这是 AI 第二个大爆发的核心理由——它把”标签贵”的问题绕开了。

迁移学习（Transfer Learning）

在一个任务上预训练，迁到另一个相关任务上微调。

用 BERT 在 Wikipedia 上预训练好的权重，迁到你公司的客户邮件分类——只需要 1000 条标注数据就能训出来。没有这一招，今天的 AI 应用 95% 都跑不起来。

怎么选

接到一个新业务问题，第一步问 4 个问题：

问题	答案 → 走哪一支
我有标签吗？	有 → 监督 / 没 → 无监督或自监督
$y$ 是离散类还是连续数？	类 → 分类 / 数 → 回归
涉及”在环境里做决策”吗？	是 → 强化学习
标签很贵吗？	是 → 考虑自监督/半监督/迁移

回答完，你就知道大致用哪类算法。

L2 路径概览

接下来我们会专题深入几个最重要的经典 ML 算法：

篇章	主题
L2-02	线性回归
L2-03	逻辑回归与分类
L2-04	决策树
L2-05	随机森林 + 集成学习
L2-06	K-Means 聚类
L2-07	评估指标 + 过拟合 + 正则化
L2-08	SVM
L2-09	优化器（已写）
L2-10	特征工程
L2-11	完整端到端 ML 项目（Kaggle 上手）

读完整个 L2，你已经能用 scikit-learn 解决大量真实业务问题——不需要任何深度学习。

🔬 L2 学完你的能力

跑通 Kaggle 入门 Titanic / House Price 项目
给同事解释”为什么我们这个项目应该用 XGBoost 而不是神经网络”
看懂 sklearn 文档里 90% 的 API
在工作中真正用 ML 解决问题（而不只是”调用 ChatGPT API”）

下一篇：《线性回归：最简单也最深刻的 ML 模型》

🔗 被以下 1 篇文章引用

L2-02 线性回归：最简单也最深刻的 ML 模型

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。