HelloAI
L2 第 1 篇 🐣 难度 🕒 11 分钟

监督 / 无监督 / 强化:机器学习的三大世界观

所有机器学习算法都属于这三类之一。理解这个分类,你立刻能给任何算法"找它的家"。

阿莱
2026/6/24

L1 数学块结束,恭喜你装备好了 ML 的全部”内功”。现在我们走 L2——经典机器学习

L2 不像 L3、L4 那么”性感”(没 Transformer、没 ChatGPT),但它每一个算法都是工业界正在用的真东西。一个 ML 工程师如果只懂深度学习不懂经典 ML,他无法解决 60% 的真实业务问题。

L2 第一篇:把所有算法分进三个世界。

三个世界观

机器学习按”数据形态”分成 3 大类:

            ┌── 监督学习(你有标签)

机器学习 ───┼── 无监督学习(你没标签)

            └── 强化学习(你只有奖励信号)

每类对应一种世界假设——数据长什么样、训练目标是什么。

监督学习:有”老师”批改

数据形态:每个样本都有标签。

(x, y)
(图片, "猫" / "狗")
(邮件文本, "垃圾" / "正常")
(房子特征, 价格)
(病人指标, "确诊" / "未确诊")

目标:学一个函数 f(x)yf(x) \to y

这是最广泛使用的范式。ML 工业界 80% 的应用都是监督学习

两个子类型

yy 的类型分:

类型yy 是什么例子典型算法
分类(Classification)离散类别是不是垃圾邮件 / 患什么病逻辑回归、决策树、SVM、随机森林、神经网络
回归(Regression)连续数值房价、销售额、温度线性回归、决策树、XGBoost、神经网络

注意一个有意思的事实:很多算法既能分类又能回归(决策树、神经网络、XGBoost)。它们的区别只是损失函数和输出层。

监督学习的”灵魂”

监督学习的成败 = 标签的质量

  • 标签错 → 模型学错
  • 标签少 → 模型不够泛化
  • 标签贵 → 项目成本高

真实痛点:医疗 AI 标注一张 CT 需要专科医生 10 分钟、200 块。1 万张就是 200 万元——比训模型的算力贵 10 倍

L4 我们会讲到 半监督学习自监督学习 —— 它们是为了对抗”标签太贵”问题而生的。

无监督学习:没有”老师”,自己悟

数据形态:只有 xx,没有 yy

[一堆点(没标签)]
[一堆用户行为日志(没标签)]
[一堆文章(没主题)]

目标:发现数据内在的结构。

三大任务

1. 聚类(Clustering)

把相似的样本聚成一堆。

例:电商有 100 万用户,把他们自动分成 5 类:

  • “高频高消费”
  • “低频高消费”
  • “高频低消费”
  • “新用户”
  • “流失用户”

不需要标签——算法自己发现这种结构。典型算法:K-Means、DBSCAN、层次聚类。

2. 降维(Dimensionality Reduction)

把 768 维向量压成 2 维,方便可视化。

或:在不丢太多信息的前提下把 100 维特征压到 20 维,让后续模型训练更快、更稳。

典型算法:PCA、t-SNE、UMAP、自编码器。

Embedding 空间漫游可视化就是 t-SNE 的实例——把高维词向量压到 2D。

3. 异常检测(Anomaly Detection)

识别”和大多数样本不一样”的少数样本。

例:信用卡欺诈、机器故障、网络入侵——所有”异常”都比”正常”少得多。

典型算法:Isolation Forest、One-Class SVM、自编码器重建误差。

💡 无监督的痛点

无监督学习最大的难题不是算法——是怎么知道学得好不好

监督学习有标签可对答案,无监督没有。所以无监督的评估常常依赖”业务上是否有用”——很主观。

强化学习:通过奖励”摸索”

数据形态:智能体在环境里行动,每个行动得到奖励或惩罚。

环境(围棋盘 / 游戏 / 机器人世界)
  ↓ 观察
智能体 → 选择行动 → 得到奖励 + 新观察
  ↑___________________________|

目标:学一个”策略” π(actionstate)\pi(action | state),最大化长期累积奖励。

例子

  • 下棋:状态 = 当前棋局;行动 = 下一步走法;奖励 = 输赢
  • 机器人:状态 = 摄像头画面;行动 = 关节角度;奖励 = 完成任务 + 1
  • 推荐系统:状态 = 用户历史;行动 = 推荐什么;奖励 = 是否点击/购买
  • AlphaGo:明面是监督(学人类棋谱)+ 强化(自我对弈)的混合

难在哪

强化学习的难度远超监督学习:

维度监督学习强化学习
反馈立即(每个样本一个标签)延迟(可能下棋 50 步后才知输赢)
数据静态收集智能体行动产生
探索 vs 利用不存在核心难题
训练稳定性相对稳极不稳定

真实情况:经典 RL 在工业界用的不多——除了游戏 AI 和机器人,大多数公司用不到。

但 RLHF 例外:ChatGPT、Claude 这些 LLM 的训练流程里都有 RL(让模型从人类反馈学),这才是 RL 最广泛的工业应用

一些跨范式的”杂种”

实际工作中纯监督/纯无监督的项目反而少——混合最常见

半监督学习(Semi-supervised)

有少量标签 + 大量无标签数据。先用无标签数据”预训练”,再用少量标签”微调”。

LLM 的训练完美演示了这个思路:先在海量互联网文本上自监督预训练,再用少量人类标注做 RLHF 微调。

自监督学习(Self-supervised)

数据本身就构造标签。比如:把句子里随机词遮住,让模型猜——这是 BERT 的做法(遮蔽语言模型)。

当下 LLM、CLIP、SAM 等基础模型都是自监督。这是 AI 第二个大爆发的核心理由——它把”标签贵”的问题绕开了。

迁移学习(Transfer Learning)

在一个任务上预训练,迁到另一个相关任务上微调。

用 BERT 在 Wikipedia 上预训练好的权重,迁到你公司的客户邮件分类——只需要 1000 条标注数据就能训出来。没有这一招,今天的 AI 应用 95% 都跑不起来。

怎么选

接到一个新业务问题,第一步问 4 个问题:

问题答案 → 走哪一支
我有标签吗?有 → 监督 / 没 → 无监督或自监督
yy 是离散类还是连续数?类 → 分类 / 数 → 回归
涉及”在环境里做决策”吗?是 → 强化学习
标签很贵吗?是 → 考虑自监督/半监督/迁移

回答完,你就知道大致用哪类算法。

L2 路径概览

接下来我们会专题深入几个最重要的经典 ML 算法:

篇章主题
L2-02线性回归
L2-03逻辑回归与分类
L2-04决策树
L2-05随机森林 + 集成学习
L2-06K-Means 聚类
L2-07评估指标 + 过拟合 + 正则化
L2-08SVM
L2-09优化器(已写)
L2-10特征工程
L2-11完整端到端 ML 项目(Kaggle 上手)

读完整个 L2,你已经能用 scikit-learn 解决大量真实业务问题——不需要任何深度学习

🔬 L2 学完你的能力
  • 跑通 Kaggle 入门 Titanic / House Price 项目
  • 给同事解释”为什么我们这个项目应该用 XGBoost 而不是神经网络”
  • 看懂 sklearn 文档里 90% 的 API
  • 在工作中真正用 ML 解决问题(而不只是”调用 ChatGPT API”)

下一篇:《线性回归:最简单也最深刻的 ML 模型》

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。