监督 / 无监督 / 强化:机器学习的三大世界观
所有机器学习算法都属于这三类之一。理解这个分类,你立刻能给任何算法"找它的家"。
L1 数学块结束,恭喜你装备好了 ML 的全部”内功”。现在我们走 L2——经典机器学习。
L2 不像 L3、L4 那么”性感”(没 Transformer、没 ChatGPT),但它每一个算法都是工业界正在用的真东西。一个 ML 工程师如果只懂深度学习不懂经典 ML,他无法解决 60% 的真实业务问题。
L2 第一篇:把所有算法分进三个世界。
三个世界观
机器学习按”数据形态”分成 3 大类:
┌── 监督学习(你有标签)
│
机器学习 ───┼── 无监督学习(你没标签)
│
└── 强化学习(你只有奖励信号)
每类对应一种世界假设——数据长什么样、训练目标是什么。
监督学习:有”老师”批改
数据形态:每个样本都有标签。
(x, y)
(图片, "猫" / "狗")
(邮件文本, "垃圾" / "正常")
(房子特征, 价格)
(病人指标, "确诊" / "未确诊")
目标:学一个函数 。
这是最广泛使用的范式。ML 工业界 80% 的应用都是监督学习。
两个子类型
按 的类型分:
| 类型 | 是什么 | 例子 | 典型算法 |
|---|---|---|---|
| 分类(Classification) | 离散类别 | 是不是垃圾邮件 / 患什么病 | 逻辑回归、决策树、SVM、随机森林、神经网络 |
| 回归(Regression) | 连续数值 | 房价、销售额、温度 | 线性回归、决策树、XGBoost、神经网络 |
注意一个有意思的事实:很多算法既能分类又能回归(决策树、神经网络、XGBoost)。它们的区别只是损失函数和输出层。
监督学习的”灵魂”
监督学习的成败 = 标签的质量。
- 标签错 → 模型学错
- 标签少 → 模型不够泛化
- 标签贵 → 项目成本高
真实痛点:医疗 AI 标注一张 CT 需要专科医生 10 分钟、200 块。1 万张就是 200 万元——比训模型的算力贵 10 倍。
L4 我们会讲到 半监督学习 和 自监督学习 —— 它们是为了对抗”标签太贵”问题而生的。
无监督学习:没有”老师”,自己悟
数据形态:只有 ,没有 。
[一堆点(没标签)]
[一堆用户行为日志(没标签)]
[一堆文章(没主题)]
目标:发现数据内在的结构。
三大任务
1. 聚类(Clustering)
把相似的样本聚成一堆。
例:电商有 100 万用户,把他们自动分成 5 类:
- “高频高消费”
- “低频高消费”
- “高频低消费”
- “新用户”
- “流失用户”
不需要标签——算法自己发现这种结构。典型算法:K-Means、DBSCAN、层次聚类。
2. 降维(Dimensionality Reduction)
把 768 维向量压成 2 维,方便可视化。
或:在不丢太多信息的前提下把 100 维特征压到 20 维,让后续模型训练更快、更稳。
典型算法:PCA、t-SNE、UMAP、自编码器。
Embedding 空间漫游可视化就是 t-SNE 的实例——把高维词向量压到 2D。
3. 异常检测(Anomaly Detection)
识别”和大多数样本不一样”的少数样本。
例:信用卡欺诈、机器故障、网络入侵——所有”异常”都比”正常”少得多。
典型算法:Isolation Forest、One-Class SVM、自编码器重建误差。
无监督学习最大的难题不是算法——是怎么知道学得好不好。
监督学习有标签可对答案,无监督没有。所以无监督的评估常常依赖”业务上是否有用”——很主观。
强化学习:通过奖励”摸索”
数据形态:智能体在环境里行动,每个行动得到奖励或惩罚。
环境(围棋盘 / 游戏 / 机器人世界)
↓ 观察
智能体 → 选择行动 → 得到奖励 + 新观察
↑___________________________|
目标:学一个”策略” ,最大化长期累积奖励。
例子
- 下棋:状态 = 当前棋局;行动 = 下一步走法;奖励 = 输赢
- 机器人:状态 = 摄像头画面;行动 = 关节角度;奖励 = 完成任务 + 1
- 推荐系统:状态 = 用户历史;行动 = 推荐什么;奖励 = 是否点击/购买
- AlphaGo:明面是监督(学人类棋谱)+ 强化(自我对弈)的混合
难在哪
强化学习的难度远超监督学习:
| 维度 | 监督学习 | 强化学习 |
|---|---|---|
| 反馈 | 立即(每个样本一个标签) | 延迟(可能下棋 50 步后才知输赢) |
| 数据 | 静态收集 | 智能体行动产生 |
| 探索 vs 利用 | 不存在 | 核心难题 |
| 训练稳定性 | 相对稳 | 极不稳定 |
真实情况:经典 RL 在工业界用的不多——除了游戏 AI 和机器人,大多数公司用不到。
但 RLHF 例外:ChatGPT、Claude 这些 LLM 的训练流程里都有 RL(让模型从人类反馈学),这才是 RL 最广泛的工业应用。
一些跨范式的”杂种”
实际工作中纯监督/纯无监督的项目反而少——混合最常见:
半监督学习(Semi-supervised)
有少量标签 + 大量无标签数据。先用无标签数据”预训练”,再用少量标签”微调”。
LLM 的训练完美演示了这个思路:先在海量互联网文本上自监督预训练,再用少量人类标注做 RLHF 微调。
自监督学习(Self-supervised)
数据本身就构造标签。比如:把句子里随机词遮住,让模型猜——这是 BERT 的做法(遮蔽语言模型)。
当下 LLM、CLIP、SAM 等基础模型都是自监督。这是 AI 第二个大爆发的核心理由——它把”标签贵”的问题绕开了。
迁移学习(Transfer Learning)
在一个任务上预训练,迁到另一个相关任务上微调。
用 BERT 在 Wikipedia 上预训练好的权重,迁到你公司的客户邮件分类——只需要 1000 条标注数据就能训出来。没有这一招,今天的 AI 应用 95% 都跑不起来。
怎么选
接到一个新业务问题,第一步问 4 个问题:
| 问题 | 答案 → 走哪一支 |
|---|---|
| 我有标签吗? | 有 → 监督 / 没 → 无监督或自监督 |
| 是离散类还是连续数? | 类 → 分类 / 数 → 回归 |
| 涉及”在环境里做决策”吗? | 是 → 强化学习 |
| 标签很贵吗? | 是 → 考虑自监督/半监督/迁移 |
回答完,你就知道大致用哪类算法。
L2 路径概览
接下来我们会专题深入几个最重要的经典 ML 算法:
| 篇章 | 主题 |
|---|---|
| L2-02 | 线性回归 |
| L2-03 | 逻辑回归与分类 |
| L2-04 | 决策树 |
| L2-05 | 随机森林 + 集成学习 |
| L2-06 | K-Means 聚类 |
| L2-07 | 评估指标 + 过拟合 + 正则化 |
| L2-08 | SVM |
| L2-09 | 优化器(已写) |
| L2-10 | 特征工程 |
| L2-11 | 完整端到端 ML 项目(Kaggle 上手) |
读完整个 L2,你已经能用 scikit-learn 解决大量真实业务问题——不需要任何深度学习。
- 跑通 Kaggle 入门 Titanic / House Price 项目
- 给同事解释”为什么我们这个项目应该用 XGBoost 而不是神经网络”
- 看懂 sklearn 文档里 90% 的 API
- 在工作中真正用 ML 解决问题(而不只是”调用 ChatGPT API”)
下一篇:《线性回归:最简单也最深刻的 ML 模型》
读到这里说明你认真在学 🎯
订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。
讨论区
· 用 GitHub 账号登录评论src/components/Comments.astro 顶部填入
仓库 ID 和分类 ID(见组件注释里的配置步骤)。