L0 第 2 篇 🥚 难度 🕒 10 分钟

一篇文章读完 AI 简史：从图灵到 ChatGPT

70 年压成 15 分钟。不讲流水账，只挑改变了游戏规则的 11 个时刻。

阿

阿莱

2026/5/28

如果你只想知道 ChatGPT 怎么突然冒出来的，看这一篇就够。

我们不讲流水账（“这一年发生了什么，那一年又发生了什么……”），只挑真正改变了游戏规则的 11 个时刻。读完你会发现，今天的 AI 不是某个人某年突然发明的，而是 70 年里好几代人接力跑出来的。

1950 · 图灵问了一个不一样的问题

二战结束后五年，英国数学家 艾伦·图灵 写了一篇论文叫《Computing Machinery and Intelligence》。

他问的不是”机器能不能思考”——他觉得这个问题太哲学、定义都模糊。他换了个问法：

如果一个人和一台机器隔着帘子聊天，他分不出对面是人还是机器——那这台机器是不是就算”会思考”了？

这就是图灵测试。它的精彩之处在于：把抽象的”智能”变成了一个可以做实验的标准。

🔬 冷知识

图灵这篇论文里还预言：到 2000 年，普通人和电脑聊 5 分钟就有 30% 会判错。这个预言在 70 年后才被 ChatGPT 真正实现。

1956 · 给这事起个名字：AI

6 年后，达特茅斯学院开了一个夏季研讨会。组织者是 约翰·麦卡锡、马文·明斯基、克劳德·香农（信息论之父）等几位 20 多岁的年轻人。

他们写的研讨会申请书里第一次用了 “Artificial Intelligence” 这个词，本来是为了和当时已经火起来的”控制论”（Cybernetics）区分开。

从此 AI 作为一个独立学科诞生。但当时所有人都太乐观了——他们觉得”10 年内就能造出和人一样聪明的机器”。

1969 · 第一次”AI 寒冬”

1960 年代，AI 研究者主要做两件事：

用符号和规则模拟逻辑推理（“如果 A 那么 B”）
训练简单的神经网络（最早是 1958 年由 Frank Rosenblatt 提出的”感知机”）

1969 年，马文·明斯基（对，又是他）写了一本书叫《Perceptrons》，用数学证明：单层感知机连”异或”（XOR）这种基本逻辑都学不会。

这本书让美国国防部砍掉了对神经网络的全部资助。整整 15 年，神经网络无人问津。这是第一次 AI 寒冬。

⚠️ 历史的讽刺

明斯基的证明本身没错——单层确实不行。但他没指出”多层就可以”。这个简单的真相，等了快 20 年才被重新发现。

1986 · 反向传播被”重新发现”

1986 年，多伦多大学的 Geoffrey Hinton 和同事发了一篇论文，介绍了一个能训练多层神经网络的算法——反向传播（Backpropagation）。

这个算法其实更早就被独立发明过几次（最早可追溯到 1960 年代），但 Hinton 这次让整个学界注意到了它。

如果说神经网络是”船”，反向传播就是发动机。没有它，再多层也跑不动。

但当时的算力还不够，神经网络效果还是不如其他方法。Hinton 后来被人开玩笑叫做”在荒野里坚持了 30 年的人”。

1997 · 深蓝 vs 卡斯帕罗夫

1997 年 5 月，IBM 的国际象棋程序 深蓝（Deep Blue） 在 6 局比赛中击败了世界冠军卡斯帕罗夫。

注意一个细节：深蓝不是神经网络，它是用”穷举搜索 + 人类专家规则”实现的——每秒能算 2 亿步棋。

但它给了全世界一个心理暗示：机器在某些智力任务上，真的可以打败人类。

2006 · 深度学习的名字诞生

Hinton 一直没放弃神经网络。2006 年他和合作者发了一篇论文，提出了一种新的训练方法叫 “deep belief networks”——并第一次用了 “deep learning” 这个词。

学术界的反应平平。当时主流的看法仍然是：神经网络不实用。

但 Hinton 注意到一件事：GPU 和大数据。GPU 让训练大型网络的算力够了，互联网让标好的数据多了。条件齐了，就差一个引爆点。

2012 · AlexNet 的核爆时刻

引爆点在 2012 年 9 月发生。

ImageNet 是计算机视觉领域最难的图像识别比赛，几十万张图、上千类。2010 和 2011 年的冠军错误率都在 25% 以上。

2012 年，Hinton 的学生 Alex Krizhevsky 用一个 8 层的卷积神经网络（后来被叫做 AlexNet），把错误率一下子砍到 16.4%——比第二名好了 10 个百分点。

这在学术圈是核爆级别的差距。会议现场几乎所有人都意识到：游戏规则变了。

之后几年，深度学习以摧枯拉朽之势席卷一切：

年份	突破
2013	语音识别准确率超过人类
2014	GANs 发明，机器开始”画画”
2015	图像识别超越人类
2016	AlphaGo 击败围棋世界冠军李世石

💡 为什么 AlphaGo 这么重要

围棋的搜索空间比国际象棋大 10^100 倍，靠穷举根本没戏。AlphaGo 证明了”神经网络 + 自我对弈”可以解决用穷举永远解决不了的问题。这是 AI 从”算力机器”向”学习机器”的彻底转向。

2017 · Attention Is All You Need

2017 年 6 月，Google 8 个研究员发了一篇 8 页的论文，标题嚣张——《Attention Is All You Need》。

这篇论文提出了一个新结构：Transformer。它本来是为机器翻译设计的，但研究者很快发现它有一个惊人的性质——

只要数据够多、参数够多，能力就一直涨。

这听起来像废话，但在当时简直是反常识。之前所有 AI 模型都有”天花板”，加大就不灵了。Transformer 看起来没有天花板。

这篇论文的引用量到 2026 年已经 12 万+。它直接催生了后面的一切。

2020 · GPT-3：第一次让所有人吓一跳

OpenAI 接过 Transformer，开始往”大”的方向猛冲。

2018 年 GPT-1：1.17 亿参数
2019 年 GPT-2：15 亿参数（OpenAI 觉得太危险，没开源）
2020 年 GPT-3：1750 亿参数

GPT-3 是第一个让 AI 圈以外的人也”卧槽”的模型。给它写半个开头，它能续写出像样的小说；给它一道编程题，它能写出代码；给它法律条款，它能改写成人话。

但因为只是 API 形态，没有友好界面，普通人感受不到。

2022 · ChatGPT 的全民时刻

2022 年 11 月 30 日，OpenAI 上线了一个叫 ChatGPT 的网页。

它做了一件极简单又极重要的事：给 GPT 套了个聊天框。

结果：

5 天用户破 100 万（Facebook 用了 10 个月）
2 个月用户破 1 亿，成为史上增长最快的消费产品

ChatGPT 出现之前，AI 还是”实验室里的玩意”。ChatGPT 之后，奶奶外婆都开始用 AI 了。

2023-2026 · 大模型时代

接下来几年节奏快到看不清：

2023 年 3 月 GPT-4 发布，能力比 GPT-3.5 大幅跃迁
2023 年 7 月 Meta 开源 Llama 2，开源生态崛起
2023 年下半年 Anthropic 的 Claude 进入主流
2024 年 Google Gemini、Anthropic Claude 3 全面对标 GPT-4
2024 年 AI Agent 概念爆发，模型开始能”自己干活”
2025 年 多模态（图、声、视频）全面成熟，Sora 类视频模型实用化
2026 年 上下文窗口冲破 2M token，编码能力超越大部分初级程序员

我们正站在这个时代的中间。十年后回头看，大概会说”那段时间一年的进展，相当于 1990 年代十年”。

你需要记住的 5 句话

AI 不是一个技术，是一个 70 年的愿景。从图灵到 ChatGPT，一代代人接力跑。
2012 年 AlexNet 是分水岭。在它之前，神经网络是民科；之后，神经网络是真理。
2017 年 Transformer 是基础设施。今天所有大模型都基于它。
2022 年 ChatGPT 不是技术突破，是产品突破——把 GPT 套了个聊天框，全世界就疯了。
我们正处在 AI 的”印刷术时刻”。这个比喻不夸张，从历史尺度看，影响可能确实和那个量级类似。

📝 想深入了解某个人物

推荐两部纪录片：《AlphaGo》（Netflix，关于 2016 年那场围棋赛）和《The Inventor》（关于早期 AI 人物，HBO）。文字方向推荐 Cade Metz 的《Genius Makers》。

下一篇：《AI 现在到底能做什么、不能做什么——用真实例子说话》

🔗 被以下 3 篇文章引用

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。