HelloAI
L0 第 2 篇 🥚 难度 🕒 15 分钟

一篇文章读完 AI 简史:从图灵到 ChatGPT

70 年压成 15 分钟。不讲流水账,只挑改变了游戏规则的 11 个时刻。

阿莱
2026/5/28

如果你只想知道 ChatGPT 怎么突然冒出来的,看这一篇就够。

我们不讲流水账(“这一年发生了什么,那一年又发生了什么……”),只挑真正改变了游戏规则的 11 个时刻。读完你会发现,今天的 AI 不是某个人某年突然发明的,而是 70 年里好几代人接力跑出来的。

1950 · 图灵问了一个不一样的问题

二战结束后五年,英国数学家 艾伦·图灵 写了一篇论文叫《Computing Machinery and Intelligence》。

他问的不是”机器能不能思考”——他觉得这个问题太哲学、定义都模糊。他换了个问法:

如果一个人和一台机器隔着帘子聊天,他分不出对面是人还是机器——那这台机器是不是就算”会思考”了?

这就是图灵测试。它的精彩之处在于:把抽象的”智能”变成了一个可以做实验的标准。

🔬 冷知识

图灵这篇论文里还预言:到 2000 年,普通人和电脑聊 5 分钟就有 30% 会判错。这个预言在 70 年后才被 ChatGPT 真正实现。

1956 · 给这事起个名字:AI

6 年后,达特茅斯学院开了一个夏季研讨会。组织者是 约翰·麦卡锡马文·明斯基克劳德·香农(信息论之父)等几位 20 多岁的年轻人。

他们写的研讨会申请书里第一次用了 “Artificial Intelligence” 这个词,本来是为了和当时已经火起来的”控制论”(Cybernetics)区分开。

从此 AI 作为一个独立学科诞生。但当时所有人都太乐观了——他们觉得”10 年内就能造出和人一样聪明的机器”。

1969 · 第一次”AI 寒冬”

1960 年代,AI 研究者主要做两件事:

  1. 用符号和规则模拟逻辑推理(“如果 A 那么 B”)
  2. 训练简单的神经网络(最早是 1958 年由 Frank Rosenblatt 提出的”感知机”)

1969 年,马文·明斯基(对,又是他)写了一本书叫《Perceptrons》,用数学证明:单层感知机连”异或”(XOR)这种基本逻辑都学不会

这本书让美国国防部砍掉了对神经网络的全部资助。整整 15 年,神经网络无人问津。这是第一次 AI 寒冬

⚠️ 历史的讽刺

明斯基的证明本身没错——单层确实不行。但他没指出”多层就可以”。这个简单的真相,等了快 20 年才被重新发现。

1986 · 反向传播被”重新发现”

1986 年,多伦多大学的 Geoffrey Hinton 和同事发了一篇论文,介绍了一个能训练多层神经网络的算法——反向传播(Backpropagation)

这个算法其实更早就被独立发明过几次(最早可追溯到 1960 年代),但 Hinton 这次让整个学界注意到了它。

如果说神经网络是”船”,反向传播就是发动机。没有它,再多层也跑不动。

但当时的算力还不够,神经网络效果还是不如其他方法。Hinton 后来被人开玩笑叫做”在荒野里坚持了 30 年的人”。

1997 · 深蓝 vs 卡斯帕罗夫

1997 年 5 月,IBM 的国际象棋程序 深蓝(Deep Blue) 在 6 局比赛中击败了世界冠军卡斯帕罗夫。

注意一个细节:深蓝不是神经网络,它是用”穷举搜索 + 人类专家规则”实现的——每秒能算 2 亿步棋。

但它给了全世界一个心理暗示:机器在某些智力任务上,真的可以打败人类

2006 · 深度学习的名字诞生

Hinton 一直没放弃神经网络。2006 年他和合作者发了一篇论文,提出了一种新的训练方法叫 “deep belief networks”——并第一次用了 “deep learning” 这个词。

学术界的反应平平。当时主流的看法仍然是:神经网络不实用。

但 Hinton 注意到一件事:GPU 和大数据。GPU 让训练大型网络的算力够了,互联网让标好的数据多了。条件齐了,就差一个引爆点。

2012 · AlexNet 的核爆时刻

引爆点在 2012 年 9 月发生。

ImageNet 是计算机视觉领域最难的图像识别比赛,几十万张图、上千类。2010 和 2011 年的冠军错误率都在 25% 以上。

2012 年,Hinton 的学生 Alex Krizhevsky 用一个 8 层的卷积神经网络(后来被叫做 AlexNet),把错误率一下子砍到 16.4%——比第二名好了 10 个百分点。

这在学术圈是核爆级别的差距。会议现场几乎所有人都意识到:游戏规则变了

之后几年,深度学习以摧枯拉朽之势席卷一切:

年份突破
2013语音识别准确率超过人类
2014GANs 发明,机器开始”画画”
2015图像识别超越人类
2016AlphaGo 击败围棋世界冠军李世石
💡 为什么 AlphaGo 这么重要

围棋的搜索空间比国际象棋大 10^100 倍,靠穷举根本没戏。AlphaGo 证明了”神经网络 + 自我对弈”可以解决用穷举永远解决不了的问题。这是 AI 从”算力机器”向”学习机器”的彻底转向。

2017 · Attention Is All You Need

2017 年 6 月,Google 8 个研究员发了一篇 8 页的论文,标题嚣张——《Attention Is All You Need》。

这篇论文提出了一个新结构:Transformer。它本来是为机器翻译设计的,但研究者很快发现它有一个惊人的性质——

只要数据够多、参数够多,能力就一直涨。

这听起来像废话,但在当时简直是反常识。之前所有 AI 模型都有”天花板”,加大就不灵了。Transformer 看起来没有天花板。

这篇论文的引用量到 2026 年已经 12 万+。它直接催生了后面的一切。

2020 · GPT-3:第一次让所有人吓一跳

OpenAI 接过 Transformer,开始往”大”的方向猛冲。

  • 2018 年 GPT-1:1.17 亿参数
  • 2019 年 GPT-2:15 亿参数(OpenAI 觉得太危险,没开源)
  • 2020 年 GPT-3:1750 亿参数

GPT-3 是第一个让 AI 圈以外的人也”卧槽”的模型。给它写半个开头,它能续写出像样的小说;给它一道编程题,它能写出代码;给它法律条款,它能改写成人话。

但因为只是 API 形态,没有友好界面,普通人感受不到。

2022 · ChatGPT 的全民时刻

2022 年 11 月 30 日,OpenAI 上线了一个叫 ChatGPT 的网页。

它做了一件极简单又极重要的事:给 GPT 套了个聊天框

结果:

  • 5 天用户破 100 万(Facebook 用了 10 个月)
  • 2 个月用户破 1 亿,成为史上增长最快的消费产品

ChatGPT 出现之前,AI 还是”实验室里的玩意”。ChatGPT 之后,奶奶外婆都开始用 AI 了。

2023-2026 · 大模型时代

接下来几年节奏快到看不清:

  • 2023 年 3 月 GPT-4 发布,能力比 GPT-3.5 大幅跃迁
  • 2023 年 7 月 Meta 开源 Llama 2,开源生态崛起
  • 2023 年下半年 Anthropic 的 Claude 进入主流
  • 2024 年 Google Gemini、Anthropic Claude 3 全面对标 GPT-4
  • 2024 年 AI Agent 概念爆发,模型开始能”自己干活”
  • 2025 年 多模态(图、声、视频)全面成熟,Sora 类视频模型实用化
  • 2026 年 上下文窗口冲破 2M token,编码能力超越大部分初级程序员

我们正站在这个时代的中间。十年后回头看,大概会说”那段时间一年的进展,相当于 1990 年代十年”。

你需要记住的 5 句话

  1. AI 不是一个技术,是一个 70 年的愿景。从图灵到 ChatGPT,一代代人接力跑。
  2. 2012 年 AlexNet 是分水岭。在它之前,神经网络是民科;之后,神经网络是真理。
  3. 2017 年 Transformer 是基础设施。今天所有大模型都基于它。
  4. 2022 年 ChatGPT 不是技术突破,是产品突破——把 GPT 套了个聊天框,全世界就疯了。
  5. 我们正处在 AI 的”印刷术时刻”。这个比喻不夸张,从历史尺度看,影响可能确实和那个量级类似。
📝 想深入了解某个人物

推荐两部纪录片:《AlphaGo》(Netflix,关于 2016 年那场围棋赛)和《The Inventor》(关于早期 AI 人物,HBO)。文字方向推荐 Cade Metz 的《Genius Makers》。

下一篇:《AI 现在到底能做什么、不能做什么——用真实例子说话》

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。