HelloAI
L0 第 11 篇 🥚 难度 🕒 14 分钟

AI 词汇表:写给文科生的 30 个核心术语

Token、Embedding、Transformer、RAG、Fine-tuning……这些每天在群里飞的黑话,一次性给你讲完。

阿莱
2026/6/6

读到这里,你已经能用 AI 了,也开始能看懂别人在讨论什么了。但 AI 圈的黑话密度极高——这是一份”够用 90% 场景”的术语表,按主题分组。

每条一句话定义 + 一句话比喻。读完你应该能听懂任何一场 AI 圆桌讨论。

一、基础概念(5 个)

1. AI(人工智能) 让机器表现出某种”智能”行为的总称。 比喻:这是一个愿景词,不是具体技术。

2. ML(机器学习) 让机器从数据里”自己悟”规则,而不是人类手写规则。 比喻:你给狗看 100 张猫照片说”这是猫”,狗就慢慢学会了——这就是 ML。

3. DL(深度学习) ML 的一种,使用多层神经网络。 比喻:ML 是大类,DL 是其中”特别能打”的一支。

4. LLM(大语言模型) 专门处理语言的深度学习模型,参数极多(通常 10 亿+)。 比喻:ChatGPT、Claude 都是 LLM。

5. AGI(通用人工智能) 能在大多数任务上达到或超过人类水平的 AI。目前还没有比喻:当下的 AI 是”专才”,AGI 是”通才”。

二、模型相关(6 个)

6. 参数(Parameters) 模型内部的”可调节数字”。“7B 模型”指有 70 亿个参数。 比喻:每个参数是一个旋钮,训练就是调旋钮的过程。

7. Token 模型处理文本的最小单位,可能是一个字、一个词、或一个词的一部分。 比喻:你输入的”Hello”可能是 1 个 token;“你好”可能是 2-3 个 token;按 token 收费。

8. 上下文窗口(Context Window) 模型一次能”看”的最大 token 数。 比喻:模型的”短期记忆”,超过这个量它就开始遗忘前面的内容。

9. Embedding(嵌入向量) 把一个词/句子/文档转换成一个数字向量,意思相近的向量也相近比喻:把每个词放到一个高维空间里——“king”和”queen”在空间里很近,和”banana”很远。

10. Transformer 2017 年发明的神经网络架构,今天所有大模型的基础。 比喻:发动机。ChatGPT、Claude、Gemini 都是不同”车型”,但发动机都是 Transformer。

11. Attention(注意力机制) Transformer 的核心:每个 token 在生成时会”看”其他 token,决定哪个最相关。 比喻:你读”小猫追小球因为好奇”时,“它”会回头看”小猫”——这就是 attention。

三、训练流程(5 个)

12. Pre-training(预训练) 用海量互联网文本(千亿 token 级)训练一个基础模型。 比喻:让一个孩子读完图书馆所有书。GPT-3 的预训练成本约 $460 万美元。

13. Fine-tuning(微调) 在预训练模型基础上,用特定领域数据再训练一下。 比喻:让读完所有书的孩子,再专门读一周医学教材,变成医学助手。

14. SFT(监督微调) 用”问题-答案”对训练模型遵循指令。 比喻:给孩子看 1000 个”问题怎么回答的好例子”,让他学会”对话该怎么答”。

15. RLHF(人类反馈强化学习) 让人类标注员给模型的多种回答打分,模型学会”什么样的回答更受欢迎”。 比喻:ChatGPT 之所以听起来”懂礼貌、有温度”,就是 RLHF 训练出来的。

16. LoRA(低秩适应) 一种轻量级微调方法,只调一小部分参数,省 90% 的算力和显存。 比喻:不全身换骨架,只给关节加几个补丁。

四、推理与使用(6 个)

17. Inference(推理) 模型生成回答的过程,对应训练。 比喻:训练是”学习”,推理是”考试”。

18. Prompt(提示词) 你输入给 AI 的指令。 比喻:跟新员工交代任务时怎么交代——交代得清楚,工作就做得好。

19. Prompt Engineering(提示词工程) 精心设计 prompt 让 AI 干活更准的技巧。 比喻:高效”指挥”AI 的艺术,详见 L0-05。

20. CoT(思维链) 让 AI 一步步思考再答,而不是直接出结论。 比喻:跟它说”请一步步推理”,它的准确率会立刻提升。

21. Few-shot 在 prompt 里给几个例子,让 AI 模仿。 比喻:“按这 3 个例子的风格写”——比说 100 句”要活泼一点”管用。

22. Hallucination(幻觉) AI 自信地说错话、编内容。 比喻:会编故事的失忆症患者——它觉得自己记得,其实是它在猜。

五、增强与扩展(5 个)

23. RAG(检索增强生成) 先从知识库里检索相关文档,再让 AI 基于文档回答。 比喻:考试时不让 AI 凭记忆作答,给它带本资料让它翻书答——准确率大幅上升。

24. Agent(智能体) 一个 AI 系统能自己规划、调用工具、连续行动完成多步任务。 比喻:从”问一句答一句的助理”变成”能自己安排日程、订票、写邮件的实习生”。

25. Tool Use(工具使用) AI 在对话中调用外部工具,比如计算器、网页搜索、API。 比喻:AI 算不准乘法?让它打开”计算器 App”算一下。

26. MCP(Model Context Protocol) Anthropic 提出的标准协议,让 AI 安全地接入各种外部工具和数据源。 比喻:相当于”AI 世界的 USB 接口”。

27. Multimodal(多模态) AI 能同时处理文本、图、声、视频等多种输入。 比喻:能”看”也能”听”也能”读”的 AI,不再只会读字。

六、性能与系统(4 个)

28. Quantization(量化) 把模型的参数从高精度(如 32 位浮点)压到低精度(如 4 位整数),让模型体积变小、速度变快。 比喻:把高清图压成 JPEG——质量略降,但占空间小、传输快。

29. KV Cache 模型生成时缓存中间结果,避免重复计算。长对话越后面越慢就是因为它越来越大。 比喻:演讲时把已经讲过的笔记摊在桌上,省得重复想。

30. Open-source(开源) vs Closed(闭源)

  • 开源:模型权重公开,谁都能下载、修改、本地部署。代表:Llama、Mistral、DeepSeek、Qwen
  • 闭源:只能通过 API 用,代表:GPT-4、Claude、Gemini 比喻:开源像 Linux(自由,但要自己装),闭源像 Windows(贴心,但封闭)。

一份”看到就懂”的快查表

下次你看到这些组合,能秒翻译:

黑话翻译
「这个模型有 70B 参数」“它的’脑容量’是 70 亿个旋钮”
「上下文 200k」“它一次能读 15 万字左右”
「我们用了 RAG」“我们给 AI 配了一个知识库”
「它会幻觉」“它会一本正经地胡说”
「LoRA 微调」“用一小部分数据轻量训练”
「Tool use 接进去了」“AI 学会自己调用别的软件了”
「Token 单价 $0.003」“每生成一句话付几分钱”
「MoE 架构」“模型里有多个’专家’,每次只用一部分”
「Inference 加速」“让 AI 答得更快”
「Embedding-based 检索」“用语义相似度查文档”
💡 想成为内行

读完 L0 你已经能听懂大多数日常 AI 讨论了。如果想”内行起来”,建议继续 L3 路径——它会把上面这些词背后的数学和代码都讲透。

这只是开始

L1-L7 路径里,每个层级都会用到很多这些词。建议收藏这一篇,遇到不懂的回来查。

下一篇:《L0 毕业 + 下一步学什么》——回顾你已经掌握的,给你下一步的分叉建议。

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论
⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入 仓库 ID 和分类 ID(见组件注释里的配置步骤)。