L0 第 11 篇 🥚 难度 🕒 16 分钟

AI 词汇表：60+ 核心术语（持续更新）

Token、Embedding、Transformer、RAG、Fine-tuning、MoE、SAE、Function Calling、MCP……AI 圈高频黑话一次给你讲完。

阿

阿莱

2026/6/6

读到这里，你已经能用 AI 了，也开始能看懂别人在讨论什么了。但 AI 圈的黑话密度极高——这是一份”够用 90% 场景”的术语表，按主题分组。

每条一句话定义 + 一句话比喻。读完你应该能听懂任何一场 AI 圆桌讨论。

全部

一、基础概念（5 个）

1. AI（人工智能） 让机器表现出某种”智能”行为的总称。比喻：这是一个愿景词，不是具体技术。

2. ML（机器学习） 让机器从数据里”自己悟”规则，而不是人类手写规则。比喻：你给狗看 100 张猫照片说”这是猫”，狗就慢慢学会了——这就是 ML。

3. DL（深度学习） ML 的一种，使用多层神经网络。比喻：ML 是大类，DL 是其中”特别能打”的一支。

4. LLM（大语言模型） 专门处理语言的深度学习模型，参数极多（通常 10 亿+）。比喻：ChatGPT、Claude 都是 LLM。

5. AGI（通用人工智能） 能在大多数任务上达到或超过人类水平的 AI。目前还没有。比喻：当下的 AI 是”专才”，AGI 是”通才”。

二、模型相关（6 个）

6. 参数（Parameters） 模型内部的”可调节数字”。“7B 模型”指有 70 亿个参数。比喻：每个参数是一个旋钮，训练就是调旋钮的过程。

7. Token 模型处理文本的最小单位，可能是一个字、一个词、或一个词的一部分。比喻：你输入的”Hello”可能是 1 个 token；“你好”可能是 2-3 个 token；按 token 收费。

8. 上下文窗口（Context Window） 模型一次能”看”的最大 token 数。比喻：模型的”短期记忆”，超过这个量它就开始遗忘前面的内容。

9. Embedding（嵌入向量） 把一个词/句子/文档转换成一个数字向量，意思相近的向量也相近。比喻：把每个词放到一个高维空间里——“king”和”queen”在空间里很近，和”banana”很远。

10. Transformer 2017 年发明的神经网络架构，今天所有大模型的基础。比喻：发动机。ChatGPT、Claude、Gemini 都是不同”车型”，但发动机都是 Transformer。

11. Attention（注意力机制） Transformer 的核心：每个 token 在生成时会”看”其他 token，决定哪个最相关。比喻：你读”小猫追小球因为它好奇”时，“它”会回头看”小猫”——这就是 attention。

三、训练流程（5 个）

12. Pre-training（预训练） 用海量互联网文本（千亿 token 级）训练一个基础模型。比喻：让一个孩子读完图书馆所有书。GPT-3 的预训练成本约 $460 万美元。

13. Fine-tuning（微调） 在预训练模型基础上，用特定领域数据再训练一下。比喻：让读完所有书的孩子，再专门读一周医学教材，变成医学助手。

14. SFT（监督微调） 用”问题-答案”对训练模型遵循指令。比喻：给孩子看 1000 个”问题怎么回答的好例子”，让他学会”对话该怎么答”。

15. RLHF（人类反馈强化学习） 让人类标注员给模型的多种回答打分，模型学会”什么样的回答更受欢迎”。比喻：ChatGPT 之所以听起来”懂礼貌、有温度”，就是 RLHF 训练出来的。

16. LoRA（低秩适应） 一种轻量级微调方法，只调一小部分参数，省 90% 的算力和显存。比喻：不全身换骨架，只给关节加几个补丁。

四、推理与使用（6 个）

17. Inference（推理） 模型生成回答的过程，对应训练。比喻：训练是”学习”，推理是”考试”。

18. Prompt（提示词） 你输入给 AI 的指令。比喻：跟新员工交代任务时怎么交代——交代得清楚，工作就做得好。

19. Prompt Engineering（提示词工程） 精心设计 prompt 让 AI 干活更准的技巧。比喻：高效”指挥”AI 的艺术，详见 L0-05。

20. CoT（思维链） 让 AI 一步步思考再答，而不是直接出结论。比喻：跟它说”请一步步推理”，它的准确率会立刻提升。

21. Few-shot 在 prompt 里给几个例子，让 AI 模仿。比喻：“按这 3 个例子的风格写”——比说 100 句”要活泼一点”管用。

22. Hallucination（幻觉） AI 自信地说错话、编内容。比喻：会编故事的失忆症患者——它觉得自己记得，其实是它在猜。

五、增强与扩展（5 个）

23. RAG（检索增强生成） 先从知识库里检索相关文档，再让 AI 基于文档回答。比喻：考试时不让 AI 凭记忆作答，给它带本资料让它翻书答——准确率大幅上升。

24. Agent（智能体） 一个 AI 系统能自己规划、调用工具、连续行动完成多步任务。比喻：从”问一句答一句的助理”变成”能自己安排日程、订票、写邮件的实习生”。

25. Tool Use（工具使用） AI 在对话中调用外部工具，比如计算器、网页搜索、API。比喻：AI 算不准乘法？让它打开”计算器 App”算一下。

26. MCP（Model Context Protocol） Anthropic 提出的标准协议，让 AI 安全地接入各种外部工具和数据源。比喻：相当于”AI 世界的 USB 接口”。

27. Multimodal（多模态） AI 能同时处理文本、图、声、视频等多种输入。比喻：能”看”也能”听”也能”读”的 AI，不再只会读字。

六、性能与系统（4 个）

28. Quantization（量化） 把模型的参数从高精度（如 32 位浮点）压到低精度（如 4 位整数），让模型体积变小、速度变快。比喻：把高清图压成 JPEG——质量略降，但占空间小、传输快。

29. KV Cache 模型生成时缓存中间结果，避免重复计算。长对话越后面越慢就是因为它越来越大。比喻：演讲时把已经讲过的笔记摊在桌上，省得重复想。

30. Open-source（开源） vs Closed（闭源）

开源：模型权重公开，谁都能下载、修改、本地部署。代表：Llama、Mistral、DeepSeek、Qwen
闭源：只能通过 API 用，代表：GPT-4、Claude、Gemini 比喻：开源像 Linux（自由，但要自己装），闭源像 Windows（贴心，但封闭）。

七、训练进阶（5 个）

31. DPO（直接偏好优化） RLHF 的”简化版”——不训练 reward model，直接从人类偏好对比数据训模型。比喻：从”打分员制度”变成”直接给两个回答比好坏”，省一道工序。

32. Constitutional AI（CAI） Anthropic 提出：用一套”宪法原则”让 AI 自己改自己，减少对人类标注的依赖。比喻：不是让人盯着 AI 改，而是给 AI 一本”行为守则”让它自己对照修正。

33. Distillation（蒸馏） 让一个小模型模仿大模型的输出，得到接近的能力但体积/成本小很多。比喻：让”小天才”跟”老教授”上课——学到 90% 能力，速度快 10×。

34. MoE（Mixture of Experts，专家混合） 模型内部有多个”子专家”网络，每次只激活一部分。GPT-4、Mixtral、DeepSeek-V3 都是 MoE。比喻：模型像一个”诊所”，里面有 8 位专科医生，每次只叫 2 位上岗——总人数多但每次开支小。

35. Self-play / Self-improvement 让模型和自己（或自己的早期版本）对话/对弈，自动产生训练数据。比喻：AlphaGo 自己跟自己下棋几百万局，越下越强。

八、Agent 与工程（6 个）

36. Function Calling LLM 输出结构化 JSON，指定”调用哪个函数 + 参数”。OpenAI 2023 年推广的接口。比喻：AI 不直接干活，而是写一张”请帮我执行 X(参数)“的便条。

37. ReAct Reasoning + Acting 的循环——让 LLM “想-做-观察”交替进行。所有现代 Agent 的祖师爷。比喻：侦探探案：思考线索 → 采取行动 → 看反馈 → 再思考。

38. Vector Database（向量数据库） 专门存 embedding 向量、支持”语义检索”的数据库。Pinecone / Weaviate / pgvector 是代表。比喻：传统数据库找”等于 X 的记录”，向量库找”和 X 意思最像的记录”。

39. Chunking（分块） 把长文档切成小段，便于嵌入和检索。RAG 系统的关键预处理步骤。比喻：把一本厚书拆成卡片，每张卡片单独索引。

40. Reranking（重排） RAG 召回一批候选后，用更强的模型重新打分排序，提升 top-k 质量。比喻：海选完先选 50 个，决赛环节用”更挑剔的评委”挑出真正的前 10。

41. Structured Output（结构化输出） 强制 LLM 输出符合 JSON Schema 的内容，不会自由发挥乱说。比喻：让 AI 填一张固定表格，而不是写一篇散文。

九、推理与扩展（5 个）

42. Reasoning Model（推理模型） 推理时主动生成长思维链再答。OpenAI o1/o3、DeepSeek R1、Claude Sonnet thinking 是代表。比喻：从”想到啥说啥”变成”先打草稿再交卷”。

43. Test-time Compute（推理时算力） 模型回答时投入更多 token 数 / 思考时间 = 更准确。新一代 scaling 维度。比喻：考试时多花 10 分钟做难题，分数会显著提升。

44. Prompt Caching（提示词缓存） LLM 提供商缓存重复出现的 prompt 前缀，省时省钱（最多省 90% 成本）。比喻：客服每天接同一个长背景资料，把它提前”挂在墙上”省得每次重念。

45. Speculative Decoding（投机解码） 用小模型先猜几个 token，大模型批量验证。推理加速常用技巧。比喻：实习生先草拟，老板一眼扫过去批准 → 比老板自己写快 2-3×。

46. Long Context（长上下文） 能处理几十万到几百万 token 的模型。Gemini 1.5 是先驱（百万级）。比喻：模型的”短期记忆”扩到能塞下整本《三体》三部曲。

十、安全与对齐（5 个）

47. Alignment（对齐） 让 AI 的目标和价值观与人类一致的研究方向。比喻：训练宠物不只是会指令，还要它”和你站一边”。

48. Jailbreak（越狱） 用特殊提示绕过 AI 的安全限制，让它说本来不该说的内容。比喻：你拿着”开锁工具”撬开 AI 的”安全锁”。

49. Red Teaming（红队测试） 专门派人/AI 攻击模型，找出安全漏洞。比喻：互联网公司付”白帽黑客”找系统漏洞——同理用在 AI 上。

50. Interpretability（可解释性） 研究”模型内部为什么这样想”——尤其是 mech interp（机械可解释性）派。比喻：拆开发动机一根根看哪根管子负责啥功能。

51. SAE（Sparse Autoencoder，稀疏自编码器） 机械可解释性的明星工具——把模型激活分解成”可命名的概念”。Anthropic 2024 的”金门大桥实验”靠它。比喻：把一团乱麻分成几千根可独立标签的线头。

十一、商业与生态（4 个）

52. API（应用编程接口） 程序之间互相调用的接口。LLM 公司主要靠 API 收费。比喻：插座——你不需要会发电，插上就能用电。

53. Token Pricing（按 token 计费） 输入和输出各自计费，按百万 token 算。GPT-4 输入 $2.50/M、输出$ 10/M（典型量级）。比喻：和”按字数收费的翻译员”一样。

54. Throughput（吞吐量） vs Latency（延迟）

Throughput：每秒处理多少 token（总量）
Latency：第一个 token 多久返回（速度感）比喻：一辆大卡车 throughput 高但 latency 慢；一辆小摩托 latency 快但 throughput 低。

55. On-device（端侧）AI 模型直接跑在手机/笔电/IoT 设备上，不联云。Apple Intelligence、Gemini Nano 是代表。比喻：从”打电话问总部”变成”自己脑子里就知道”。

十二、前沿热词（5 个）

56. World Model（世界模型） 不只学语言，还学物理/动力学/3D 空间的模型。Sora、Genie 2、V-JEPA 是代表。比喻：从”会写小说的 AI”进化到”会模拟整个世界的 AI”。

57. Diffusion（扩散模型） 图像/视频/3D 生成的主流路线，从噪声逐步去噪生成内容。Stable Diffusion、DALL-E、Sora 都是它。比喻：把一团雾气一遍遍揉，揉成清晰的画面。

58. Mixture of Modalities（多模态混合） 模型既能输入图/文/音/视频，也能输出多种模态。GPT-4o、Gemini 是代表。比喻：从”专科医生”变成”全科医生”。

59. Compute-Optimal（算力最优 / Chinchilla 比例） DeepMind 2022 发现：给定算力，模型大小和数据量应等比例增长，不是越大越好。比喻：训练 AI 像养孩子，光给营养不够，还得有阅历——光让模型变大不够，还要喂足数据。

60. Scaling Laws（扩展定律） 经验规律：模型性能随参数 / 数据 / 算力的对数线性提升。OpenAI 2020 提出。比喻：发现”模型越大、数据越多、训练越久 = 越聪明”的可量化关系，是 LLM 革命的”物理定律”。

一份”看到就懂”的快查表

下次你看到这些组合，能秒翻译：

黑话	翻译
「这个模型有 70B 参数」	“它的’脑容量’是 70 亿个旋钮”
「上下文 200k」	“它一次能读 15 万字左右”
「我们用了 RAG」	“我们给 AI 配了一个知识库”
「它会幻觉」	“它会一本正经地胡说”
「LoRA 微调」	“用一小部分数据轻量训练”
「Tool use 接进去了」	“AI 学会自己调用别的软件了”
「Token 单价 $0.003」	“每生成一句话付几分钱”
「MoE 架构」	“模型里有多个’专家’，每次只用一部分”
「Inference 加速」	“让 AI 答得更快”
「Embedding-based 检索」	“用语义相似度查文档”

💡 想成为内行

读完 L0 你已经能听懂大多数日常 AI 讨论了。如果想”内行起来”，建议继续 L3 路径——它会把上面这些词背后的数学和代码都讲透。

这只是开始

L1-L7 路径里，每个层级都会用到很多这些词。建议收藏这一篇，遇到不懂的回来查。

下一篇：《L0 毕业 + 下一步学什么》——回顾你已经掌握的，给你下一步的分叉建议。

📬

读到这里说明你认真在学 🎯

订阅每周精选 —— 下一篇新文章 / 新可视化第一时间送到邮箱。

💬

讨论区

· 用 GitHub 账号登录评论

⚠️ Giscus 评论未配置 —— 在 src/components/Comments.astro 顶部填入仓库 ID 和分类 ID（见组件注释里的配置步骤）。