🦅 大模型 · 12 分钟

RAG 全流程拆解

企业 AI 应用 90% 都用 RAG（检索增强生成）——让 LLM 基于真实文档回答，而不是凭记忆。输入一个问题，看完整 5 步：分块 → 向量化 → 检索 → 重排 → 生成。

用户提问

试试：

把长文档切成小块，方便检索

下面是我们的"知识库"（模拟 HelloAI 项目文档）已被切成的 8 个 chunk：

把文字转成向量，存进向量库

用户提问的向量：

[0.0, 0.0, 0.0, ...]

→

向量库（8 个 chunk 已存好）：

chunk_1: [0.21, -0.45, 0.78, ...]
chunk_2: [0.65, 0.12, -0.31, ...]
chunk_3: [-0.18, 0.92, 0.45, ...]
...（共 8 个）

算"提问向量"和每个 chunk 的余弦相似度，取 top-k

余弦相似度排名（高=相关）：

用更精确的模型对 top-N 再打分，挑出真正最相关的 top-3

重排后的 top-3（将塞进 prompt）：

把 top-3 chunk + 用户问题塞给 LLM，让它"基于资料"答

发给 LLM 的 prompt：

LLM 的回答：

…

💡

裸 LLM 凭"记忆"答——它对你公司文档的具体内容根本不知道，只能编。 RAG 把真实文档片段塞进 prompt，让 LLM 在"有材料"的状态下回答——准确率大幅上升。

🛠

主流栈：LangChain / LlamaIndex 做编排，Pinecone / Weaviate / Qdrant 做向量库，OpenAI text-embedding-3 等做嵌入，Cohere Rerank / 自研做重排。整套部署通常 1-2 周。