HelloAI ← 可视化画廊
🦅 大模型 · 12 分钟

RAG 全流程拆解

企业 AI 应用 90% 都用 RAG(检索增强生成)——让 LLM 基于真实文档回答,而不是凭记忆。 输入一个问题,看完整 5 步:分块 → 向量化 → 检索 → 重排 → 生成

试试:
1

分块(Chunking)

把长文档切成小块,方便检索

下面是我们的"知识库"(模拟 HelloAI 项目文档)已被切成的 8 个 chunk:

2

向量化(Embedding)

把文字转成向量,存进向量库
用户提问的向量:
[0.0, 0.0, 0.0, ...]
向量库(8 个 chunk 已存好):
chunk_1: [0.21, -0.45, 0.78, ...]
chunk_2: [0.65, 0.12, -0.31, ...]
chunk_3: [-0.18, 0.92, 0.45, ...]
...(共 8 个)
3

检索(Retrieval)

算"提问向量"和每个 chunk 的余弦相似度,取 top-k

余弦相似度排名(高=相关):

4

重排(Rerank)

用更精确的模型对 top-N 再打分,挑出真正最相关的 top-3

重排后的 top-3(将塞进 prompt):

5

生成(Generation)

把 top-3 chunk + 用户问题塞给 LLM,让它"基于资料"答
发给 LLM 的 prompt:

    
LLM 的回答:
💡

为什么 RAG 解决幻觉

裸 LLM 凭"记忆"答——它对你公司文档的具体内容根本不知道,只能编。 RAG 把真实文档片段塞进 prompt,让 LLM 在"有材料"的状态下回答——准确率大幅上升。

🛠

真实 RAG 系统

主流栈:LangChain / LlamaIndex 做编排,Pinecone / Weaviate / Qdrant 做向量库,OpenAI text-embedding-3 等做嵌入,Cohere Rerank / 自研做重排。整套部署通常 1-2 周。