企业 AI 应用 90% 都用 RAG(检索增强生成)——让 LLM 基于真实文档回答,而不是凭记忆。 输入一个问题,看完整 5 步:分块 → 向量化 → 检索 → 重排 → 生成。
下面是我们的"知识库"(模拟 HelloAI 项目文档)已被切成的 8 个 chunk:
余弦相似度排名(高=相关):
重排后的 top-3(将塞进 prompt):
裸 LLM 凭"记忆"答——它对你公司文档的具体内容根本不知道,只能编。 RAG 把真实文档片段塞进 prompt,让 LLM 在"有材料"的状态下回答——准确率大幅上升。
主流栈:LangChain / LlamaIndex 做编排,Pinecone / Weaviate / Qdrant 做向量库,OpenAI text-embedding-3 等做嵌入,Cohere Rerank / 自研做重排。整套部署通常 1-2 周。