2025年7月27日·阅读约1分钟

面向领域的聊天机器人：RAG 与微调如何选择

Q: Should I choose RAG or fine-tuning for a chatbot that answers from company documents?

使用 **RAG** 当你的答案必须与文档当前内容完全一致时，尤其是政策、定价或 SOP 经常变化的情况。需要一致行为（语气、模板或拒绝规则）且底层事实相对稳定时，使用 **微调**。

Q: What works best when our policies change every week?

通常选择 **RAG**，因为你可以更新知识库并重新建立索引而无需重新训练模型。只要检索能抓取到更新的段落，机器人当天就能反映新措辞。

Q: How can we evaluate quality without guessing?

从工单和聊天记录中挑选 **30–100 个真实问题**，保留原始表述，为每题写一段简短的期望答案和支持该答案的文档节选。按“正确性、完整性、引用支持、清晰度”打分，然后在每次变更后重复评估相同题集。

面向特定领域的聊天机器人：在文档经常变动、衡量答案质量并减少自信错误回答的场景下，如何在 RAG 与微调之间做出选择。

我们为面向特定领域的聊天机器人解决什么问题？

面向特定领域的聊天机器人使用你组织自己的知识来回答问题，而不是依赖一般的互联网事实。想想人力资源政策、产品手册、定价规则、支持流程、SOP 和内部操作指南。

大多数团队并不是想“把所有东西教给模型”。他们希望更快、更一致地回答日常问题，比如“我们的年付计划退款规则是什么？”或“供应商申请要用哪个表格？”，而不用翻遍文件夹和 PDF。

最难的是建立信任。通用模型即使在错的时候也能显得非常自信。如果你的政策写着“7 个工作日”而模型回复“10 个日历日”，答案可能读起来很合理，但会造成真实的损害：错误的审批、给客户发错回复，或合规问题。

文档变更的频率与准确性同样重要。如果文档每周更新，聊天机器人必须能迅速且可靠地反映新文本，否则它会成为过时指导的来源。如果文档每年更新一次，你可以接受较慢的更新周期，但机器人仍需正确回答，因为人们会信任它的说法。

在比较 RAG 与微调用于面向特定领域的聊天机器人时，目标是务实的：用你的文档支撑有帮助的回答，能给出清晰来源或引用，并在机器人不确定时给出安全的回应。

一个健全的问题陈述应包含五个要点：机器人可以使用（和必须避免）的文档有哪些、最常见的问题类型、什么样的回答算“好”（正确、简短、包含来源）、什么算“坏”的回答（自信的猜测、过时的规则），以及在证据缺失时怎么办（追问或说不知道）。

用通俗语言解释 RAG 与微调

RAG 和微调是两种让聊天机器人在工作场景中表现良好的不同方法。

检索增强生成（RAG）就像给机器人一本开卷考试的书。当用户提问时，系统会搜索你的文档（政策、手册、工单、常见问答），然后把最相关的片段传给模型，提示它基于这些材料来回答。模型不会把你的文档记住，而是在回答时阅读所选段落。

微调则像用示例反复训练模型直到它学会你偏好的行为。你提供大量的输入-输出对（问题和理想答案、语气、格式、不该说的话），模型的权重会发生变化，因此在没有提供文档时也能更一致地回应。

一个简单的心智模型：

RAG 通过从当前文档中检索来保持知识新鲜。
微调让行为一致：风格、规则和决策模式。

两种方法都会失败，但失败方式不同。

RAG 的薄弱环节是检索。如果检索步骤拉错了页面、拉到过时文本，或上下文太少，模型仍可能给出自信的答案，但这些答案基于的是错误的证据。

微调的弱点是过度泛化。模型可能从训练示例中学到模式，并在应当追问或说“不知道”时套用这些模式。微调也跟不上频繁的文档变更，除非你不断重训。

一个具体例子：如果差旅政策从“经理批准超过 $500”改为“超过 $300”，RAG 如果检索到更新后的政策，当天就能正确回答。微调的模型可能会一直重复旧数字，除非你重新训练并验证新行为。

哪种更适合频繁变更的业务文档？

如果你的文档每周（或每天）更改，检索通常比训练更能反映现实。对于业务文档的检索增强生成，你保持模型基本不变，只更新知识库。这样当源内容改变时，聊天机器人能够立即反映新政策、定价或产品说明，而不用等待新的训练周期。

在“真实不变”的场景下，微调也能工作：一致的语气、固定的产品规则集或狭窄的任务。但如果你在不断移动的内容上进行微调，就有把“昨天的答案”教给模型的风险。要频繁重训以跟上变化，既昂贵又容易出错。

治理：更新与归属

一个实际的问题是谁负责内容更新。

使用 RAG 时，非技术团队可以发布或替换文档，机器人在重新建立索引后即可使用。很多团队会加审批流程，只有特定角色能推送更改。

使用微调时，更新通常需要 ML 工作流程。这通常意味着需要提交工单、等待，更新频率较低。

合规与审计

当人们问“机器人为什么这么说？”时，RAG 有明显优势：它可以引用所用的确切段落。这有助于内部审计、客户支持复查以及监管话题的处理。

微调把信息烙进了权重里，因此更难为某句话给出具体来源。

成本与工作量也不同：

RAG 需要前期工作来收集文档、切分、建立索引并保持摄取可靠。
微调需要前期准备训练数据并评估，且在知识变化时需要反复训练。
当内容频繁更新时，RAG 的持续成本通常更低。

示例：一个每季度更新一次政策的人力资源聊天机器人。使用 RAG 时，人力资源可以替换政策 PDF，机器人很快就开始使用新文本并显示所依据的段落。AppMaster 可以帮助你构建用于上传已批准文档和记录使用来源的管理门户，而无需从头开发整个应用。

何时使用 RAG，何时使用微调，何时两者结合

如果你的目标是值得信任且与公司文档保持一致的答案，先从用于业务文档的检索增强生成开始。它在提问时拉取相关段落，因此机器人可以指出支持其回复的具体政策、规范或 SOP。

当内容经常变化、必须展示答案来源，或不同团队拥有不同文档时，RAG 是更好的默认选择。如果人力资源每月更新休假政策，你希望聊天机器人自动使用最新版本，而不是几周前学到的内容。

在文档不是主要问题时，可以考虑微调。微调适用于稳定的行为：一致的语气、严格的格式（例如总是用模板回答）、更好的意图路由或可靠的拒绝规则。把微调看作是教助理如何表现，而不是教它最新的手册内容。

两者结合很常见：RAG 提供事实，小范围微调（或强系统指令）保证助理风格一致且更谨慎地拒绝。这也适合将聊天机器人集成到应用中的产品团队——即便知识在变，用户体验与语气也要保持一致。

快速选择信号：

当答案必须保持最新、引用确切措辞或包含来源时，选择 RAG。
当你需要固定风格、重复的输出格式或更严格的做/不做规则时，选择微调。
当你既想要基于文档的事实又想要一致语气和更安全的拒绝行为时，结合两者。
如果你不断为跟上新文档而重调模型，或检索常常失败因为内容混乱或切分不好，应该重新考虑方案。

识别错误方法的简单办法是维护痛苦。如果每次政策更新都触发一次模型重训请求，你可能在用微调解决文档新鲜度问题。如果 RAG 拉到了正确页面但机器人仍以危险方式回答，你可能需要更好的护栏（有时微调可以帮上忙）。

如果你把它作为真实工具构建（例如在 AppMaster 中），实用的做法是先用 RAG，然后仅为那些可以清楚测试和衡量的行为添加微调。

分步：在选模型前建立可靠基线

Turn RAG into a real app

Build a doc-grounded chatbot app with roles, citations, and a safe “I don’t know” path.

Try AppMaster

大多数聊天机器人失败的原因是文档混乱和目标不清，而不是模型本身。

从文档清单开始：你有什么、放在哪、谁能批准更改。记录类型和格式（PDF、wiki、工单、电子表格）、负责人和事实来源、更新频率、访问规则以及重复出现的位置。

接着，用简单的语言定义聊天机器人的职责。挑 20 到 50 个它必须能很好回答的真实问题（例如“我如何申请退款？”或“值班升级流程是什么？”）。同时定义必须拒绝的内容，例如法律建议、人事决策或任何超出已批准文档范围的事。拒绝也是一种成功，它能防止错误回答。

然后清理并规范文档以便容易寻根溯源。删除重复项，保留一个当前版本，并清晰标注旧版本。添加清晰的标题、日期和章节标题，这样机器人可以指向支持答案的确切部分。如果某项政策经常变化，尽量在同一页面更新而不是维护多个副本。

最后设定输出合约。要求简短回答、引用所用来源章节，并在需要时给出下一步操作（例如“向财务提交工单”）。如果你在内部工具中使用 AppMaster，把 UI 定好：先显示答案，再显示引用，最后显示操作按钮。这个结构在测试中能让问题更明显，减少以后出现自信但错误的回答。

如何在不凭感觉的情况下评估质量

先做一套小规模离线测试集。从工单、邮件和聊天线程中收集 30 到 100 个真实问题。保留原始表述，包含一些模糊问题和一些容易被误解的问题。这样你就有稳定的方法比较 RAG 与微调在领域聊天机器人上的表现。

为每个问题写一份简短的期望答案（白话）和支持该答案的确切文档节。如果允许机器人说“我不知道”，在测试集中包含应当如此的情况。

按几个简单维度给答案评分

把记分卡保持精简以便真正使用。下面四项覆盖大多数业务聊天机器人失败情形：

正确性：事实是否正确，没有编造细节？
完整性：是否涵盖了用户需要采取行动的关键点？
引用质量：引用或参考是否真正支持该主张？
清晰度：是否可读且具体，还是含糊啰嗦？

如果使用检索，再加一项：检索是否拉到了正确的块，且答案确实使用了该块而不是忽略它？

跟踪随时间的变化，而不是一次性的印象

让质量管理成为常态：

在每次提示、检索或模型变更后运行相同的测试集。
保持单一记分卡并按日期记录总分。
给失败标标签（缺少政策细节、数字错误、文档过时、措辞不清）。
先审查最差的 5 个问题并修复根本原因。

示例：如果人力资源聊天机器人回答福利问题正确但引用的是过时的 PDF，你的分数应该下降。这会告诉你该修复什么：文档新鲜度、切分或检索过滤，而不是模型写作风格。

如果你把聊天机器人集成到应用（例如在 AppMaster 中），在发布版本中把测试问题和结果一并存储，以便早期发现回归。

实践中预防自信的错误回答（幻觉）

Pilot your internal chatbot

Stand up a pilot fast with a backend, web UI, and basic logging for answers and sources.

Build a Prototype

自信的错误回答通常来自三种情形之一：模型没拿到正确上下文、拿到错误上下文，或你无意中鼓励它去猜测。这种风险存在于 RAG 和微调中，但表现不同。RAG 在检索薄弱时失败；微调在模型学会填空式模式时失败。

最有效的修复方法是要求证据。把每个答案当成一份小报告：如果支持性文本不在提供的来源里，机器人就不应声称该信息。实践中，这意味着你的应用应当把检索到的片段放入提示，并要求模型只使用这些片段回答。

添加明确的拒绝和升级规则，以便机器人有安全的回退路径。一个好的聊天机器人不是能回答所有问题的机器人，而是知道何时不能回答的机器人。

如果来源没有提到该话题，就说“文档中没有足够的信息回答”。
如果问题不清楚，先问一个澄清问题。
如果回答会影响资金、权限或合规，则转人工或工单处理。
如果文档相互冲突，则指出冲突并询问使用哪个政策或版本。

约束也能减少猜测并让错误更易发现。对于政策类回答，要求给出文档名和日期，并引用 1 到 2 行关键内容来证明答案。

示例：员工问“最新的差旅报销限额是多少？”如果检索到的政策片段来自去年，机器人应当显示该日期并在没有更新来源的情况下拒绝给出“最新”限额。

如果在 AppMaster 中构建此功能，把这些规则作为业务流程的一部分：检索步骤、证据检查，然后要么带引用地回答，要么升级处理。这样安全行为是一致的，而不是可选的。

常见错误与陷阱

Integrate AI without rebuilding everything

Connect your app to AI services while keeping the surrounding workflows under your control.

Build an MVP

大多数聊天机器人失败并不是模型的问题，而是来自杂乱的文档、薄弱的检索或推动系统在应放慢时表现得很肯定的训练选择。可靠性通常首先是数据和流程的问题。

常见的 RAG 问题是切分忽视语义。如果块太小，你会丢失上下文（谁、何时、例外）。如果块太大，检索会拉入无关文本，答案变成半对半错的混合。一个简单测试：读一个块时，它是否仍然有意义并包含完整规则？

另一常见陷阱是版本混合。团队会索引不同月份的政策，机器人检索到冲突段落并随意挑一个。把文档新鲜度当作功能：给来源标注日期、负责人和状态（草稿/已批准），并移除或降权过时内容。

最具破坏性的错误是在没有检索到相关内容时强制给出答案。如果检索为空或置信度低，机器人应当说明找不到支持并提出澄清或转人工。否则你会产生自信的胡言乱语。

微调也有自己的陷阱：在一小组问答上过度训练。机器人开始照搬训练中的措辞，变得脆弱，可能丧失基本推理或通用语言能力。

测试时的警示信号：

答案没有引用任何来源文本或引用了错误章节。
同一问题根据措辞不同得到不同答案。
政策问题在文档沉默时给出了确定性答案。
微调后，机器人对简单日常问题处理变差。

示例：如果差旅政策上周更改，但两个版本都被索引，机器人可能自信地批准已不被允许的费用。这不是模型问题，而是内容控制问题。

上线前的快速清单

在把领域聊天机器人推给真实用户前，把它当作任何其他业务工具：必须可预测、可测试，并在不确定时安全退回。

将此清单作为最终门槛：

每个政策类回答都有依据。对于“你可以报销这个”或“SLA 是 99.9%”之类断言，机器人应当显示其来源（文档名 + 章节标题或摘录）。如果不能指明来源，就不应将其作为事实陈述。
当问题不清楚时会提问。如果用户的请求可能有两种合理含义，机器人应提出一个简短澄清问题而不是猜测。
能礼貌地说“我不知道”。当检索返回的支持文本弱或没有时，应拒绝并解释缺少什么，以及建议提供什么（文档、政策名、日期、团队）。
文档更新会快速改变回答。编辑关键文档中的一句话并确认机器人在重新建立索引后回答也随之改变。如果它仍在重复旧答案，你的更新管道不可靠。
你能审查失败。记录用户问题、检索片段、最终答案和用户的“有用/无用”点击。这让质量管理变得可行而不是凭感觉。

一个具体测试：从支持工单或内部聊天中选 20 个真实问题，包括带例外的棘手题。上线前运行一次，然后在更新一份政策文档后再运行一次。如果机器人不能可靠地给出有根有据的答案、能提问澄清并在来源缺失时拒绝，它还不适合生产环境。

如果你把机器人做成真实应用（例如内部门户），让来源易于查看并在每个答案旁放一个“报告问题”按钮。

示例场景：用于频繁更新内部文档的聊天机器人

Design your policy data layer

Model your knowledge base in PostgreSQL and keep one source of truth for each policy.

Create Now

你的人力资源团队每月更新政策和入职文档：PTO 规则、差旅限额、福利报名日期和新员工入职步骤。人们在聊天中仍会问相同问题，答案必须与最新文档一致，而不是上个季度的事实。

方案 A：仅 RAG，优化新鲜度

用 RAG 时，机器人先检索当前的人力资源知识库，然后只使用检索到的内容回答。关键是把“展示你的依据”设为默认。

一个通常奏效的流程：

按计划（或在每次批准更新时）索引 HR 文档，并保存文档标题、章节和最后更新日期。
回答时附简短引用（文档 + 章节）并在关键时显示“最后更新”说明。
添加拒绝规则：如果没有检索到相关内容，机器人应说明不知道并建议去问谁。
敏感话题（解雇、法律纠纷）默认转人工。

因为你没有把旧文本烙到模型里，这种方式随着文档变化能保持准确。

方案 B：为格式做轻量微调，同时仍以 RAG 为事实来源

如果你希望回答在语气和结构上保持一致（例如："资格", "步骤", "例外", "上报 HR"），可以在一小组批准范例答案上做轻量微调。机器人仍然用 RAG 来获取事实。

规则很严格：微调教会的是如何回答，而不是政策内容是什么。

2 到 4 周后，成功的标志是基本问题的 HR 升级减少、抽查准确率提高以及自信错误答案减少。你可以通过跟踪引用覆盖率（回答中包含来源的比例）、缺乏信息时的拒绝率和 HR 的每周抽样审计来衡量。

团队通常把它做成内部工具，让 HR 能够更新内容、审查答案并在不依赖工程的情况下调整规则。AppMaster 是构建完整应用（后端、Web 应用和移动应用）并包含角色与管理工作流的一种方式。

下一步：试点并把聊天机器人做成真实产品

把聊天机器人当作一个小型产品来对待。从一个团队（例如客户支持）、一套文档（最新的支持手册和政策）和一个清晰的反馈回路开始。这样范围紧凑，质量问题更容易显现。

一个可衡量的试点计划：

从该团队的聊天记录或工单中挑 30 到 50 个真实问题。
定义“好”：正确答案、引用了正确文档，以及在需要时说“我不知道”。
进行 2 到 3 周的试点，收集点赞/点踩和简短评论。
每周两次复盘失败并修正原因（缺文档、切分不好、政策不清、提示弱）。
达到可信任的质量门槛后再扩展。

要把试点转成“真实”需求在模型周围早期构建基本应用功能：人们会问敏感问题，你必须能追踪机器人出错时发生了什么。

及早构建的要素包括：认证和角色（谁能访问哪些文档集）、日志与审计轨迹（问题、检索来源、答案、用户反馈）、一个简单的管理界面来管理文档来源并查看失败模式，以及安全的回退路径（置信度低时移交人工或建立工单）。

这也是像 AppMaster（appmaster.io）这样的无代码平台能派上用场的地方：你可以把围绕模型的应用、管理面板和用户角色快速做出来，同时把聊天机器人逻辑模块化。这样以后无论是继续用检索增强生成还是为特定任务加入微调，都更容易切换。

试点结束后一次只添加一个新的文档集。保持相同的评估集，再次测量，然后再对更多团队开放。慢慢扩展胜过快速混乱，可以在错误变成信任危机之前减少自信的错误答案。

常见问题

使用 RAG 当你的答案必须与文档当前内容完全一致时，尤其是政策、定价或 SOP 经常变化的情况。需要一致行为（语气、模板或拒绝规则）且底层事实相对稳定时，使用微调。

通常选择 RAG，因为你可以更新知识库并重新建立索引而无需重新训练模型。只要检索能抓取到更新的段落，机器人当天就能反映新措辞。

当 RAG 稳定检索到正确、最新的段落，并且机器人被强制只从这些证据回答时，就能建立信任。为答案添加引用（文档名、章节、日期）并在来源缺失或过时时使用明确的“我不知道”回退策略。

微调会改变模型的行为，让它以你偏好的风格回答，遵守你的做/不做规则，并保持一致的格式。但微调不会自动跟上快速变化的政策，除非你频繁重训，这在事实经常变化时风险较高。

当你既要基于文档的事实，又要统一的用户体验时，二者结合很有意义。让 RAG 提供最新的事实片段，用轻量微调（或强系统指令）来强制回复格式、语气和安全拒绝行为。

从工单和聊天记录中挑选 30–100 个真实问题，保留原始表述，为每题写一段简短的期望答案和支持该答案的文档节选。按“正确性、完整性、引用支持、清晰度”打分，然后在每次变更后重复评估相同题集。

当不同版本的策略都被索引时，会出现版本混淆，检索可能拉到冲突的段落。通过标注唯一可信来源、给文档加日期/状态，并移除或降权过时内容来修复这个问题。

如果检索到的来源不包含该声明，机器人不得将其作为事实陈述。应当问一个澄清问题、说明文档中找不到支持，或在涉及敏感内容时移交给人工处理。

把每段切分成能独立成句并包含规则（包括例外和“谁/何时”上下文）的块。块太小会丢失语义；太大又会把无关内容拉进来导致回复混乱。读一个块时，应该能看出它是否是完整的规则或步骤。

提前做好配套应用：访问控制（谁能看哪些文档）、管理界面来维护已批准的来源，以及记录问题、检索片段、最终答案和用户反馈的日志。在 AppMaster 中，你可以较快地创建这样一个门户并构建工作流。