2025年6月15日·阅读约1分钟

带人工审批环节的 AI 辅助支持分诊

Q: Should we let AI send replies automatically, or keep humans in the loop?

Start with **drafts only**: classification, a short summary, and a suggested reply that an agent must approve. This gives you speed without risking an auto-sent mistake. Once the team trusts the output and your safety rules are working, you can consider limited automation for low-risk steps like pre-filling tags.

带人工审批环节的 AI 辅助支持分诊：对工单进行分类与摘要、草拟回复并安全路由，让 AI 帮忙但不直接发送错误答复。

为什么当工单量增长时分诊会出问题

当团队能阅读每一条工单、理解背景并快速把它分配给合适的人时，分诊才有效。随着工单量增加，这个流程就会崩溃。客服开始只扫一眼，重要上下文被漏掉，同一条工单可能被两三个人处理过才真正解决。

通常的问题不是因为没人努力，而是在需要的时候缺少正确的信息。

客户写了三段话、附了截图并提到一个截止时间。在繁忙的收件箱里，截止时间被忽视，截图从未打开，工单掉进了错误的队列。客户开始等待。等到有人真正处理时，他们得从头重新读整个对话。

团队常常会尝试自动化。风险较高的做法是让 AI 自动发送回复。哪怕一个小错误也可能代价高昂：它可能承诺你无法兑现的退款、要求敏感信息，或误解愤怒的客户而显得轻描淡写。

当分诊被压垮时，常见问题反复出现：

工单被分到错误的团队。
首次响应变慢，因为坐席要等到有时间才认真处理。
多个人重复问同样的问题。
语气因为匆忙而变化。
紧急或敏感的问题乍看之下显得平常。

AI 辅助的支持分诊目标很简单：在不失去控制权的前提下更快地处理。AI 可以做分类、摘要和草拟回复，但由人工对外发出的内容负责。这个审批步骤在保持高质量的同时，消除大量重复劳动，节省时间和注意力。

把它想成一个准备案卷和草稿的智能助理，然后等待人工确认。

“AI 辅助”分诊到底包括什么

AI 辅助的支持分诊意味着 AI 帮助团队更快地工作，但人来决定发送什么、工单流向以及何为完成。它是一组围绕工单的小工具，而不是自动驾驶。

分类给工单打标签，让它进入正确的队列。通常包括主题（账单、登录、bug）、紧急程度（阻塞或可继续）、产品领域，有时还有情绪（平静、沮丧、愤怒）。目标不是完美标签，而是减少误投并加快首次响应。

摘要把凌乱的对话变成清晰的概况。好的摘要是一段短文字加一些提取出的事实（账号、订单号、设备、错误信息、已尝试的步骤）。这样能节省时间，避免“我没读你的消息”的感觉。

建议回复 生成与公司语气和政策一致的草稿。安全的草稿会重复它理解到的内容，只问缺失的问题，并提出下一步。由人工编辑并批准。

安全交接 使用规则路由工单，避免卡住。例如：立即升级安全和支付相关问题，带上关键事实把 bug 路由到正确的产品领域，把操作类问题发到通用支持队列并提供草稿，标记高风险语言交给资深人员复核。

设计人工审批环节

AI 应该准备工作，而不是背负责任。一个好的人工审批环节能让 AI 辅助分诊更快，同时把最终决定权保留给人。

先标记出那些错误操作会伤害客户、造成金钱损失或带来法律风险的节点。即便 AI 很自信，这些步骤也要人工审批。

必须由人工保留的决策点

大多数团队在以下操作由人工审批后会更安全：

面向客户的回复（特别是退款、政策例外或安全话题）
帐号访问变更（重置密码、修改邮箱、权限更新）
计费操作（退款、拒付、升级套餐、积分）
法律或合规回复（数据请求、下架、合同条款）
VIP 工单或升级的最终路由（以免高价值工单被来回转）

然后设置置信度阈值，让系统知道何时寻求人工帮助。置信度高时可以预填类别和建议受理人；置信度低时应退回到简单队列并要求坐席选择。

一个实用的设置举例：

0.85 到 1.00：建议类别、优先级和草稿回复（仍需审批）
0.60 到 0.84：给出建议，但突出不确定之处并要求人工手动选择类别
低于 0.60：不草拟完整回复；建议坐席发送澄清问题

添加审计轨迹。记录谁在什么时候批准了什么，使用了哪个草稿版本。如果坐席编辑了建议回复，保存原始和最终消息。这有助于培训并发现问题模式。

如何设置能保持准确的工单分类

准确分类要基于现实，而不是理想的组织结构。使用与支持团队当前工作方式相匹配的类别：你已有的队列、实际人员技能和已有的交接流程。如果模型被迫从冗长混乱的列表中选择，它会猜测，很快就会失去信任。

把优先级保持简单并用明白的语言定义。少量类别比没人持续使用的细化等级好用得多：

P0：服务中断或安全风险（需立即响应）
P1：重大功能对大量用户失效（当天处理）
P2：单个用户被阻塞或有变通方案的严重 bug（下一个工作日）
P3：问题、次要缺陷、小改进（有空时处理）

再加上少量有助于路由和报告的标签。标签应描述原因，而不是用户情绪。典型标签包括 billing、login、bug、feature request。你也可以加产品区域标签（例如 mobile、integrations、performance），便于归属。

把“未知”和“需要澄清”视为有效结果，而非失败。“未知”用于不清楚的情况；“需要澄清”用于缺少关键详情的工单（账号邮箱、错误信息、复现步骤）。你的流程可以提示一个简短的后续问题，而不是强行猜测。

示例：一条消息写道：“我被重复收费并且无法登录。”分类器应选一个主要类别（Billing），加一个次要标签（login），并根据影响设定优先级。如果消息缺少发票号，应标记“needs clarification”并建议确切要问的问题。

为保持长期准确性，每周抽样复核小批工单。记录错标并在重新训练或调整提示前先修正类别定义。

能节省时间并避免混淆的摘要方式

Keep an audit trail

Track who approved what, when it changed, and which draft version was used.

Add Audit Log

好的工单摘要不是对客户话语的重写，而是让坐席在几秒钟内就能行动的快照。摘要在遵循严格模板且不做猜测时效果最好。

把摘要集中在四件事：客户目标、问题、已尝试的操作，以及当前状态（新建、等待客户、已升级）。如果客户提到具体信息，把它们提取为字段，这样坐席不必在冗长对话中寻找。

坐席信任的格式通常像这样：

Goal: 客户想要做什么
Issue + impact: 出了什么问题以及如何影响他们
Key details: 账号、套餐、设备、订单号、日期（仅在客户声明时提取）
Current status: 最近的操作和由谁执行
Next questions: 需要补充的问题（写成简短问题）

“Next questions”这一行通常能消除大多数混淆。摘要应指出缺失项，而不是用假设填补。例如："哪个 workspace？哪个环境（dev/prod）？确切的错误文本？"

一致性比花哨措辞更重要。如果两位不同的坐席读到同一份摘要，应有相同的理解。这意味着用短句、无行话且不提出新的断言。

示例：客户说他们部署的 Web 应用在一次变更后出现空白页。安全的摘要会写明目标（发布更新）、问题（浏览器显示空白页）、已提供的上下文（部署目标、开始时间），并提出缺失项（浏览器、URL、最近改动、控制台错误），而不是猜测原因。

有帮助且不冒险的建议回复

Standardize safe reply drafts

Create approved reply templates and let AI fill only ticket-stated details for review.

Build Templates

建议回复在呈现上应像是一个完善的草稿，而不是最终决定。目标是节省打字时间，同时让坐席对外发内容负责。

为常见类别（billing、login、bug report、feature request）和几种语气（中性、友好、严肃）准备一小批经批准的模板。AI 可以选取最接近的模板并把工单上下文填进去，但绝不应捏造事实。

把每个草稿围绕必须由坐席确认的占位符构建。这会强制快速人工校验在高风险点：

客户姓名
金额和订单号
日期和时间线
帐号或套餐细节
承诺的操作（退款、升级、变通方案）

对于信息不全的工单，最有用的输出往往不是完整回复，而是一个能推动进展的下一句话。添加“建议的下一步问题”，例如：“能否提供发票号和账户邮箱？”

编辑应当非常容易。并排显示原始消息和草稿，突出占位符，并便于调整语气。

示例：客户写道“我被重复收费。”草稿应先确认问题，询问发票号和卡号后四位，并避免在坐席确认前承诺退款。

安全交接和路由规则

安全交接是防止速度变成错误的护栏。AI 可以建议工单去向，但应由规则决定哪些必须人工审查、哪些可自动入队、哪些需立即升级。

先定义容易衡量且难以争辩的路由信号。别只用类别，因为并非所有 billing 工单都同样紧急。常见信号包括类别和子类别、优先级、客户等级、语言与时区、以及渠道（邮件、聊天、应用内、社交）。

对可能造成严重后果的话题添加安全门槛。这类工单不应直接进入模板回复流程，而应进入需要明确人工审批的队列。

敏感事项的升级路径

为诸如安全报告、法律请求、拒付与支付失败等触发器定义清晰路径与归属。例如，任何提到“breach”、“refund”或“chargeback”的工单都可路由到专项队列，并注明 AI 摘要仅供参考。

重复工单也是隐性时间消耗。AI 检测到可能重复时，把它当作建议：合并前需人工快速核对。合并时保留相关工单间的链接并复制独特细节（设备、订单号、复现步骤），以免丢失信息。

最后，把路由与 SLA 关联起来，当积压增加时系统会提醒你。高优先级工单应更早收到提醒，低优先级工单可以等待更久而不被遗忘。

一个可实施的分步工作流

Build safer triage workflows

Build a human-approved triage flow that drafts, routes, and logs decisions in one place.

Try AppMaster

一套实用的 AI 辅助分诊流程应确保每条工单遵循相同路径，且 AI 永远不在无人审批的情况下发送任何内容。保持流程乏味且可重复。

下面是一个一周内可以搭建，然后逐步改进的工作流：

把所有渠道汇总到一个队列。 将邮件、聊天和网页表单汇入“New”收件箱。前置一些基本字段（产品区、账户类型、紧急度），以免坐席被迫找上下文。
运行分类并生成简短摘要。 AI 给工单打标签并写 3 到 5 句的摘要。显示置信度并突出缺失信息（发票号、设备型号、错误文本）。
生成建议回复或下一步操作。 简单情况草拟回复。复杂情况建议下一步：问一个澄清问题、请求日志或路由到工程团队。
人工审核并审批。 坐席如有必要编辑摘要，然后批准或拒绝草稿。拒绝时记录简短原因，如“类别错误”或“缺少政策细节”。这些原因是强有力的训练信号。
发送或路由，然后记录结果。 审批后发送消息、升级或请求更多信息。记录结果（已解决、重开、已升级），以便观察 AI 在何处有帮助、何处增加了额外工作。

示例：客户写“被重复收费”。AI 把它标为 billing，摘要时间线并草拟回复要求发票号和卡号后四位。坐席调整语气、补上正确的政策话术、批准后系统记录是否一次回复解决问题。

常见错误与陷阱

失去团队对 AI 的信任最常见的原因，是在大家还没准备好时就让 AI 行动。在支持场景中，一次错误的自动发送回复可能带来比节省时间更多的额外工作，因为你还得修复客户关系。

常见问题包括：

过早自动发送回复。 从仅草稿开始。保持明显的“审批并发送”步骤，直到你有数周的干净结果和严格的护栏。
类别过多。 冗长的标签列表会让分类噪声增多。保持精简（billing、bug、account access、feature request），只有看到稳定模式时再新增类别。
无来源依据的摘要。 如果坐席看不到摘要背后的原文，他们无法核验。并排显示关键客户句子，尤其是任何看起来像截止时间、退款请求或承诺的内容。
没有低置信度的回退方案。 每个系统都需要“不确定”路径。当置信度低或数据缺失（无订单号、语言不清、仅有附件）时，路由到人工分诊或询问澄清问题。
没有反馈回路。 若坐席纠正了类别、摘要或建议回复，要记录这些编辑。否则准确度会停滞，使用率会下降。

一个小的设计建议：把 AI 输出当作建议而不是决定。把审批显眼化、把编辑变快速，并存储更改内容。

上线前的快速检查表

Ship to your cloud

Deploy your triage app to AppMaster Cloud, AWS, Azure, or Google Cloud when ready.

Deploy App

在全员启用前，用真实工单做短期试点，覆盖 billing、bug、account access 和退款。目标不是完美自动化，而是有明确人工控制的安全速度。

简单的上线检查项：

置信度清晰可见且易于理解（High、Medium、Low 加简短理由）。
坐席总能在同一位置看到 Approve 和 Escalate 按钮。
敏感话题被禁止自动操作（重置密码、支付争议、法律威胁、骚扰、自伤、未成年人、医疗建议）。
坐席能在几秒内更正标签和摘要。
记录审批率、编辑率和按类别/坐席/时间段的升级率。

如果只能做一件额外的事，请在 AI 建议旁加入一句简短的“为什么”说明。比如“客户提到 chargeback”能帮助坐席快速信任正确建议并识别错误建议。

一个现实的示例：从接收至解决的一条工单

Design your ticket schema

Model your ticket data and queues with a PostgreSQL-backed Data Designer.

Create App

客户写道：“你们把我一月的费用收了两次。我受够了。今天给我解决。”他们提供了订单号，但没有发票 ID 或卡号后四位。信息简短且带怒意，缺少关键细节。

你的设置会同时提出三件事：分类、简短摘要和草稿回复。它把工单标为 Billing（重复收费），优先级设为高（因为涉及付款风险且客户激怒），并把工单路由到 Billing 队列，而不是通用支持。

坐席看到的摘要可能是：“客户报告一月重复收费。提供订单 #18422。无发票 ID。要求今日解决。语气：愤怒。”摘要的重点不是花哨措辞，而是突出缺失项以免坐席猜测。

在发送任何内容前，系统会建议一份回复并标出坐席需确认的点：

发票 ID 或收据邮箱
卡号后四位或支付方式（银行卡、Apple Pay 等）
两笔收费是待处理还是已完成
是否存在多个账户

草稿回复（建议，非自动发送）：“我可以帮忙核查重复收费。为便于快速处理，请提供发票 ID（或收据上的邮箱）和卡号后四位。并请告知两笔费用是待处理还是已完成。”

客户回复后，坐席把摘要和关键标识一并交给 Payments 并备注：“可能为重复扣款。客户期望今日收到答复。”Payments 不必从头读完整线程。

最终被人工审批的是：分类、路由和经过坐席柔化语气并移除任何无法兑现承诺后的最终回复。

下一步：试点、度量，然后扩展

从小处开始。选择一个支持渠道（通常是邮件或网页表单），把试点限制在两个或三个你已熟悉的类别，例如 billing、登录问题和 bug 报告。这样可以避免评审者被边缘情况淹没，让你有时间收紧规则。

上线前写一页的简短审批指南。评审者应清楚他们要检查什么（分类、摘要准确性、语气以及建议回复是否安全）以及触发升级的条件。

一个常见的试点配置：

一个渠道
两到三个有明确负责人且易于理解的类别
任何客户面向输出前都必须有一次审批或编辑步骤
一个回退规则：“不确定时路由到人工分诊队列”
一个记录更正的地方

先衡量质量，再看速度。第一周每天监控，然后稳定后改为每周一次。

持续追踪的几个指标：

错误路由率
风险语气或政策违规率
7 天内重开率
对摘要和回复的评审编辑率

如果想在不走长工程周期的情况下构建此流程，AppMaster (appmaster.io) 可用于创建一个内部分诊工具，集合工单数据、审批步骤、路由规则和审计日志。关键点不变：让 AI 负责草拟，人工负责最终发送。

每周与支持负责人开一次复盘会。带上 10 条真实工单：5 条做得好的、5 条出问题的。更新类别规则、收紧模板并明确升级路径。当错误路由和高风险回复在几周内保持低位时，再逐步增加一个渠道或一个类别。

常见问题

Start with drafts only: classification, a short summary, and a suggested reply that an agent must approve. This gives you speed without risking an auto-sent mistake. Once the team trusts the output and your safety rules are working, you can consider limited automation for low-risk steps like pre-filling tags.

Most teams do well with a small set of categories that match real queues, like billing, login/account access, bug, and feature request. Add a simple priority scale (P0–P3) with plain definitions so agents apply it consistently. Keep “unknown” and “needs clarification” as valid outcomes so the system doesn’t guess.

Use confidence thresholds to decide how much help the AI provides, not whether it replaces humans. When confidence is high, it can suggest category, priority, and a draft reply; when it’s medium, it should highlight uncertainty and ask for manual selection; when it’s low, it should avoid a full draft and suggest one clarifying question. This prevents false certainty from creating bad routing or risky replies.

Aim for a strict, repeatable template: one short paragraph plus extracted facts the customer actually stated. Include the goal, the issue and impact, key details (like order ID or device), current status, and the next missing questions. The summary should never invent details or guess causes; it should flag what’s missing so the agent can ask quickly.

Keep the AI on rails by starting from approved templates per category and tone, then filling in only verified details from the ticket. Use placeholders the agent must confirm for names, amounts, dates, order numbers, and promised actions. A safe draft acknowledges the issue, repeats what it understood, asks only the missing questions, and proposes the next step without making commitments the team can’t keep.

Anything that can cost money, expose data, or create legal risk should require explicit human approval before any customer-facing action. That typically includes refunds and billing actions, account access changes, security topics, legal/compliance requests, and VIP escalations. Treat AI output as informational in these cases and make the approval step obvious and mandatory.

Use routing signals beyond category, such as priority, customer tier, language/timezone, and channel. Add safety gates for sensitive terms like “chargeback,” “breach,” or “refund,” so those tickets go to a specialist queue with review required. For duplicates, let the AI suggest matches, but merge only after a quick human check and carry over unique details so nothing gets lost.

Track both quality and speed, starting with the metrics that reveal risk: wrong-route rate, risky-tone/policy issues, reopen rate within 7 days, and how often agents edit summaries and replies. Review a small sample of real tickets weekly and update category definitions and templates based on recurring mistakes. This feedback loop is what keeps accuracy from drifting over time.

Pilot on one channel and two or three well-understood categories, with a single approve-or-edit step before anything reaches the customer. Make confidence visible, ensure there’s a clear fallback to manual triage, and log every correction agents make. After a few weeks of low wrong-route and low risk, expand one category or one channel at a time.

AppMaster can be used to build an internal triage tool that pulls ticket data into one place, runs classification and summaries, presents suggested replies for approval, and applies routing rules with audit logging. The practical benefit is that you can iterate on queues, templates, and approval steps without a long engineering cycle. Keep the same core rule: AI prepares drafts, and humans approve what gets sent.