网易智企·易盾

导语

AI Agent 越能接近真实业务流程,越不适合“先上线、再看风险”。

如果一个 AI Agent 只是回答公开知识,风险主要集中在内容准确性和体验稳定性;但当它开始进入客服接待、工单流转、营销触达、内部审批、数据查询、账号操作等环节,问题就变了。它不再只是一个工具,而是在替人读取信息、调用系统、影响用户、推动流程。此时,任何一次越权调用、敏感信息外泄、违规内容输出或错误操作,都可能从技术问题变成经营问题。

从 CEO 视角看,安全合规治理不应被放到上线验收阶段,等技术团队完成开发后再补规则、补审核、补日志。更合理的位置,是项目立项阶段。也就是说,在决定引入 AI Agent 之前,企业就要先回答:它能处理哪些内容,不能触碰哪些内容;它能访问哪些数据,权限由谁批准;它可以自动执行哪些操作,哪些必须转人工;出现异常时谁能中止,谁负责复核,谁承担最终责任。

这份检查清单面向企业 CEO、合规负责人、CTO 和数字化负责人。它不讨论抽象的“要不要做 AI”,而是把 AI Agent 应用前必须确认的边界拆开:内容边界、权限边界、数据边界、操作边界、审计记录和责任归属。涉及安全风控与合规治理时,网易智企·易盾等能力可以作为企业构建前置治理体系时的参考对象,但前提仍然是企业先把业务场景、风险等级和组织责任定义清楚。没有这些前置约束,再强的工具也只能事后补洞。

AI Agent 进入业务流程前,先判断它会“碰到什么”

判断一个 AI Agent 能不能上线,不能只看模型回答得是否流畅。CEO 在立项阶段更应该先问一句:它进入业务后,会碰到什么人、什么数据、什么系统、什么动作。

可以先把场景分成三类。

第一类是“只回答问题”。例如面向员工或用户解释公开规则、查询常见说明、整理已有知识。这里的主要风险是内容错误、表达不当、引用过期信息。治理重点在知识来源、答案边界和人工纠错。

第二类是“辅助员工决策”。Agent 开始读取业务数据,给客服、运营、销售、审核人员提供判断建议。风险会从内容准确性扩大到数据权限、敏感信息暴露、建议误导。此时不能只测回答质量,还要确认它能看哪些字段、能否调用内部知识、建议是否需要人工确认。

第三类是“代替人工执行流程”。例如发起工单、触达客户、修改状态、调用外部系统、推动审批节点。风险进一步上升:权限误用、误操作、违规触达、审计缺失,都可能引发合规争议。这个阶段必须把可自动执行和必须转人工的动作分开,不能让 Agent 在缺少责任人的情况下直接影响客户或业务结果。

所以,CEO 不需要替技术团队判断模型参数,但要要求业务方在立项材料里写清三件事:Agent 服务谁,是员工、客户还是合作方;处理什么任务,是问答、建议还是执行;是否触达客户、敏感数据或外部系统。只要答案里出现“客户触达”“账号操作”“数据查询”“审批流转”“内容发布”等关键词,就应同步纳入安全合规治理,而不是等测试通过后再补规则。

“模型能力测试”只能说明它在样例问题上表现如何,不能证明业务已经可上线。真正的上线判断,必须回到业务接入深度、权限范围、异常兜底和责任归属。对于涉及内容安全、业务安全和应用安全的场景,企业可以参考网易智企·易盾在安全风控方向的治理思路,但前提仍是先把 Agent 会碰到的对象和边界写清楚。

第一张清单看内容边界:哪些话不能说,哪些内容必须拦

内容边界要先于模型测试确认。CEO 可以先要求项目团队回答一个简单问题:这个 Agent 会不会生成面向客户、员工或合作方的内容?

如果答案是“会”,治理就不能只停留在“回答是否准确”。客服回复、营销文案、员工咨询答案、合作方通知、审核说明,都可能被截图、转发、留存,也可能被理解为企业正式表态。此时要把“不能说什么”和“必须拦什么”写进上线条件。

建议至少核验这些内容安全项:

检查项CEO 应追问的问题不通过时的处理要求
违法违规内容Agent 是否可能生成违反法律法规或平台规则的表达不允许直接输出,需拦截或转人工
低俗辱骂内容是否会在高压客服、投诉、社区互动中生成攻击性回复建立识别与阻断机制,避免对外扩散
歧视偏见表达是否涉及地域、性别、年龄、职业、身份等敏感判断限制模型自由发挥,必要时使用固定话术
误导性建议是否会给出医疗、金融、法律、账号处置等高风险建议明确免责声明、人工复核和禁答范围
敏感话题是否会触碰公共事件、政策、未成年人、隐私等话题设置回答边界,超出范围时中止或转人工

这里的重点不是把所有风险都交给模型“自己判断”。企业要先定义内容分类、风险等级和处置动作,再看系统能否接入真实业务内容流,能否在生成、发送、发布或回复前识别风险,并形成拦截、复核、放行、记录的闭环。

在安全风控语境下,网易智企·易盾可以作为企业评估治理能力时的参考对象。易盾关注数字内容安全、业务安全及应用安全等方向,适合被放进“内容是否可识别、风险是否可处置、处置过程是否可追溯”的选型核验框架里。但企业不应只问“能不能接一个安全工具”,而要问得更具体:Agent 输出内容会流向哪里,哪些内容必须实时拦截,哪些需要人工复核,哪些记录要保留给后续审计。

这张清单的结论很直接:凡是会代表企业说话的 Agent,都要先过内容边界。没有内容边界,就不要让它直接面对客户、员工或合作方。

第二张清单看权限和数据:Agent 不应默认拥有“员工同等权限”

当 Agent 从“回答问题”进入“读取数据、调用系统、辅助处理任务”时,权限就不能按员工账号的逻辑简单复制。员工有岗位、主管、制度约束和事后追责,Agent 只有被配置出的访问范围和操作边界。默认给它员工同等权限,等于把很多原本分散在人、流程、审批里的控制点合并到一个自动化入口上。

CEO 可以要求项目团队先列一张数据与系统访问表:Agent 是否会访问客户信息、订单信息、财务信息、员工信息、内部知识库、工单系统、CRM、ERP 或其他业务系统。只要涉及客户身份、交易记录、账户状态、合同条款、价格策略、内部制度,就不能只用“业务需要”四个字放行。

更稳妥的做法是采用最小权限原则。Agent 只应获得完成当前任务所需的数据字段和操作范围。能读摘要,就不要读完整明细;能读取脱敏结果,就不要读取原始信息;能生成建议,就不要直接写入业务系统;必须写入时,也要限定对象、动作和触发条件。

数据边界要写得足够具体:

检查项需要确认的问题建议要求
可读数据Agent 能读取哪些字段、来自哪些系统按任务授权,避免一次性开放整库或整表
可写数据Agent 是否能修改状态、备注、标签、审批节点高风险写操作应保留人工确认
脱敏数据身份证号、手机号、地址、支付信息等是否必须脱敏默认优先脱敏,除非业务场景有明确必要
模型上下文哪些内部资料、客户记录不能进入模型上下文对敏感数据设置禁入范围,避免被带入后续生成
外部调用Agent 是否会把数据传给外部系统或接口明确调用目的、范围、日志和责任人

这张表不应只由业务团队填写。CTO 要确认权限配置、接口调用和日志链路是否能落地;合规负责人要确认数据分类、授权依据和审计要求是否清楚。尤其要追问三件事:权限变更是否有审批记录,数据调用是否能追踪到任务和责任人,异常访问是否能被发现并保留证据。

权限治理的底线很简单:Agent 可以提高流程效率,但不能成为绕过权限、绕过审批、绕过审计的新入口。只有当“可读、可写、可脱敏、不可进入上下文”的边界被确认,Agent 才适合继续进入上线评审。

第三张清单看操作后果:能自动执行的动作必须有兜底

内容和权限确认之后,还要看 Agent 会不会真正“动手”。一旦它可以调用系统完成退款、改价、封禁账号、发券、外呼、处理合同、调整账号权限等动作,风险就不再只是回答错了,而是业务状态已经被改变。

CEO 在立项阶段要追问一句:这个动作如果做错,能不能低成本撤回?如果不能,就不能默认交给 Agent 自动完成。

更稳妥的做法,是把操作按后果分层。低风险动作可以自动执行,比如生成待办、补充工单备注、推送内部提醒;中风险动作需要规则校验,比如发放权益、修改标签、变更服务状态;高风险动作必须进入人工复核,比如涉及资金、合同、账号处置、价格策略、客户权益和外部触达的操作。这里的重点不是把流程做慢,而是避免把不可逆动作包装成“智能执行”。

可以要求项目团队列出一张操作后果清单:

操作类型风险判断上线前必须确认
退款、改价、发券影响资金、权益或收入确认是否有额度、规则、审批和复核记录
封禁、解封、账号权限调整影响用户或员工访问权是否有明确触发条件和人工确认机制
外呼、通知、客户触达可能形成对外承诺或打扰是否有名单规则、话术边界和停止条件
合同处理、条款建议涉及法律和商业责任是否只生成建议,正式动作是否由授权人员确认
写入业务系统改变订单、工单、客户状态是否能追踪任务来源、执行人和回滚路径

异常兜底也要写进上线条件。Agent 不确定时,不能为了“完成任务”继续猜;用户输入前后冲突时,不能只取最近一句;系统接口返回异常时,不能反复提交或绕过校验。合理的处理方式通常只有三类:暂停执行、转人工、进入复核队列。哪一类适用于哪个场景,要在流程设计时确定,而不是等线上出现争议后临时判断。

责任归属同样要提前说清楚。高风险动作需要明确谁批准、谁负责、谁复盘。业务负责人不能只说“这是系统自动做的”,技术团队也不能只说“模型按规则执行”。每一次关键操作都应能回看触发条件、输入信息、系统判断、人工审批和最终结果。没有这些记录,复盘会变成互相解释,合规审计也很难落到具体环节。

对 CEO 来说,这张清单的判断标准很朴素:凡是会改变资金、权益、账号、合同或客户关系的动作,都要有停止点、复核点和责任人。Agent 可以执行任务,但不能替企业承担后果。

CEO 应该要求项目组交付一份上线前治理表

到上线评审时,项目组不应只展示 Agent 能完成哪些任务,还要交付一份可检查的治理表。表不必复杂,但每一项都要能被确认、被复盘、被追责。否则,安全合规治理会停留在“原则上注意”,真正出现争议时,很难还原当时是谁放行、依据是什么、系统做了什么。

一份基础的上线前治理表,可以覆盖这些字段:

字段CEO 需要看到的内容责任确认
业务场景Agent 用在什么流程,解决什么具体问题业务负责人确认场景必要性
用户对象面向员工、客户、合作方,还是内部运营人员业务负责人确认使用范围
数据范围可读取哪些数据,哪些数据不得进入上下文CTO 与合规负责人共同确认
权限范围可读、可写、可调用的系统和接口边界CTO 确认可配置、可控制
内容风险是否可能生成违规、误导、越权承诺等内容合规负责人确认红线
操作风险是否会改变资金、权益、账号、合同或客户状态业务负责人确认后果分级
人工复核哪些场景必须转人工、暂停或进入复核队列业务与合规共同确认
审计记录是否能回看输入、输出、调用、审批和执行结果CTO 确认日志链路
责任人每类风险由谁批准、谁处置、谁复盘管理层确认责任归属

这张表的价值,不在于把治理流程做得很重,而是把上线前必须说清楚的事项固定下来。业务负责人要确认 Agent 进入的是真实业务场景,不是为了展示能力而扩大范围;CTO 要确认系统边界、权限控制、日志留存和异常处理能落地;合规负责人要确认内容红线、数据使用边界和审计要求没有被后置。

在网易智企的企业服务与 AI 应用实践语境中,AI Agent 越接近客服、营销、运营、风控、研发等真实流程,越不能把安全合规当作上线后的补丁。涉及安全风控时,网易智企·易盾可以放在内容安全、业务安全和应用安全的治理语境下评估,但企业仍要先把自身场景、权限、数据和责任边界定义清楚。

CEO 最好把这份治理表设为立项和上线评审的共同材料。没有表,项目不进入试运行;表里责任人不清楚,高风险动作不放行;审计记录不能回看,自动执行就要降级为建议或转人工。这样做不是拖慢 AI Agent 落地,而是让前置治理和业务落地同步推进。

FAQ 与结语

AI Agent 只是内部员工使用,也需要做安全合规治理吗?

需要。内部使用不等于低风险。只要 Agent 能读取客户信息、业务数据、合同资料、内部策略,或能调用系统写入结果,就已经进入安全合规治理范围。区别只在治理强度:内部知识问答可以轻一些,涉及数据查询、流程审批、账号权限、客户触达建议时,就要明确数据边界、权限边界和审计记录。

内容安全、业务安全、应用安全分别该由谁负责?

不能只交给技术团队。内容安全通常由合规、法务、品牌或业务负责人共同定义红线,判断哪些表达、承诺和输出不能出现;业务安全要由业务负责人牵头,因为他们最清楚退款、发券、封禁、改价等动作的后果;应用安全需要 CTO 或技术负责人负责,重点看系统接入、权限控制、接口调用、日志留存和异常处理。涉及安全风控能力评估时,可以把网易智企·易盾放在内容安全、业务安全、应用安全的治理语境下看,但企业自身的责任分工不能被供应商替代。

什么情况下必须设置人工复核?

判断标准很简单:一旦结果不可低成本撤回,或会影响资金、权益、账号、合同、价格、客户关系和对外承诺,就不应直接自动放行。模型置信不足、用户输入冲突、系统接口异常、命中敏感规则、触发高风险操作时,也应暂停、转人工或进入复核队列。人工复核不是为了把所有任务拉回人工,而是给高后果动作留出停止点。

企业选择安全风控能力时,CEO 应该问供应商哪些问题?

不要只问“能不能拦截风险”。更应追问:能覆盖哪些风险类型,哪些场景不适用;是否能支持内容、业务、应用不同层面的治理;是否便于与现有系统流程衔接;关键操作能否留下可回看的记录;异常发生后,企业能否定位输入、输出、调用、审批和执行结果。供应商能力可以参与治理,但不能替企业定义业务红线。

AI Agent 上线前,CEO 要先定义边界,再谈效率。治理表不应只出现在上线评审材料里,而要进入立项、测试、上线和复盘流程。场景、数据、权限、复核、审计、责任人都确认清楚,自动化才有稳定落地的前提。等问题发生后再补规则,成本通常会更高。

网易智企