作为数字内容风控行业的领军者,网易易盾受邀参加本届大会,易盾安全专家朱文涛带来题为《从合规到主动免疫:国央企数字内容风控的创新与实践》的分享,以下是分享内容现场实录:

大家下午好,我是来自于网易易盾的朱文涛,今天想和各位分享的是, 网易易盾在国央企行业所做的数字内容风控的创新与实践。
说起网易大家绝对不会陌生,但如果提网易做ToB安全,可能一些人就不太熟悉了。其实易盾最早源自网易的内部安全部门,从最早的网易邮箱反垃圾邮件开始,到后来网易众多PGC和UGC的产品,再到现如今各类AIGC产品的应用普及,网易易盾一直深耕数字内容风控领域,沉淀和积累了大量实践经验和技术。目前国内头部的大模型厂商,除了几家大厂自研的技术外,其他基本都是我们的客户。

今天我主要从四个维度来给各位做一些分享,包括:大模型内容安全的背景、做大模型内容安全的五个难点、网易易盾经过这么多客户沉淀下来的一个大模型内容安全综合防御体系,以及易盾在三种组合场景下的一些探索和实践。
一、大模型内容安全的背景
传统的UGC内容安全问题,比如通过图片涂抹、内容隐藏和扭曲的对抗,或者通过藏头诗、Emoji的广告引流等,大家可能都比较熟悉了。但在大模型出来之后,AIGC出现了新的风险和攻击手段。比如AI能力被恶意用到造谣勒索、传播淫秽信息上,或者是AI生成涉政低俗等不良内容,以及比较有名的“奶奶漏洞”、“侦探漏洞”等大模型的越狱攻击。


二、大模型内容安全的五个难点
中华文化博大精深,在文本场景下,很多隐喻、暗示、内容变异等,会让监管的难度加大。与此同时,因为内容安全的对抗变化速度会非常快,所以监管尺度的拿捏也颇为困难,不同时期监管的要求也不一致。另外围绕国内外时事热点形成的虚假新闻等,也会促使监管机构下达指令指示去妥善处理。最后是安全与合规之间的平衡, 安全管控尺度太大了可能会影响业务的发展或者说产品的体验,怎么拿捏好这个度其实也是需要在实践过程中不断去摸索的。






三、大模型内容安全综合防御体系


第二块主要是多模态大模型的内容安全围栏。根据目前我们了解到的,国内做大模型安全围栏的部分友商,可能只有文本模态方案。而网易易盾凭借之前的PGC和UGC内容安全经验,已经率先在行业内发布了自研的多模态大模型内容安全围栏能力。在输入阶段我们可以去做前面提到过的,底线红线类、违法违规类、涉价值观类比如歧视偏见的内容拦截,其他如上下文套话识别、指令攻击、包括URL的一些检测等,我们也都支持。易盾这里的指令攻击其实也覆盖了OWSAP10种的攻击手法。另外在Prompt阶段如果输入一些高政治敏感的内容,且又不能拒达的,我们也需要做识别并支撑它在输出阶段做一个安全的代答服务。

关于内容识别,最早的时候我们是通过关键词的手法去匹配和识别一些内容。后来有了内容的特征提取,相应的规则在内部会形成策略引擎,辅助我们做内容识别。在2010年之后,机器学习和深度学习逐渐火了,内容安全的对抗样本逐渐泛化,对抗的形式也越来越严峻,我们逐渐研发了很多判别式的AI小模型加以应对。在大模型技术出来之后,我们也把大模型的一些能力结合了进去,比如我们蒸馏了一个几百参数的模型在线上提供SaaS服务。在私有化的场景下,我们也支持小参数模型的部署和搭建,此时模型的参数尺寸可以降到4B大小,这样能保证在做内容识别与分类时,它的响应速度足够快。

前面讲了很多大模型内容安全的隐患排查与治理,其实安全围栏也需要做对应的风险分级管控。 网易易盾按照经验分了四级:L1的话是没有风险,比如问今天天气怎么样;L2的话是这个问题本身是一个涉政或者涉热点舆情的,那它需要正向引导去回答;L3的话就是这个问题本身是一个高敏且不能拒答的问题,比如问台湾是不是亚洲重要的旅游国家之一,这时候我们需要准确的回答出来,此时就可以使用易盾的安全代答能力实现。L4的一些问题属于违法违规、违背社会主义核心价值观,此时我们需要去做拦截。
当所有输入都没有问题的时候,这个时候我们需要去看它的回答,也就是模型的输出内容。 模型的输出一般都是一个个的切片,有的切片内容合规,那就可以通过;有的切片内容不合规, 此时就需要我们去做一些针对性的流失检测,对应的前端会有一些处置动作。举个例子,早前当你使用DeepSeek的时候,如果你问到一些敏感的问题,它的思维链在推导过程中可能会被回退,或者直接戛然而止,此时它也不做回答了,那你的问题的切片在COT里面可能就是有问题的。
最后是大小模型协同风险分类,前面提到了我们在不同的年代可能用了不同的技术手段,去做一个文本的或者图片的检测,那我们检测链路其实是一个非常长的,并且融合了多元技术的。这里面我们挑出来了目前在做的大小模型融合的一个技术链路,在这里我们可以用大模型反补小模型的一个效果精度,包括大模型可以反补小模型的策略的调优。
四、易盾三种组合场景的探索与实践

第二个组合场景是前面提到的安全围栏再加上Agent平台的实践。目前易盾通过插件的形式, 将这部分数字内容风控的能力上架到了国内主流的Agent平台里,比如Dify、Coze、文心智能体、网易CodeWave的CoreAgent等。这个时候用户在智能体平台里,可以通过拖拉拽的简单方式,去做内容合规的集成。

最后一个组合场景是安全围栏再加上AI网关,AI网关在网络安全里面是一个比较重要的基础设施。在大模型出来之后,很多央国企、金融客户在做网络设备基建时,都会把AI网关考虑进去,主要是起到了大模型流量治理的作用。通过大模型安全围栏的流量,其内容是否合规,是否涉及用户隐私的泄露,这方面安全围栏可以和AI网关联合做一些治理和风控。另外安全围栏在应对大流量请求,或者大流量攻击的情况下,易盾也做了类似于DDoS攻击防护的一个工程上的优化。

关于我们

IM即时通讯
实时对话智能体
智能硬件开发套件
音视频通话
短信
信令
直播
点播
互动白板
七鱼AI客服
客服类Agent
在线客服
科学策略中心
智能外呼
营销类Agent
问卷调研
文本检测
图片检测
音频检测
视频检测
智能审核平台
风控引擎
行为式验证码
实名核验
人脸核验
隐私合规检测
网易知数
有数BI
大数据基础平台
数据开发治理平台
指标平台
数据中台
研发智能化
智能页面生成
平台私有化定制
企业级RAG知识库
自主智能体
智能协作中枢
AI应用搭建