AI 安全护栏（含内容安全）产品概述 - AI 安全护栏

阿里云AI 安全护栏（AI Guardrails）是AI应用防护和内容安全领域的先行者，依托阿里巴巴多年技术积淀，深度融合通义大模型能力，构建面向AI时代的AI安全治理框架和UGC内容审核体系。基于在电商、社交、金融、媒体、教育、游戏、基模、AI应用等多场景积累的AIGC与UGC内容治理和风险防护经验，提供覆盖文本、图片、视频、音频、文档等多模态内容的一站式风险识别与AI安全防护服务。

一、产品功能

AI 安全护栏依托阿里巴巴多年技术积淀，深度融合通义大模型能力，经过海量的样本训练和多样的评测，同时保持日常迭代和升级，即接即用的模式可以满足企业与开发者快速具备自动化的内容审核和AI应用防护能力。此外，我们也提供系统化的方式与流程，支持自定义需求的审核智能体、算法模型调整、特定检测目标优化、检测阈值优化等需求。

AI 安全护栏产品下面有安全护栏（Guardrails）和内容安全（Content Moderation）两款商品。

安全护栏（Guardrails）定位于为AI应用提供一体化防护系统，支持多种风险监测能力、灵活的防护配置和多样的接入方式。
- 风险检测能力
  覆盖内容合规、敏感数据、提示词攻击、恶意文件、恶意URL、模型幻觉、Prompt爬虫等风险场景，同时支持对生成内容进行数字水印嵌入。
- 自定义防护配置
  支持在防护配置中更改精细化的风险检测项。包括自定义检测项、自定义风险阈值、自定义过滤词等。
- 接入方式
  支持API、AI网关、WAF、百炼模型、百炼智能体、Dify智能体、OpenClaw插件等接入方式。
内容安全（Content Moderation）定位于为UGC内容提供多模态的审核服务。内容安全的核心功能包括三部分：内容检测API、控制台。
- 内容检测API
  内容检测API通过调用阿里云提供的接口来进行内容检测，主要对文本、图片、视频、语音和文档进行检测和识别是否包含色情、涉政、暴力、惊悚、不宜广告、垃圾信息、不良内容、AI生成等。适用于：视频网站、直播平台、社交平台、媒体平台、垂直社区、论坛、电商网站、存储服务、CDN平台产品等含有面向在线网络或公众开放内容的业务场景。
- 控制台
  针对以上两种检测使用方式，内容安全产品均提供阿里云控制台功能，以满足实现数据统计、内容审核分析、个性化管控配置、风险库管理等分析与管控的功能。该功能适用于有分析需求、多场景差异化检测需求、个性化管控管理的需求的用户。

二、使用场景

安全护栏适用于AI场景，内容安全适用于UGC场景。

安全护栏常见的使用场景如下：
- 提交给生成式AI处理的用户提示词；
- 生成式AI输出的多模态内容，包括文本、图片、视频等；
- 生成式AI训练语料的扫描、去毒；
- AI Agent用户指令输入和输出的风险检测；
- OpenClaw类产品的运行时检测。
内容安全常见的使用场景如下：
- 个人信息的昵称、头像、简介等场景；
- 社区网站的发帖、评论等场景；
- 游戏内的公屏、群组、私聊等聊天场景；
- 直播、点播等视频画面和音频内容审核场景；
- 物流打车类软件的订单发布、评论、交流等场景；

三、产品定价

AI 安全护栏（AI Guardrails）支持按量付费与购买资源包两种使用方式，并且支持通过购买QPS扩容包进行QPS扩容。

安全护栏定价信息请查看开通与计费概述。
内容安全定价信息请查看开通与收费。

四、安全护栏与内容安全是什么关系

AI 安全护栏下面有两个主要的产品，分别是安全护栏和内容安全。安全护栏适用于AI场景，定位于为AI应用提供一体化防护系统；内容安全适用于UGC场景，定位于为UGC内容提供安全合规的审核服务。

场景明确时使用对应的服务即可：
- 如文生文场景、图片理解场景、AI绘画场景、审核智能体场景，即为纯AI场景，适合使用安全护栏。
- 如社交APP里面发帖、游戏里面玩家聊天、直播弹幕、电商平台发布商品等场景，适合使用内容安全。
一些综合的场景，看主要场景做选择：
- 如社交APP场景，用户可能会用AI生成的图片来上传，但该场景主要还是用户自己产生的内容发布，更适合使用内容安全。
- 如AI伴聊场景，用户输入聊天内容，AI进行聊天回复和互动，此场景属于AI应用场景，更适合使用安全护栏。

五、内容安全2.0版与1.0是什么关系

内容安全2.0版是全新推出的内容审核产品，相比于内容安全1.0版预置了常用业务场景，在产品效果、产品标签丰富度、产品配置灵活性、产品价格等方面进行了优化。

内容安全增强版与1.0的能力对比

对比项

内容安全2.0版

内容安全1.0版

计费方式及价格

图片
计费公式：费用=图片张数*业务场景数*业务场景单价
按量计费：0.6美元/千张起≈1.0版*48%
文本
计费公式：费用=文本条数*业务场景数*业务场景单价
按量计费：0.3美元/千次起≈1.0版*60%
语音
计费公式：费用=音频分钟数*业务场景数*业务场景单价
按量计费：9美元/千分钟
视频
计费公式：费用=视频截帧张数*业务场景数*业务场景单价+视频分钟数*语音场景数*语音单价
按量计费：视频截帧画面0.6美元/千次起，视频音频8.1美元/千分钟≈1.0版*34%

说明

关于内容安全2.0版的具体价格，请参见内容安全定价。

图片
计费公式：费用=图片张数*风险场景数*场景单价
文本
计费公式：费用=文本条数*风险场景数*场景单价
视频
计费公式：费用=视频截帧张数*风险场景数*风险场景单价

说明

关于内容安全1.0的具体价格，请参见内容安全定价。

检测配置

检测范围（10+大类，100+小类）

自定义库

检测范围（5+大类，50+小类）

自定义库

默认容量

图片：大模型版50 QPS，小模型版100QPS
文本：大模型版50 QPS，小模型版100QPS
语音：50路
视频：50路
文档：20路

图片：50 QPS
文本：100 QPS
视频：20路

场景模态

模态：图片、文本、语音、视频

预置业务场景：通用基线、社交娱乐直播、音视频媒体等

模态：图片、文本、视频

预置业务场景：通用

检测结果

可解释性标签（50+，可同时返回多个违规标签）
置信分

可解释性标签（40+，只能返回1个违规标签）
处置建议

开通与计费

内容安全2.0版开通和计费的详细信息，请参见开通与收费。
内容安全1.0开通和计费的详细信息，请参见开通与收费。

对比项

内容安全2.0

内容安全1.0

按量付费

内容安全2.0版按量付费会根据不同的内容类型（图片、文本和语音等）、检测量级进行计量和出账。针对同一检测内容同时检测多个风险场景，相比1.0版同等使用方式下费用降低50%~70%。

内容安全1.0版按量付费会根据不同的具体检测的内容类型（图片、文本、视频等）、检测场景（包括但不限图片智能鉴黄、图片二维码识别、文本反垃圾等）、日扫描量档位、算法检测后对内容处置建议的结论（例如，review、block、pass）、使用的内容检测region（例如，cn-shanghai等）进行计量和出账。