人工智慧系統安全防護-AI安全護欄-Alibaba Content Security Service-阿里雲 - AI Guardrails

安全護欄是阿里雲為人工智慧系統設計的安全防護產品，旨在通過高可用、高精準的風險檢測方案，協助AI系統在響應使用者指令時，提供安全、合規、可靠的服務。

產品功能

在開發和營運AI應用、AI Agent時，開發人員和AI企業往往面臨安全威脅，包括內容合規風險、資料泄露風險、提示詞注入攻擊、幻覺、越獄等，這些AI風險的出現，不僅威脅到業務的正常經營、更為企業帶來極大的合規和社會風險。

安全護欄為保障AI業務的合規、安全、穩定而生，面向預訓練大模型、AI服務和AI Agent等不同的業務形態，提供全鏈路防護體系。尤其在產生式AI的輸入輸出情境，安全護欄可提供精準的風險檢測與主動防禦能力。

風險檢測能力
包括內容合規檢測、敏感內容檢測、提示詞攻擊檢測等全方位檢測能力。
- 內容合規檢測：對產生式AI輸入輸出的常值內容進行多維度合規審查，覆蓋涉政敏感、色情低俗、偏見歧視、不良價值觀等風險類別，確保AI產生內容符合法律法規與平台規範。適用情境：對話機器人、AI教育、智能客服、AIGC創作平台等情境。
- 敏感內容檢測：深度檢測AI互動過程中可能泄露的隱私資料與敏感資訊，支援涉及個人隱私、企業隱私等敏感內容的識別，防範訓練資料泄露與對話資訊外溢風險。適用情境：AI醫學、AI金融服務、企業知識庫問答等情境。
- 提示詞攻擊檢測：專業防禦針對產生式AI的注入式攻擊，精準識別越獄指令、角色扮演誘導、系統指令篡改等對抗性攻擊行為，構建AI系統的“免疫防線”。適用情境：AI Agent的指令互動安全防護、開放域對話系統的對抗攻擊防禦、第三方外掛程式調用的許可權管控等情境。
- 惡意檔案檢測：深度解析使用者上傳的PDF、PPT、DOC等常見文檔格式，識別其中隱藏的可執行指令碼、巨集病毒、嵌套攻擊代碼等惡意內容，防範攻擊者通過檔案注入方式對AI系統實施越權操控或資料滲透。適用於AI支援文檔上傳的情境，如智能簡曆解析、合約問答、企業知識庫構建等。
- 惡意URL檢測：即時分析AI在互動過程中接收或產生的連結內容，識別釣魚網站、惡意跳轉、隱蔽攻擊載荷等高風險URL，防止大模型被誘導訪問非法資源或成為網路攻擊的傳播媒介。適用於AI搜尋、網頁摘要、RAG知識檢索及自動化外聯操作等情境。
- 數字浮水印標識：依據《人工智慧產生合成內容標識辦法》，對AI產生的映像內容自動嵌入可見或不可見的浮水印資訊，實現AIGC內容來源可追溯、責任可界定，有效防範虛假資訊傳播與著作權糾紛。適用於AIGC創作平台、新聞媒體、政務宣傳、教育內容產生等合規敏感情境。
自訂防護配置
支援在防護配置中更改精細化的風險檢測項。您可通過點擊登入AI安全護欄產品控制台，隨時開啟或關閉相關的風險檢測內容，以建立最合適的風險檢測模板。
- 自訂檢測項：對內容合規檢測中的精細化標籤進行配置。
- 自訂風險閾值：對精細化標籤的命中閾值進行配置，在模型輸出的0-100置信分中，支援最小配置步長1。
- 自訂過濾詞：對需要檢測和攔截的敏感詞（如競爭者名字等）進行配置，支援增、刪、改等詞庫管理操作。

更多產品功能，可查看文檔功能特性頁。

使用情境

以下列舉部分建議使用安全護欄產品進行風險檢測的業務情境：

提交給產生式AI處理的使用者提示詞。
產生式AI輸出的多模態內容，包括文本、圖片、視頻等。
產生式AI訓練語料的掃描、去毒。
AI Agent使用者指令輸入和輸出的風險檢測。

產品功能

風險檢測能力

自訂防護配置

使用情境