全部產品
Search
文件中心

AI Guardrails:什麼是AI安全護欄

更新時間:Jul 01, 2025

AI安全護欄(AI Guardrails)是阿里雲為人工智慧系統設計的安全防護產品,旨在通過高可用、高精準的風險檢測方案,協助AI系統在響應使用者指令時,提供安全、合規、可靠的服務。

產品功能

在開發和營運AI應用、AI Agent時,開發人員和AI企業往往面臨安全威脅,包括內容合規風險、資料泄露風險、提示詞注入攻擊、幻覺、越獄等,這些AI風險的出現,不僅威脅到業務的正常經營、更為企業帶來極大的合規和社會風險。

阿里雲AI安全護欄為保障AI業務的合規、安全、穩定而生,面向預訓練大模型、AI服務和AI Agent等不同的業務形態,提供全鏈路防護體系。尤其在產生式AI的輸入輸出情境,安全護欄可提供精準的風險檢測與主動防禦能力。

  1. 風險檢測能力

    包括內容合規檢測、敏感內容檢測、提示詞攻擊檢測等全方位檢測能力。

    • 內容合規檢測:對產生式AI輸入輸出的常值內容進行多維度合規審查,覆蓋涉政敏感、色情低俗、偏見歧視、不良價值觀等風險類別,確保AI產生內容符合法律法規與平台規範。適用情境:對話機器人、AI教育、智能客服、AIGC創作平台等情境。

    • 敏感內容檢測:深度檢測AI互動過程中可能泄露的隱私資料與敏感資訊,支援涉及個人隱私、企業隱私等敏感內容的識別,防範訓練資料泄露與對話資訊外溢風險。適用情境:AI醫學、AI金融服務、企業知識庫問答等情境。

    • 提示詞攻擊檢測:專業防禦針對產生式AI的注入式攻擊,精準識別越獄指令、角色扮演誘導、系統指令篡改等對抗性攻擊行為,構建AI系統的“免疫防線”。適用情境:AI Agent的指令互動安全防護、開放域對話系統的對抗攻擊防禦、第三方外掛程式調用的許可權管控等情境。

  2. 自訂防護配置

    支援在防護配置中更改精細化的風險檢測項。您可通過點擊登入AI安全護欄產品控制台,隨時開啟或關閉相關的風險檢測內容,以建立最合適的風險檢測模板。

    • 自訂檢測項:對內容合規檢測中的精細化標籤進行配置。

    • 自訂風險閾值:對精細化標籤的命中閾值進行配置,在模型輸出的0-100置信分中,支援最小配置步長1。

    • 自訂過濾詞:對需要檢測和攔截的敏感詞(如競爭者名字等)進行配置,支援增、刪、改等詞庫管理操作。

更多產品功能,可查看文檔功能特性頁。

使用情境

以下列舉部分建議使用AI安全護欄產品進行風險檢測的業務情境:

  • 提交給產生式AI處理的使用者提示詞。

  • 產生式AI輸出的多模態內容,包括文本、圖片、視頻等。

  • 產生式AI訓練語料的掃描、去毒。

  • AI Agent使用者指令輸入和輸出的風險檢測。