全部產品
Search
文件中心

AI Guardrails:快速使用自訂檢測Agent

更新時間:Mar 26, 2026

AI安全護欄支援使用者配置和管理自訂檢測Agent,該功能基於大語言模型,通過使用者靈活自訂配置的互動內容,來快速實現業務自訂檢測類別的檢測和過濾。本文將介紹如何使用自訂檢測Agent功能。

步驟一:開通AI安全護欄服務

前往AI安全護欄產品開通服頁面,開通AI安全護欄產品服務。

步驟二:啟用自定义检测Agent

  1. 登入AI安全護欄產品控制台

  2. 在左側導覽列,選擇防护配置 > 检测项配置,如下service對應大模型輸入輸出均為文本模態的服務:

    AI輸入Alibaba Content Security Service檢測(query_security_check_intl)

    AI產生Alibaba Content Security Service檢測(response_security_check_intl)

  3. AI輸入Alibaba Content Security Service檢測(query_security_check_intl)為例,單擊操作管理,進入检测项配置。若自定义检测Agent未開啟,可在此頁面一鍵開啟,該功能單獨收費,詳見產品計費

步驟三:配置自定义检测Agent

  1. 進入自定义检测Agent頁面:在自定义检测Agent卡片中,單擊右下角配置管理

  2. 选择大模型:根據業務的具體審核需求,選擇對應的大模型。實際檢測過程中,會調用所選的大模型進行審核,目前可選的大模型有:

    模型名稱

    模型特性說明

    Qwen3Guard-Gen-4B

    基於 Qwen3 構建的產生式安全性稽核模型,模型內建支援9類風險標籤和3級風險分級,支援119 種語言及方言。

    注意:

    1. 選擇此模型的情況下,審核query時,content欄位直接傳入“query”內容,審核response時,content欄位應以“query<|interval|>response”格式拼接query、response送審。

    2. 當前此模型僅支援新加坡節點。

    Qwen3_Plus

    千問3系列Plus模型。效果、速度、成本均衡。適合對效果有較高要求,但對耗時有一定容忍度的偏複雜情境。

    Qwen3_Flash

    千問3系列Flash模型。速度快、成本低,適合簡單任務。

    重要

    選擇的大模型將與計量相關,不同的大模型計量方式不同,詳見開通與計費概述

  3. 配置自定义提示词

    • 选择预设场景模板:不同情境系統有預設不同的情境模板,分別支援不同的任務目標及檢測標籤,目前可選的情境模板如下:

      • 自訂標籤模板:支援通用情境下的自訂檢測標籤配置。

    • 配置检测标签:根據業務需求,配置所需檢測的標籤及對應的提示詞。每添加一項標籤,均需定義對應的检测标签检测描述。配置多個檢測標籤即讓大模型進行多分類任務。故請儘可能用準確、精簡的語言描述清楚大模型的每一項檢測任務對應的檢測標籤及檢測提示詞。

      • 配置說明:

        • 检测标签:即向大模型明確待檢測的具體類別名稱,一般為名詞短語。

        • 检测描述:即向大模型明確對應的檢測標準和檢測規則,用於對待檢測標籤範圍的展開說明,必要時可枚舉1~3個樣本。

      • 配置樣本:

        審核標籤

        審核標準

        站外引流

        通過直接引導或隱晦暗示(含變體、隱喻等)等表述將使用者引導至站外其他平台或渠道的行為,包括明確提及競品平台名稱或其變體(如常見競品有xx)、提及站外其他平台或其變體(如常見平台有xx),或包含明確的連絡方式等。

        對xx品牌惡意差評

        針對xx品牌的無依據惡意拉踩、不實負面差評,或針對品牌創始人的虛假詆毀、造謠等刻意損害品牌或創始人形象的評論或表述。如:xx都是虛假宣傳,遠不如xx品牌。

      重要
      1. 自訂部分的提示詞字元長度(即所有檢測標籤與檢測提示詞的總字元長度)將與計量相關。按照自訂部分的字元總長度,每3000字元計量一次(不滿3000將按3000字元計算)。

      2. 同時,考慮提示詞長度對耗時帶來的影響(較長的提示詞會帶來檢測耗時的上漲),目前最多支援30個自訂檢測標籤配置。

    • 模型輸出格式:已預設,無需配置。詳見API接入指南

    實際檢測時,系統將基於所選的預設情境模板,進一步拼接自訂部分檢測標籤配置,以及預設的輸出格式形成完整的提示詞,從而調用預先選定的大模型獲得審核結果。以上述樣本標籤為例,拼接後的完整提示詞如下:

    你是一個資深的******審核專家,尤其擅長******,你所面臨的業務問題是******,任務目標是******。
    待審核的標籤如下:
    1. 站外引流:通過直接引導或隱晦暗示(含變體、隱喻等)等表述將使用者引導至站外其他平台或渠道的行為,包括明確提及競品平台名稱或其變體(如常見競品有xx)、提及站外其他平台或其變體(如常見平台有xx),或包含明確的連絡方式等。   
    2. 對xx品牌的惡意差評:針對xx品牌的無依據惡意拉踩、不實負面差評,或針對品牌創始人的虛假詆毀、造謠等刻意損害品牌或創始人形象的評論或表述,如xx都是虛假宣傳,遠不如xx品牌。   
    3. ******。******。現在給你一段待審核樣本,請你判斷待審核文本是否符合上述標籤範圍。並嚴格按照以下格式輸出:******。

步驟四:效果測試

自定义检测Agent配置完成後,建議先進行測試,符合預期後再進行發布。單擊頁面左下角测试,即可測試組態效果,支援單條文本、多條文本(至多10條)進行測試。

說明

此頁面的測試功能不計費,單個帳號每天最多支援1000條文本。

步驟五:發布配置

當測試符合預期後,請單擊发布,將自定义检测Agent的配置發布至線上,發布後,生產環境通常在2~5分鐘生效,請謹慎操作。發布後,同時可以通過快速使用線上測試功能,進行效果測試。

步驟六:結果查詢與風險報表

在左側導覽列,選擇检测结果,可查看自訂檢測Agent的檢測結果和風險報表。