大模型能力構建的文本審核方案 - AI Guardrails

基於大模型能力的文本審核方案，能夠高效精準地識別違規內容。與傳統常值內容安全性稽核方案相比，該方案具備更強大的語言理解與分析能力，能精準識別複雜、隱晦的違規內容，突破了傳統模式的局限。

重要

該方案現正處於快速迭代期，如果您有任何測試反饋和建議，請聯絡您的商務經理進行反饋。

一、服務說明

Alibaba Content Security Service增強版文本審核大模型支援的服務（Service）如下：

服務（Service）

檢測內容

適用情境

服務名稱：UGC场景文本审核大模型服务

Service：ugc_moderation_byllm_global

針對UGC情境，基於大模型能力構建的文本審核服務，支援中文、英文、西班牙語、法語、葡萄牙語、意大利語、阿拉伯語、日語、韓語、印尼語、俄語、越南語、德語和泰語等119種語言，能夠高效精準地識別各類文本違規內容。詳細可檢測項，請參見Alibaba Content Security Service控制台。

UGC情境的各類文本審核，建議使用該服務。

服務名稱： UGC场景文本审核大模型服务_入华版

Service：ugc_moderation_byllm_ec

針對UGC情境，基於大模型能力構建的文本審核服務，能夠高效精準地識別各類文本違規內容。詳細可檢測項，請參見Alibaba Content Security Service控制台。

在中國內地地區進行UGC情境的各類文本審核，建議使用該服務。

二、計費說明

文本審核大模型服務支援按量後付費付費方式。

按量後付費

當您開通圖片審核服務後，預設付費方式是按量後付費，且按照實際用量結算當日費用，不調用服務不收費。

審核類型	支援的業務情境（服務）	計費單價
文本審核大模型版（text_advanced）	UGC场景文本审核大模型服务：ugc_moderation_byllm_global 文本翻譯功能	0.6美元/千次說明 UGC场景文本审核大模型服务：根據實際調用量計費，如調用100次，計費0.06美元。文本翻譯功能：開啟文本翻譯功能之後，每次請求每500字計費一次。
文本審核大模型版（text_llm_standard_cn）	UGC场景文本审核大模型服务_入华版：ugc_moderation_byllm_ec	0.31美元/千次說明調用1次左側任一服務進行1次計費。根據實際調用量計費，如調用100次 UGC场景文本审核大模型服务_入华版計費0.031美元。

說明

Alibaba Content Security Service2.0版的隨用隨付的計量出賬頻率為24小時/次。在出賬詳單中，moderationType對應上述審核類型欄位。您可以查看賬單詳情。

資源套件抵扣

如果您的審核量較大，或有相對固定的審核需求，建議預先購買資源套件的方式。購買資源套件規格越大，享受的折扣越大，支援疊加購買和使用。更多內容，請參見購買Alibaba Content Security Service2.0版抵扣資源套件。

審核類型	抵扣係數
文本審核大模型版（text_advanced）	抵扣係數為2，表示每成功調用一次介面，抵扣資源套件的流量包容量規格2次。說明例如購買的資源套件的流量包容量規格為10次，當您成功調用1次介面，抵扣流量包容量規格2次，剩餘8次。
文本審核大模型版（text_llm_standard_cn）	抵扣係數為1.04，表示每成功調用一次介面，抵扣資源套件的流量包容量規格1.04次。說明例如購買的資源套件的流量包容量規格為10次，當您成功調用1次介面，抵扣流量包容量規格1.04次，剩餘8.96次。

購買後，使用圖片審核2.0版API所產生的用量會優先抵扣資源套件的次數，當資源套件次數不足以抵扣時，阿里雲費用系統會自動按照隨用隨付進行出賬，請及時關注您的資源套件餘量和隨用隨付賬單。您可以通過阿里雲費用中心的資源套件系統設定餘量預警通知。

三、風險標籤

標籤含義

面向文本審核PLUS服務支援返回6個類型的30+個細分標籤和標籤信賴度。如果內容存在多種風險類型，能夠同時返回多個細分標籤。以下是風險標籤值、對應的分值區間以及對應的含義：

標籤值（label）	置信分區間（confidence）	中文含義
pornographic_adult	0~100分，分數越高信賴度越高	疑似與性相關的情況
sexual_terms	0~100分，分數越高信賴度越高	疑似性健康內容
sexual_suggestive	0~100分，分數越高信賴度越高	疑似低俗內容
sexual_orientation	0~100分，分數越高信賴度越高	疑似性取向內容
regional_cn	0~100分，分數越高信賴度越高	疑似國內涉政內容
regional_illegal	0~100分，分數越高信賴度越高	疑似非法政治內容
regional_controversial	0~100分，分數越高信賴度越高	疑似政治爭議
regional_racism	0~100分，分數越高信賴度越高	疑似種族主義
violent_extremist	0~100分，分數越高信賴度越高	疑似極端組織
violent_incidents	0~100分，分數越高信賴度越高	疑似極端主義內容
violent_weapons	0~100分，分數越高信賴度越高	疑似武器彈藥
violence_unscList	0~100分，分數越高信賴度越高	聯合國制裁名單
contraband_drug	0~100分，分數越高信賴度越高	疑似毒品相關
contraband_gambling	0~100分，分數越高信賴度越高	疑似賭博相關
inappropriate_ethics	0~100分，分數越高信賴度越高	疑似不良價值觀內容
inappropriate_profanity	0~100分，分數越高信賴度越高	疑似攻擊辱罵內容
inappropriate_oral	0~100分，分數越高信賴度越高	疑似低俗口頭語內容
inappropriate_religion	0~100分，分數越高信賴度越高	疑似宗教褻瀆內容
pt_to_contact	0~100分，分數越高信賴度越高	疑似引流廣告號
pt_to_sites	0~100分，分數越高信賴度越高	疑似站外引流
customized	0~100分，分數越高信賴度越高	命中自訂詞庫

管理標籤

每個風險標籤均可以在控制台進行開關配置，部分風險標籤會提供更細分檢測範圍的開關配置，具體參見Alibaba Content Security Service控制台。

在左側導覽列，選擇機器審核V2.0>文本审核>规则配置。
在规则管理頁簽，以大模型審核方案（aigc_moderation_byllm_global）為例，單擊操作列设置词库。
1. 選擇需要調整的檢測類型，以不良內容檢測為例。
2. 單擊編輯進入編輯模式，修改對應檢測狀態。
3. 單擊儲存，儲存新配置的檢測範圍。新配置的檢測範圍約2~5分鐘生效並應用於生產環境。

四、接入指南

步驟一：開通服務

訪問開通服務，開通文本審核2.0版服務。

步驟二：為RAM使用者授權

在接入SDK或者API之前，您需要為RAM使用者授權。您可以為阿里雲帳號和RAM使用者建立一個存取金鑰（AccessKey）。在調用阿里雲API時您需要使用AccessKey完成身分識別驗證。擷取方式，請參見擷取AccessKey。

操作步驟

使用阿里雲帳號登入RAM控制台。
建立RAM使用者。
具體操作，請參見建立RAM使用者。
向RAM使用者授權系統策略許可權：AliyunYundunGreenWebFullAccess。
具體操作，請參見管理RAM使用者的許可權。
完成以上配置後，您可以使用RAM使用者調用Alibaba Content Security ServiceAPI。

步驟三：安裝並接入SDK

文本審核增強版PLUS服務SDK請參考文本審核增強版2.0版PLUS服務SDK及接入指南。

五、API說明

使用說明

您可以調用該介面建立常值內容檢測任務。關於如何構造HTTP請求，請參見請求結構；您也可以直接選用已構造好的HTTP請求，更多資訊，請參見接入指南部分。

您可以在OpenAPI Explorer中直接運行該介面，免去您計算簽名的困擾。運行成功後，OpenAPI Explorer可以自動產生SDK程式碼範例。

業務介面：TextModerationPlus
支援的地區及接入地址：

地區	外網接入地址	內網接入地址
華東2（上海）	green-cip.cn-shanghai.aliyuncs.com	green-cip-vpc.cn-shanghai.aliyuncs.com	ugc_moderation_byllm_ec
華北2（北京）	green-cip.cn-beijing.aliyuncs.com	green-cip-vpc.cn-beijing.aliyuncs.com
華東1（杭州）	green-cip.cn-hangzhou.aliyuncs.com	green-cip-vpc.cn-hangzhou.aliyuncs.com
華南1（深圳）	green-cip.cn-shenzhen.aliyuncs.com	green-cip-vpc.cn-shenzhen.aliyuncs.com
西南1（成都）	green-cip.cn-chengdu.aliyuncs.com	暫無
中國香港	green-cip.cn-hongkong.aliyuncs.com	green-cip-vpc.cn-hongkong.aliyuncs.com	ugc_moderation_byllm_global
新加坡	green-cip.ap-southeast-1.aliyuncs.com	green-cip-vpc.ap-southeast-1.aliyuncs.com
美國（維吉尼亞）	green-cip.us-east-1.aliyuncs.com	green-cip-vpc.us-east-1.aliyuncs.com
德國（法蘭克福）	green-cip.eu-central-1.aliyuncs.com	green-cip-vpc.eu-central-1.aliyuncs.com

重要

德國（法蘭克福）和中國香港地區的文本審核大模型推理計算由新加坡節點支援，推理結果處理、資料和日誌儲存在德國（法蘭克福）和香港本地進行。

計費資訊：該介面為收費介面。僅對HTTP狀態代碼為200的請求進行計量計費，產生其他錯誤碼時不會計費。關於計費方式，請參見計費說明部分。

QPS限制

本服務的單使用者QPS限制為50次/秒。超過限制，服務調用會被限流，這可能會影響您的業務，請合理調用。如需支援更多QPS，請聯絡商務經理。

請求參數

名稱	類型	是否必須	樣本值	描述
Service	String	是	ugc_moderation_byllm_global	ugc_moderation_byllm_global：UGC场景文本审核大模型服务 ugc_moderation_byllm_ec： UGC场景文本审核大模型服务_入华版
ServiceParameters	JSONString	是		審核服務需要的參數集。JSON字串格式，關於每個字串的描述，請參見表ServiceParameters。

表 1. ServiceParameters

名稱	類型	是否必須	樣本值	描述
content	String	是	檢測內容	審核的常值內容，限定在2000字元以內。
dataId	String	否	text0424****	檢測對象對應的資料ID。由大小寫英文字母、數字、底線（_）、短劃線（-）、英文句號（.）組成，不超過64個字元，可以用於唯一標識您的業務資料。
accountId	String	否	ID0728****	賬戶ID，標識一個賬戶的唯一ID，用於平台側終端使用者的記錄。比如使用者A和使用者B聊天，A的聊天文本此處傳入A，B的聊天文本此處傳入B。說明賬戶ID可以結合上下文進行審核，如需開啟請聯絡您的商務或者提工單申請。
infoType	String	否	llmContent	需要擷取的輔助資訊內容，取值： llmContent：大模型原始檢測結果

返回參數

名稱	類型	樣本值	描述
Code	Integer	200	狀態代碼。更多資訊，請參見Code說明。
Data	JSONObject	{"Result":[...]}	審核結果資料，具體請參見Data。
Message	String	OK	請求訊息的響應訊息。
RequestId	String	AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****	請求ID。

表 2. Data

名稱	類型	樣本值	描述
Result	JSONArray		檢測的風險標籤、置信分等結果，具體請參見Result。
RiskLevel	String	high	風險等級，根據設定的高低風險分返回，傳回值包括： high：高風險（若命中自訂詞庫，風險等級預設為高風險） medium：中風險 low：低風險 none：未檢測到風險說明高風險內容建議直接處置；中風險內容建議人工複查；低風險內容建議在高召回需求時再做處理，日常建議和未檢測到風險做相同處理。風險分值可以在Alibaba Content Security Service控制台配置。
DataId	String	text0424****	檢測對象對應的資料ID。說明如果在檢測請求參數中傳入了dataId，則此處返回對應的dataId。
AccountId	String	10123****	賬戶ID。說明如果在檢測請求參數中傳入了accountId，則此處返回對應的accountId。
TranslatedContent	String	翻譯後文本	翻譯後的常值內容，在開啟文本翻譯功能之後返回。說明開啟文本翻譯功能當前僅新加坡地區支援，在设置词库中進行配置，配置會產生額外的費用，詳情請參考計費說明。
Ext	Object		文本輔助參考資訊。更多資訊，請參見Ext。

表 3. Result

名稱	類型	樣本值	描述
Label	String	political_xxx	文字內容檢測運算後返回的標籤，可能會檢出多個標籤和分值。支援的標籤請參見風險標籤部分。
Description	String	疑似與性相關的情況	對Labal欄位的說明。重要該欄位為Label欄位的解釋說明，可能會變更調整，實際處理結果時建議處理Label欄位，不要基於該欄位進行結果處置。
Confidence	Float	81.22	置信分值，0到100分，保留到小數點後2位。部分標籤無置信分。
Riskwords	String	AA,BB,CC	檢測到的敏感詞，多個詞用逗號分隔，部分標籤不會返回敏感詞。
CustomizedHit	JSONArray	[{"LibName":"...","Keywords":"..."}]	當命中自訂庫時，Label為customized，返回自訂庫名稱和自訂詞，具體參見CustomizedHit。
RiskPositions	JSONArray		檢測到敏感詞的位置資訊。更多資訊，請參見RiskPositions。

表 4. CustomizedHit

名稱	類型	樣本值	描述
LibName	String	自訂庫1	自訂庫名稱
Keywords	String	自訂詞1,自訂詞2	自訂詞，多個詞用逗號分隔。

表 5. RiskPositions

名稱	類型	樣本值	描述
RiskWord	String	AA	檢測到的敏感詞。
StartPos	Integer	10	敏感詞的開始位置。
EndPos	Integer	12	敏感詞的結束位置。

表 6. Ext

名稱

類型

樣本值

描述

表 7. LlmContent

名稱	類型	樣本值	描述
OutputText	String	疑似低俗口頭語內容	文本審核大模型原始檢測結果。

樣本

請求樣本：

{
    "Service": "ugc_moderation_byllm_global",
    "ServiceParameters": {
        "content": "testing content",
        "dataId": "text0424****"
    }
}

返回樣本：

命中系統策略：

{
    "Code": 200,
    "Data": {
        "Result": [
            {
                "Label": "political_entity",
                "Description": "疑似政治實體",
                "Confidence": 100.0,
                "RiskWords": "詞A,詞B",
                "RiskPositions": [
                    {
                        "EndPos": 14,
                        "RiskWord": "詞A",
                        "StartPos": 16
                    }
                ]
            },
            {
                "Label": "political_figure",
                "Description": "疑似政治人物",
                "Confidence": 100.0,
                "RiskWords": "詞B,詞C",
                "RiskPositions": [
                    {
                        "EndPos": 24,
                        "RiskWord": "詞C",
                        "StartPos": 26
                    }
                ]
            }
        ],
        "RiskLevel": "high",
        "DataId": "text0424****"
    },
    "Message": "OK",
    "RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}

命中自訂詞庫：

{
    "Code": 200,
    "Data": {
        "Result": [
            {
                "Description": "命中自訂庫",
                "CustomizedHit": [
                     {
                        "LibName": "自訂詞庫名稱1",
                        "KeyWords": "自訂關鍵詞"
                     }
                ],
                "Confidence": 100,
                "Label": "customized"
             }
        ],
        "RiskLevel": "high",
        "DataId": "text0424****"
    },
    "Message": "OK",
    "RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}

返回大模型原始結果：

{
  "RequestId": "ZZZZZ-2024-0307-FORYOU-EVER",
  "Message": "OK",
  "Data": {
    "Ext": {
      "LlmContent": {
        "OutputText": "疑似攻擊辱罵內容"
      }
    },
    "Result": [
      {
        "RiskWords": "違規詞",
        "Description": "疑似攻擊辱罵內容",
        "Confidence": 100.0,
        "Label": "inappropriate_profanity",
        "RiskPositions": [
          {
            "RiskWord": "違規詞",
            "EndPos": 5,
            "StartPos": 2
          }
        ]
      }
    ],
    "RiskLevel": "high"
  },
  "Code": 200
}

Code說明

Code	狀態碼	說明
200	OK	請求成功。
400	BAD_REQUEST	請求有誤。可能是請求參數不正確導致，請仔細檢查請求參數。
408	PERMISSION_DENY	可能是您的帳號未授權、帳號欠費、帳號未開通、帳號被禁等。
500	GENERAL_ERROR	錯誤。可能是服務端臨時出錯。建議重試，若持續返回該錯誤碼，請通過線上服務聯絡我們。
581	TIMEOUT	逾時。建議重試，若持續返回該錯誤碼，請通過線上服務聯絡我們。
588	EXCEED_QUOTA	請求頻率超出配額。