全部產品
Search
文件中心

AI Guardrails:基於大模型能力構建的文本審核服務

更新時間:Mar 31, 2026

基於大模型能力的文本審核方案,能夠高效精準地識別違規內容。與傳統常值內容安全性稽核方案相比,該方案具備更強大的語言理解與分析能力,能精準識別複雜、隱晦的違規內容,突破了傳統模式的局限。

重要

該方案現正處於快速迭代期,如果您有任何測試反饋和建議,請聯絡您的商務經理進行反饋。

一、服務說明

Alibaba Content Security Service增強版文本審核大模型支援的服務(Service)如下:

服務(Service)

檢測內容

適用情境

服務名稱:UGC场景文本审核大模型服务

Service:ugc_moderation_byllm_global

針對UGC情境,基於大模型能力構建的文本審核服務,支援中文、英文、西班牙語、法語、葡萄牙語、意大利語、阿拉伯語、日語、韓語、印尼語、俄語、越南語、德語和泰語等119種語言,能夠高效精準地識別各類文本違規內容。詳細可檢測項,請參見Alibaba Content Security Service控制台

UGC情境的各類文本審核,建議使用該服務。

二、計費說明

文本審核大模型服務支援按量後付費付費方式。

按量後付費

當您開通圖片審核服務後,預設付費方式是按量後付費,且按照實際用量結算當日費用,不調用服務不收費。

審核類型

支援的業務情境(服務)

計費單價

文本審核大模型版(text_advanced)

  • UGC场景文本审核大模型服务:ugc_moderation_byllm_global

0.6美元/千次

說明

調用1次左側任一服務進行1次計費。根據實際調用量計費,如調用100次AIGC场景文本审核大模型服务計費0.06美元。

說明

Alibaba Content Security Service2.0版的隨用隨付的計量出賬頻率為24小時/次。在出賬詳單中,moderationType對應上述審核類型欄位。您可以查看賬單詳情

三、風險標籤

標籤含義

面向文本審核PLUS服務支援返回6個類型的30+個細分標籤和標籤信賴度。如果內容存在多種風險類型,能夠同時返回多個細分標籤。以下是風險標籤值、對應的分值區間以及對應的含義:

標籤值(label)

置信分區間(confidence)

中文含義

pornographic_adult

0~100分,分數越高信賴度越高

疑似與性相關的情況

sexual_terms

0~100分,分數越高信賴度越高

疑似性健康內容

sexual_suggestive

0~100分,分數越高信賴度越高

疑似低俗內容

sexual_orientation

0~100分,分數越高信賴度越高

疑似性取向內容

regional_cn

0~100分,分數越高信賴度越高

疑似國內涉政內容

regional_illegal

0~100分,分數越高信賴度越高

疑似非法政治內容

regional_controversial

0~100分,分數越高信賴度越高

疑似政治爭議

regional_racism

0~100分,分數越高信賴度越高

疑似種族主義

violent_extremist

0~100分,分數越高信賴度越高

疑似極端組織

violent_incidents

0~100分,分數越高信賴度越高

疑似極端主義內容

violent_weapons

0~100分,分數越高信賴度越高

疑似武器彈藥

violence_unscList

0~100分,分數越高信賴度越高

聯合國制裁名單

contraband_drug

0~100分,分數越高信賴度越高

疑似毒品相關

contraband_gambling

0~100分,分數越高信賴度越高

疑似賭博相關

inappropriate_ethics

0~100分,分數越高信賴度越高

疑似不良價值觀內容

inappropriate_profanity

0~100分,分數越高信賴度越高

疑似攻擊辱罵內容

inappropriate_oral

0~100分,分數越高信賴度越高

疑似低俗口頭語內容

inappropriate_religion

0~100分,分數越高信賴度越高

疑似宗教褻瀆內容

pt_to_contact

0~100分,分數越高信賴度越高

疑似引流廣告號

pt_to_sites

0~100分,分數越高信賴度越高

疑似站外引流

customized

0~100分,分數越高信賴度越高

命中自訂詞庫

管理標籤

每個風險標籤均可以在控制台進行開關配置,部分風險標籤會提供更細分檢測範圍的開關配置,具體參見Alibaba Content Security Service控制台

  1. 在左側導覽列,選擇機器審核V2.0>文本審核>規則配置

  2. 規則管理頁簽,以大模型審核方案(aigc_moderation_byllm_global)為例,單擊操作管理檢測規則

    1. 選擇需要調整的檢測類型,以不良內容檢測為例。

    2. 單擊編輯進入編輯模式,修改對應檢測狀態。

    3. 單擊儲存,儲存新配置的檢測範圍。新配置的檢測範圍約2~5分鐘生效並應用於生產環境。

四、接入指南

步驟一:開通服務

訪問開通服務,開通文本審核2.0版服務。

步驟二:為RAM使用者授權

在接入SDK或者API之前,您需要為RAM使用者授權。您可以為阿里雲帳號和RAM使用者建立一個存取金鑰(AccessKey)。在調用阿里雲API時您需要使用AccessKey完成身分識別驗證。擷取方式,請參見擷取AccessKey

操作步驟

  1. 使用阿里雲帳號登入RAM控制台

  2. 建立RAM使用者。

    具體操作,請參見建立RAM使用者

  3. 向RAM使用者授權系統策略許可權:AliyunYundunGreenWebFullAccess

    具體操作,請參見管理RAM使用者的許可權

    完成以上配置後,您可以使用RAM使用者調用Alibaba Content Security ServiceAPI。

步驟三:安裝並接入SDK

文本審核增強版PLUS服務SDK請參考文本審核增強版2.0版PLUS服務SDK及接入指南

五、API說明

使用說明

您可以調用該介面建立常值內容檢測任務。關於如何構造HTTP請求,請參見請求結構;您也可以直接選用已構造好的HTTP請求,更多資訊,請參見接入指南部分。

您可以在OpenAPI Explorer中直接運行該介面,免去您計算簽名的困擾。運行成功後,OpenAPI Explorer可以自動產生SDK程式碼範例。

  • 業務介面:TextModerationPlus

  • 支援的地區及接入地址

地區

外網接入地址

內網接入地址

香港

green-cip.cn-hongkong.aliyuncs.com

green-cip-vpc.cn-hongkong.aliyuncs.com

ugc_moderation_byllm_global

新加坡

green-cip.ap-southeast-1.aliyuncs.com

green-cip-vpc.ap-southeast-1.aliyuncs.com

美國(維吉尼亞)

green-cip.us-east-1.aliyuncs.com

green-cip-vpc.us-east-1.aliyuncs.com

德國(法蘭克福)

green-cip.eu-central-1.aliyuncs.com

green-cip-vpc.eu-central-1.aliyuncs.com

重要

美國(維吉尼亞)、德國(法蘭克福)和香港地區的文本審核大模型推理計算由新加坡節點支援,推理結果處理、資料和日誌儲存在美國(維吉尼亞)、德國(法蘭克福)和香港本地進行。

  • 計費資訊:該介面為收費介面。僅對HTTP狀態代碼為200的請求進行計量計費,產生其他錯誤碼時不會計費。關於計費方式,請參見計費說明部分。

QPS限制

本服務的單使用者QPS限制為50次/秒。超過限制,服務調用會被限流,這可能會影響您的業務,請合理調用。如需支援更多QPS,請聯絡商務經理。

請求參數

名稱

類型

是否必須

樣本值

描述

Service

String

ugc_moderation_byllm_global

  • ugc_moderation_byllm_globalUGC场景文本审核大模型服务

ServiceParameters

JSONString

審核服務需要的參數集。JSON字串格式,關於每個字串的描述,請參見表ServiceParameters

表 1. ServiceParameters

名稱

類型

是否必須

樣本值

描述

content

String

檢測內容

審核的常值內容,限定在2000字元以內。

dataId

String

text0424****

檢測對象對應的資料ID。

由大小寫英文字母、數字、底線(_)、短劃線(-)、英文句號(.)組成,不超過64個字元,可以用於唯一標識您的業務資料。

accountId

String

ID0728****

賬戶ID,標識一個賬戶的唯一ID,用於平台側終端使用者的記錄。比如使用者A和使用者B聊天,A的聊天文本此處傳入A,B的聊天文本此處傳入B。

說明

賬戶ID可以結合上下文進行審核,如需開啟請聯絡您的商務或者提工單申請。

返回參數

名稱

類型

樣本值

描述

Code

Integer

200

狀態代碼。更多資訊,請參見Code說明

Data

JSONObject

{"Result":[...]}

審核結果資料,具體請參見Data

Message

String

OK

請求訊息的響應訊息。

RequestId

String

AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****

請求ID。

表 2. Data

名稱

類型

樣本值

描述

Result

JSONArray

檢測的風險標籤、置信分等結果,具體請參見Result

RiskLevel

String

high

風險等級,根據設定的高低風險分返回,傳回值包括:

  • high:高風險(若命中自訂詞庫,風險等級預設為高風險)

  • medium:中風險

  • low:低風險

  • none:未檢測到風險

說明

高風險內容建議直接處置;中風險內容建議人工複查;低風險內容建議在高召回需求時再做處理,日常建議和未檢測到風險做相同處理。風險分值可以在Alibaba Content Security Service控制台配置。

DataId

String

text0424****

檢測對象對應的資料ID。

說明

如果在檢測請求參數中傳入了dataId,則此處返回對應的dataId。

AccountId

String

10123****

賬戶ID。

說明

如果在檢測請求參數中傳入了accountId,則此處返回對應的accountId。

表 3. Result

名稱

類型

樣本值

描述

Label

String

political_xxx

文字內容檢測運算後返回的標籤,可能會檢出多個標籤和分值。支援的標籤請參見風險標籤部分。

Description

String

疑似與性相關的情況

對Labal欄位的說明。

重要

該欄位為Label欄位的解釋說明,可能會變更調整,實際處理結果時建議處理Label欄位,不要基於該欄位進行結果處置。

Confidence

Float

81.22

置信分值,0到100分,保留到小數點後2位。部分標籤無置信分。

Riskwords

String

AA,BB,CC

檢測到的敏感詞,多個詞用逗號分隔,部分標籤不會返回敏感詞。

CustomizedHit

JSONArray

[{"LibName":"...","Keywords":"..."}]

當命中自訂庫時,Label為customized,返回自訂庫名稱和自訂詞,具體參見CustomizedHit

RiskPositions

JSONArray

檢測到敏感詞的位置資訊。更多資訊,請參見RiskPositions

表 4. CustomizedHit

名稱

類型

樣本值

描述

LibName

String

自訂庫1

自訂庫名稱

Keywords

String

自訂詞1,自訂詞2

自訂詞,多個詞用逗號分隔。

表 5. RiskPositions

名稱

類型

樣本值

描述

RiskWord

String

AA

檢測到的敏感詞。

StartPos

Integer

10

敏感詞的開始位置。

EndPos

Integer

12

敏感詞的結束位置。

樣本

請求樣本:

{
    "Service": "aigc_moderation_byllm_global",
    "ServiceParameters": {
        "content": "testing content",
        "dataId": "text0424****"
    }
}

返回樣本:

  • 命中系統策略:

{
    "Code": 200,
    "Data": {
        "Result": [
            {
                "Label": "political_entity",
                "Description": "疑似政治實體",
                "Confidence": 100.0,
                "RiskWords": "詞A,詞B",
                "RiskPositions": [
                    {
                        "EndPos": 14,
                        "RiskWord": "詞A",
                        "StartPos": 16
                    }
                ]
            },
            {
                "Label": "political_figure",
                "Description": "疑似政治人物",
                "Confidence": 100.0,
                "RiskWords": "詞B,詞C",
                "RiskPositions": [
                    {
                        "EndPos": 24,
                        "RiskWord": "詞C",
                        "StartPos": 26
                    }
                ]
            }
        ],
        "RiskLevel": "high",
        "DataId": "text0424****"
    },
    "Message": "OK",
    "RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}
  • 命中自訂詞庫:

{
    "Code": 200,
    "Data": {
        "Result": [
            {
                "Description": "命中自訂庫",
                "CustomizedHit": [
                     {
                        "LibName": "自訂詞庫名稱1",
                        "KeyWords": "自訂關鍵詞"
                     }
                ],
                "Confidence": 100,
                "Label": "customized"
             }
        ],
        "RiskLevel": "high",
        "DataId": "text0424****"
    },
    "Message": "OK",
    "RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}

Code說明

Code

狀態碼

說明

200

OK

請求成功。

400

BAD_REQUEST

請求有誤。可能是請求參數不正確導致,請仔細檢查請求參數。

408

PERMISSION_DENY

可能是您的帳號未授權、帳號欠費、帳號未開通、帳號被禁等。

500

GENERAL_ERROR

錯誤。可能是服務端臨時出錯。建議重試,若持續返回該錯誤碼,請通過線上服務聯絡我們。

581

TIMEOUT

逾時。建議重試,若持續返回該錯誤碼,請通過線上服務聯絡我們。

588

EXCEED_QUOTA

請求頻率超出配額。