文本審核增強版多語言PLUS服務 - AI Guardrails

文本審核2.0版升級多語言模型能力，能夠自動判斷語種，並支援更多的語種類型。結合國際化業務特性，提供稽核原則和標籤體系。本文介紹文本審核2.0版多語言服務的內容以及使用方法。

功能特性

相比較文本審核1.0版本多語言審核服務，文本審核2.0版採用單獨的策略和標籤體系，滿足國際化業務特性。同時提供更多功能特性，簡化業務使用並輔助人工審核。

對比項	文本審核2.0版	文本審核1.0版本
多語言能力	支援38種語言類型。	支援18種語言類型。
審核能力	採用多種模型並行，結合語言和地區特性，策略更精確。	採用單個模型，結合語言特性，策略兼顧準確和召回。
標籤體系	採用國際化標籤體系，增加褻瀆、地區等國際化標籤，支援多個風險標籤和細分標籤。	沿用標籤體系，僅支援單個風險標籤。
檢測範圍	支援在控制台配置所有的檢測範圍，按需進行開關設定，和檢測結果一一對應。	支援泛類的檢測範圍，和檢測結果不能一一對應。
介面功能	不需要指定輸入語種，能夠自動識別。審核後會返回語言類型和翻譯後的英文內容，用於輔助人工審核。	需要指定輸入語種，不返回翻譯內容。

支援語種

文本審核2.0版多語言服務目前支援38種語言類型。

語種類型	英文名	語言代碼
英語	English	en
中文簡體	Chinese	zh
中文繁體	Traditional Chinese	zh-tw
印尼語	Indonesian	id
馬來語	Malay	ms
泰語	Thai	th
越南語	Vietnamese	vi
他加祿語	Tagalog	tl
印地語	Hindi	hi
阿拉伯語	Arabic	ar
土耳其語	Turkish	tr
法語	French	fr
德語	German	de
俄語	Russian	ru
葡萄牙語	Portuguese	pt
西班牙語	Spanish	es
意大利語	Italian	it
荷蘭語	Dutch	nl
波蘭語	Polish	pl
日語	Japanese	ja
韓語	Korean	ko
烏爾都語	Urdu	ur
維吾爾語	Uighur	ug
孟加拉語	Bengali	bn
波斯語	Persian	fa
瑞典語	Swedish	sv
丹麥語	Danish	da
挪威語	Norwegian	no
冰島語	Icelandic	is
芬蘭語	Finnish	fi
白俄羅斯語	Belarusian	be
立陶宛語	Lithuanian	lt
捷克語	Czech	cs
斯洛伐克語	Slovak	sk
匈牙利語	Hungarian	hu
希臘語	Modern Greek	el
羅馬尼亞語	Romanian	ro
愛爾蘭語	Irish	ga

國際化標籤

文本審核2.0版多語言PLUS服務採用國際化標籤體系。如果內容存在多類風險，能夠同時返回多個標籤。標籤分類包括但不限於如下所示：

簽值（label）	置信分區間（confidence）	中文含義
pornographic_adult	0~100分，分數越高信賴度越高	疑似與性相關的情況
sexual_terms	0~100分，分數越高信賴度越高	疑似性健康內容
sexual_suggestive	0~100分，分數越高信賴度越高	疑似低俗內容
sexual_orientation	0~100分，分數越高信賴度越高	疑似性取向內容
regional_cn	0~100分，分數越高信賴度越高	疑似國內涉政內容
regional_illegal	0~100分，分數越高信賴度越高	疑似非法政治內容
regional_controversial	0~100分，分數越高信賴度越高	疑似政治爭議
regional_racism	0~100分，分數越高信賴度越高	疑似種族主義
violent_extremist	0~100分，分數越高信賴度越高	疑似極端組織
violent_incidents	0~100分，分數越高信賴度越高	疑似極端主義內容
violent_weapons	0~100分，分數越高信賴度越高	疑似武器彈藥
violence_unscList	0~100分，分數越高信賴度越高	聯合國制裁名單
contraband_drug	0~100分，分數越高信賴度越高	疑似毒品相關
contraband_gambling	0~100分，分數越高信賴度越高	疑似賭博相關
inappropriate_ethics	0~100分，分數越高信賴度越高	疑似不良價值觀內容
inappropriate_profanity	0~100分，分數越高信賴度越高	疑似攻擊辱罵內容
inappropriate_oral	0~100分，分數越高信賴度越高	疑似低俗口頭語內容
inappropriate_religion	0~100分，分數越高信賴度越高	疑似宗教褻瀆內容
pt_to_contact	0~100分，分數越高信賴度越高	疑似引流廣告號
pt_to_sites	0~100分，分數越高信賴度越高	疑似站外引流
customized	0~100分，分數越高信賴度越高	命中自訂詞庫

計費說明

文本審核2.0版服務支援按量後付費方式。

按量後付費

當您開通文本審核2.0版服務後，預設付費方式是按量後付費，且按照實際用量結算當日費用，不調用服務不收費。

審核類型	支援的業務情境（服務）	計費單價
文本審核基礎（text_standard）	國際業務多語言偵測_專業版：text_multilingual_pro_global	0.3美元/千次
文本審核進階（text_advanced）	文本翻譯功能	0.6美元/千次說明開啟文本翻譯功能之後，每次請求每500字計費一次。

資源套件抵扣

如果您的審核量較大，或有相對固定的審核需求，建議預先購買資源套件的方式。購買資源套件規格越大，享受的折扣越大，支援疊加購買和使用。更多內容，請參見購買Alibaba Content Security Service2.0版抵扣資源套件。

該資源套件用於內容審核2.0版用量的抵扣，無法與Alibaba Content Security Service1.0版流量套件共用，具體的抵扣係數如下：

審核類型	支援的業務情境（服務）	抵扣係數
文本審核基礎（text_standard）	國際業務多語言偵測_專業版：text_multilingual_pro_global	抵扣係數為1，表示每成功調用一次介面，抵扣資源套件的流量包容量規格1次。說明例如購買的資源套件的流量包容量規格為10次，當您成功調用1次介面，抵扣流量包容量規格1次，剩餘9次。
文本審核進階（text_advanced）	文本翻譯功能	抵扣係數為2，表示每成功調用一次介面，抵扣資源套件的流量包容量規格2次。說明例如購買的資源套件的流量包容量規格為10次，當您成功調用1次介面，抵扣流量包容量規格2次，剩餘8次。

接入指南

步驟一：開通服務

訪問開通服務，開通文本審核2.0版服務。

開通文本2.0版服務後，預設付費方式是按量後付費，且按照實際用量結算當日費用，不調用服務不收費。介面接入使用後系統會按使用量自動出賬，具體資訊，請參見計費說明。

步驟二：為RAM使用者授權

在接入SDK或者API之前，您需要為RAM使用者授權。您可以為阿里雲帳號和RAM使用者建立一個存取金鑰（AccessKey）。在調用阿里雲API時您需要使用AccessKey完成身分識別驗證。擷取方式，請參見擷取AccessKey。

操作步驟

使用阿里雲帳號登入RAM控制台。
建立RAM使用者。
具體操作，請參見建立RAM使用者。
向RAM使用者授權系統策略許可權：AliyunYundunGreenWebFullAccess。
具體操作，請參見管理RAM使用者的許可權。
完成以上配置後，您可以使用RAM使用者調用Alibaba Content Security ServiceAPI。

步驟三：安裝並接入SDK

目前支援的接入地區如下，文本審核增強版服務SDK請參考接入指南。

地區	外網接入地址	內網接入地址
新加坡	green-cip.ap-southeast-1.aliyuncs.com	green-cip-vpc.ap-southeast-1.aliyuncs.com
英國（倫敦）	green-cip.eu-west-1.aliyuncs.com	暫無
美國（維吉尼亞）	green-cip.us-east-1.aliyuncs.com	green-cip-vpc.us-east-1.aliyuncs.com
美國（矽谷）	green-cip.us-west-1.aliyuncs.com	暫無
德國（法蘭克福）	green-cip.eu-central-1.aliyuncs.com	green-cip-vpc.eu-central-1.aliyuncs.com

說明

英國（倫敦）的配置複用新加坡地區控制台配置；美國（矽谷）的配置複用美國（維吉尼亞）地區控制台配置。

API

使用說明

業務介面：TextModerationPlus

您可以調用該介面建立常值內容檢測任務。關於如何構造HTTP請求，請參見請求結構；您也可以直接選用已構造好的HTTP請求，更多資訊，請參見接入指南。

計費資訊：
該介面為收費介面。僅對HTTP狀態代碼為200的請求進行計量計費，產生其他錯誤碼時不會計費。關於計費方式，請參見計費說明。

QPS限制

本介面的單使用者QPS限制為100次/秒。超過限制，API調用會被限流，這可能會影響您的業務，請合理調用。

請求參數

名稱	類型	是否必須	樣本值	描述
Service	String	是	text_multilingual_pro_global	審核服務類型。取值：text_multilingual_pro_global：國際業務多語言偵測
ServiceParameters	JSONString	是		審核服務需要的參數集。JSON字串格式，關於每個字串的描述，請參見ServiceParameters。

表 1. ServiceParameters

名稱

類型

是否必須

樣本值

描述

content

String

是

檢測內容

審核的常值內容，限定在600字元以內。

dataId

String

否

text0424****

檢測對象對應的資料ID。

由大小寫英文字母、數字、底線（_）、短劃線（-）、英文句號（.）組成，不超過64個字元，可以用於唯一標識您的業務資料。

返回參數

名稱	類型	樣本值	描述
Code	Integer	200	狀態代碼。更多資訊，請參見Code說明。
Data	JSONObject		審核結果資料。更多資訊，請參見Data。
Message	String	OK	請求訊息的響應訊息。
RequestId	String	AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****	請求ID。

表 2. Data

名稱	類型	樣本值	描述
Result	JSONArray		檢測的風險標籤、置信分等結果，具體請參見Result。
DataId	String	text0424****	檢測對象對應的資料ID。說明如果在檢測請求參數中傳入了dataId，則此處返回對應的dataId。
RiskLevel	String	high	風險等級，根據設定的高低風險分返回，傳回值包括： high：高風險（若命中自訂詞庫，風險等級預設為高風險） medium：中風險 low：低風險 none：未檢測到風險說明高風險內容建議直接處置；中風險內容建議人工複查；低風險內容建議在高召回需求時再做處理，日常建議和未檢測到風險做相同處理。風險分值可以在Alibaba Content Security Service控制台配置。
TranslatedContent	String	翻譯後文本	翻譯後的常值內容，在開啟文本翻譯功能之後返回。說明開啟文本翻譯功能當前僅新加坡地區支援，在控制台管理檢測規則中進行配置，配置會產生額外的費用，詳情請參考計費說明。
DetectedLanguage	String	en	檢測到的語種。

表 3. Result

名稱	類型	樣本值	描述
Label	String	political_xxx	文字內容檢測運算後返回的標籤，可能會檢出多個標籤和分值。支援的標籤請參見國際化標籤部分。
Confidence	Float	81.22	置信分值，0到100分，保留到小數點後2位。部分標籤無置信分。
Riskwords	String	AA,BB,CC	檢測到的敏感詞，多個詞用逗號分隔，部分標籤不會返回敏感詞。
CustomizedHit	JSONArray	[{"LibName":"...","Keywords":"..."}]	當命中自訂庫時，Label為customized，返回自訂庫名稱和自訂詞，具體參見CustomizedHit。
Description	String	疑似與性相關的情況	對Labal欄位的說明。重要該欄位為Label欄位的解釋說明，可能會變更調整，實際處理結果時建議處理Label欄位，不要基於該欄位進行結果處置。

表 4. CustomizedHit

名稱	類型	樣本值	描述
LibName	String	自訂庫1	自訂庫名稱
Keywords	String	自訂詞1,自訂詞2	自訂詞，多個詞用逗號分隔。

樣本

請求樣本

{
    "Service": "text_multilingual_pro_global",
    "ServiceParameters": {
        "content": "testing content",
        "dataId": "text0424****"
    }
}

返回樣本：

命中系統策略：

{
    "Code": 200,
    "Data": {
        "Result": [
            {
                "Label": "political_entity",
                "Description": "疑似政治實體",
                "Confidence": 100.0,
                "RiskWords": "詞A,詞B,詞C"
            },
            {
                "Label": "political_figure",
                "Description": "疑似政治人物",
                "Confidence": 100.0,
                "RiskWords": "詞A,詞B,詞C"
            }
        ],
        "RiskLevel": "high",
        "DetectedLanguage": "en",
        "TranslatedContent": "翻譯後的常值內容",
        "DataId": "text0424****"
    },
    "Message": "OK",
    "RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}

命中自訂詞庫：

{
    "Code": 200,
    "Data": {
        "Result": [
            {
                "Description": "命中自訂庫",
                "CustomizedHit": [
                    {
                        "LibName": "自訂詞庫名稱1",
                        "KeyWords": "自訂關鍵詞"
                    }
                ],
                "Confidence": 100,
                "Label": "customized"
            }
        ],
        "RiskLevel": "high",
        "DataId": "text0424****"
    },
    "Message": "OK",
    "RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}

Code說明

Code	狀態碼	說明
200	OK	請求成功。
400	BAD_REQUEST	請求有誤。可能是請求參數不正確導致，請仔細檢查請求參數。
407	NOT_SUPPORT	無法識別或不支援該語種類型。
408	PERMISSION_DENY	可能是您的帳號未授權、帳號欠費、帳號未開通、帳號被禁等。
500	GENERAL_ERROR	錯誤。可能是服務端臨時出錯。建議重試，若持續返回該錯誤碼，請通過線上服務聯絡我們。
581	TIMEOUT	逾時。建議重試，若持續返回該錯誤碼，請通過線上服務聯絡我們。
588	EXCEED_QUOTA	請求頻率超出配額。