文本審核2.0版升級多語言模型能力,能夠自動判斷語種,並支援更多的語種類型。結合國際化業務特性,提供稽核原則和標籤體系。本文介紹文本審核2.0版多語言服務的內容以及使用方法。
功能特性
相比較文本審核1.0版本多語言審核服務,文本審核2.0版採用單獨的策略和標籤體系,滿足國際化業務特性。同時提供更多功能特性,簡化業務使用並輔助人工審核。
對比項 | 文本審核2.0版 | 文本審核1.0版本 |
多語言能力 | 支援38種語言類型。 | 支援18種語言類型。 |
審核能力 | 採用多種模型並行,結合語言和地區特性,策略更精確。 | 採用單個模型,結合語言特性,策略兼顧準確和召回。 |
標籤體系 | 採用國際化標籤體系,增加褻瀆、地區等國際化標籤,支援多個風險標籤和細分標籤。 | 沿用標籤體系,僅支援單個風險標籤。 |
檢測範圍 | 支援在控制台配置所有的檢測範圍,按需進行開關設定,和檢測結果一一對應。 | 支援泛類的檢測範圍,和檢測結果不能一一對應。 |
介面功能 | 不需要指定輸入語種,能夠自動識別。審核後會返回語言類型和翻譯後的英文內容,用於輔助人工審核。 | 需要指定輸入語種,不返回翻譯內容。 |
支援語種
文本審核2.0版多語言服務目前支援38種語言類型。
語種類型 | 英文名 | 語言代碼 |
英語 | English | en |
中文簡體 | Chinese | zh |
中文繁體 | Traditional Chinese | zh-tw |
印尼語 | Indonesian | id |
馬來語 | Malay | ms |
泰語 | Thai | th |
越南語 | Vietnamese | vi |
他加祿語 | Tagalog | tl |
印地語 | Hindi | hi |
阿拉伯語 | Arabic | ar |
土耳其語 | Turkish | tr |
法語 | French | fr |
德語 | German | de |
俄語 | Russian | ru |
葡萄牙語 | Portuguese | pt |
西班牙語 | Spanish | es |
意大利語 | Italian | it |
荷蘭語 | Dutch | nl |
波蘭語 | Polish | pl |
日語 | Japanese | ja |
韓語 | Korean | ko |
烏爾都語 | Urdu | ur |
維吾爾語 | Uighur | ug |
孟加拉語 | Bengali | bn |
波斯語 | Persian | fa |
瑞典語 | Swedish | sv |
丹麥語 | Danish | da |
挪威語 | Norwegian | no |
冰島語 | Icelandic | is |
芬蘭語 | Finnish | fi |
白俄羅斯語 | Belarusian | be |
立陶宛語 | Lithuanian | lt |
捷克語 | Czech | cs |
斯洛伐克語 | Slovak | sk |
匈牙利語 | Hungarian | hu |
希臘語 | Modern Greek | el |
羅馬尼亞語 | Romanian | ro |
愛爾蘭語 | Irish | ga |
國際化標籤
文本審核2.0版多語言PLUS服務採用國際化標籤體系。如果內容存在多類風險,能夠同時返回多個標籤。標籤分類包括但不限於如下所示:
簽值(label) | 置信分區間(confidence) | 中文含義 |
pornographic_adult | 0~100分,分數越高信賴度越高 | 疑似與性相關的情況 |
sexual_terms | 0~100分,分數越高信賴度越高 | 疑似性健康內容 |
sexual_suggestive | 0~100分,分數越高信賴度越高 | 疑似低俗內容 |
sexual_orientation | 0~100分,分數越高信賴度越高 | 疑似性取向內容 |
regional_cn | 0~100分,分數越高信賴度越高 | 疑似國內涉政內容 |
regional_illegal | 0~100分,分數越高信賴度越高 | 疑似非法政治內容 |
regional_controversial | 0~100分,分數越高信賴度越高 | 疑似政治爭議 |
regional_racism | 0~100分,分數越高信賴度越高 | 疑似種族主義 |
violent_extremist | 0~100分,分數越高信賴度越高 | 疑似極端組織 |
violent_incidents | 0~100分,分數越高信賴度越高 | 疑似極端主義內容 |
violent_weapons | 0~100分,分數越高信賴度越高 | 疑似武器彈藥 |
violence_unscList | 0~100分,分數越高信賴度越高 | 聯合國制裁名單 |
contraband_drug | 0~100分,分數越高信賴度越高 | 疑似毒品相關 |
contraband_gambling | 0~100分,分數越高信賴度越高 | 疑似賭博相關 |
inappropriate_ethics | 0~100分,分數越高信賴度越高 | 疑似不良價值觀內容 |
inappropriate_profanity | 0~100分,分數越高信賴度越高 | 疑似攻擊辱罵內容 |
inappropriate_oral | 0~100分,分數越高信賴度越高 | 疑似低俗口頭語內容 |
inappropriate_religion | 0~100分,分數越高信賴度越高 | 疑似宗教褻瀆內容 |
pt_to_contact | 0~100分,分數越高信賴度越高 | 疑似引流廣告號 |
pt_to_sites | 0~100分,分數越高信賴度越高 | 疑似站外引流 |
customized | 0~100分,分數越高信賴度越高 | 命中自訂詞庫 |
計費說明
文本審核2.0版服務支援按量後付費方式。
按量後付費
當您開通文本審核2.0版服務後,預設付費方式是按量後付費,且按照實際用量結算當日費用,不調用服務不收費。
審核類型 | 支援的業務情境(服務) | 計費單價 |
文本審核基礎(text_standard) | 國際業務多語言偵測_專業版:text_multilingual_pro_global | 0.3美元/千次 |
接入指南
步驟一:開通服務
訪問開通服務,開通文本審核2.0版服務。
開通文本2.0版服務後,預設付費方式是按量後付費,且按照實際用量結算當日費用,不調用服務不收費。介面接入使用後系統會按使用量自動出賬,具體資訊,請參見計費說明。
步驟二:為RAM使用者授權
在接入SDK或者API之前,您需要為RAM使用者授權。您可以為阿里雲帳號和RAM使用者建立一個存取金鑰(AccessKey)。在調用阿里雲API時您需要使用AccessKey完成身分識別驗證。擷取方式,請參見擷取AccessKey。
操作步驟
使用阿里雲帳號登入RAM控制台。
建立RAM使用者。
具體操作,請參見建立RAM使用者。
向RAM使用者授權系統策略許可權:
AliyunYundunGreenWebFullAccess。具體操作,請參見管理RAM使用者的許可權。
完成以上配置後,您可以使用RAM使用者調用Alibaba Content Security ServiceAPI。
步驟三:安裝並接入SDK
目前支援的接入地區如下,文本審核增強版服務SDK請參考接入指南。
地區 | 外網接入地址 | 內網接入地址 |
新加坡 | green-cip.ap-southeast-1.aliyuncs.com | green-cip-vpc.ap-southeast-1.aliyuncs.com |
英國(倫敦) | green-cip.eu-west-1.aliyuncs.com | 暫無 |
美國(維吉尼亞) | green-cip.us-east-1.aliyuncs.com | green-cip-vpc.us-east-1.aliyuncs.com |
美國(矽谷) | green-cip.us-west-1.aliyuncs.com | 暫無 |
德國(法蘭克福) | green-cip.eu-central-1.aliyuncs.com | green-cip-vpc.eu-central-1.aliyuncs.com |
英國(倫敦)的配置複用新加坡地區控制台配置;美國(矽谷)的配置複用美國(維吉尼亞)地區控制台配置。
API
使用說明
業務介面:TextModerationPlus
您可以調用該介面建立常值內容檢測任務。關於如何構造HTTP請求,請參見請求結構;您也可以直接選用已構造好的HTTP請求,更多資訊,請參見接入指南。
計費資訊:
該介面為收費介面。僅對HTTP狀態代碼為200的請求進行計量計費,產生其他錯誤碼時不會計費。關於計費方式,請參見計費說明。
QPS限制
本介面的單使用者QPS限制為100次/秒。超過限制,API調用會被限流,這可能會影響您的業務,請合理調用。
請求參數
名稱 | 類型 | 是否必須 | 樣本值 | 描述 |
Service | String | 是 | text_multilingual_pro_global | 審核服務類型。取值:text_multilingual_pro_global:國際業務多語言偵測 |
ServiceParameters | JSONString | 是 | 審核服務需要的參數集。JSON字串格式,關於每個字串的描述,請參見ServiceParameters。 |
表 1. ServiceParameters
名稱 | 類型 | 是否必須 | 樣本值 | 描述 |
content | String | 是 | 檢測內容 | 審核的常值內容,限定在600字元以內。 |
dataId | String | 否 | text0424**** | 檢測對象對應的資料ID。 由大小寫英文字母、數字、底線(_)、短劃線(-)、英文句號(.)組成,不超過64個字元,可以用於唯一標識您的業務資料。 |
返回參數
名稱 | 類型 | 樣本值 | 描述 |
Code | Integer | 200 | 狀態代碼。更多資訊,請參見Code說明。 |
Data | JSONObject | 審核結果資料。更多資訊,請參見Data。 | |
Message | String | OK | 請求訊息的響應訊息。 |
RequestId | String | AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE**** | 請求ID。 |
表 2. Data
名稱 | 類型 | 樣本值 | 描述 |
Result | JSONArray | 檢測的風險標籤、置信分等結果,具體請參見Result。 | |
DataId | String | text0424**** | 檢測對象對應的資料ID。 說明 如果在檢測請求參數中傳入了dataId,則此處返回對應的dataId。 |
RiskLevel | String | high | 風險等級,根據設定的高低風險分返回,傳回值包括:
說明 高風險內容建議直接處置;中風險內容建議人工複查;低風險內容建議在高召回需求時再做處理,日常建議和未檢測到風險做相同處理。風險分值可以在Alibaba Content Security Service控制台配置。 |
TranslatedContent | String | 翻譯後文本 | 翻譯後的常值內容。 |
DetectedLanguage | String | en | 檢測到的語種。 |
表 3. Result
名稱 | 類型 | 樣本值 | 描述 |
Label | String | political_xxx | 文字內容檢測運算後返回的標籤,可能會檢出多個標籤和分值。支援的標籤請參見國際化標籤部分。 |
Confidence | Float | 81.22 | 置信分值,0到100分,保留到小數點後2位。部分標籤無置信分。 |
Riskwords | String | AA,BB,CC | 檢測到的敏感詞,多個詞用逗號分隔,部分標籤不會返回敏感詞。 |
CustomizedHit | JSONArray | [{"LibName":"...","Keywords":"..."}] | 當命中自訂庫時,Label為customized,返回自訂庫名稱和自訂詞,具體參見CustomizedHit。 |
Description | String | 疑似與性相關的情況 | 對Labal欄位的說明。 重要 該欄位為Label欄位的解釋說明,可能會變更調整,實際處理結果時建議處理Label欄位,不要基於該欄位進行結果處置。 |
表 4. CustomizedHit
名稱 | 類型 | 樣本值 | 描述 |
LibName | String | 自訂庫1 | 自訂庫名稱 |
Keywords | String | 自訂詞1,自訂詞2 | 自訂詞,多個詞用逗號分隔。 |
樣本
請求樣本
{
"Service": "text_multilingual_pro_global",
"ServiceParameters": {
"content": "testing content",
"dataId": "text0424****"
}
}返回樣本:
命中系統策略:
{
"Code": 200,
"Data": {
"Result": [
{
"Label": "political_entity",
"Description": "疑似政治實體",
"Confidence": 100.0,
"RiskWords": "詞A,詞B,詞C"
},
{
"Label": "political_figure",
"Description": "疑似政治人物",
"Confidence": 100.0,
"RiskWords": "詞A,詞B,詞C"
}
],
"RiskLevel": "high",
"DetectedLanguage": "en",
"TranslatedContent": "翻譯後的常值內容",
"DataId": "text0424****"
},
"Message": "OK",
"RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}命中自訂詞庫:
{
"Code": 200,
"Data": {
"Result": [
{
"Description": "命中自訂庫",
"CustomizedHit": [
{
"LibName": "自訂詞庫名稱1",
"KeyWords": "自訂關鍵詞"
}
],
"Confidence": 100,
"Label": "customized"
}
],
"RiskLevel": "high",
"DataId": "text0424****"
},
"Message": "OK",
"RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}Code說明
Code | 狀態碼 | 說明 |
200 | OK | 請求成功。 |
400 | BAD_REQUEST | 請求有誤。可能是請求參數不正確導致,請仔細檢查請求參數。 |
407 | NOT_SUPPORT | 無法識別或不支援該語種類型。 |
408 | PERMISSION_DENY | 可能是您的帳號未授權、帳號欠費、帳號未開通、帳號被禁等。 |
500 | GENERAL_ERROR | 錯誤。可能是服務端臨時出錯。建議重試,若持續返回該錯誤碼,請通過線上服務聯絡我們。 |
581 | TIMEOUT | 逾時。建議重試,若持續返回該錯誤碼,請通過線上服務聯絡我們。 |
588 | EXCEED_QUOTA | 請求頻率超出配額。 |