音声検出 2.0 多言語サービスの使用方法 - Content Moderation

音声検出 2.0 は、中国語、英語、および中国語と英語の混合の音声コンテンツをサポートするアップグレードされた音声モデルを備えています。国際的なビジネスに合わせた検出ポリシーとタグシステムを提供します。このトピックでは、音声検出 2.0 多言語サービスの機能と使用方法について説明します。

特徴

音声検出 1.0 と比較して、音声検出 2.0 は、国際的なビジネスのニーズを満たすために、別のポリシーとタグシステムを使用します。また、使用を簡素化し、手動レビューを支援するためのより多くの機能も提供します。

比較項目	音声検出 2.0	音声検出 1.0
多言語機能	シンガポールリージョンは、中国語、英語、アラビア語、ドイツ語、ロシア語、フランス語、韓国語、日本語、スペイン語、イタリア語、インドネシア語、ベトナム語、マレー語、タイ語、ヒンディー語、トルコ語、ポルトガル語、オランダ語、ポーランド語、ベンガル語、ペルシャ語、スウェーデン語、デンマーク語、ノルウェー語、アイスランド語、フィンランド語、ベラルーシ語、リトアニア語、チェコ語、スロバキア語、ハンガリー語、ギリシャ語、ルーマニア語を含む 35 言語をサポートしています。米国 (バージニア) リージョンは、中国語、英語、および中国語と英語の混合をサポートしています。	デフォルトでは中国語のみをサポートします。
モデレーション機能	言語およびリージョン固有の機能を備えた複数の並列モデルを使用して、より正確なポリシーを実現します。非意味的特徴を識別するために、うめき声検出モデルなどの追加モデルが含まれています。	言語固有の機能を備えた単一のモデルを使用して、精度と再現率のバランスを取ります。デフォルトではうめき声検出モデルをサポートしていません。
タグシステム	不適切な表現や地域などのタグを持つ国際的なタグシステムを使用します。このシステムは、複数のリスクタグとサブタグをサポートします。	タグシステムを使用し、単一のリスクタグのみをサポートします。
API の特徴	音声が固定長のクリップにセグメント化される、調整可能なセグメンテーションソリューションを使用します。固定長のセグメントは、手動レビューの効率を向上させます。すべての音声セグメントコンテンツと文字起こしされたテキストを返します。手動レビューを支援するために、音声セグメントの一時的な URL を提供します。	音声セグメントが数秒から数十秒の範囲である、意味的な文ベースのセグメンテーションソリューションを使用します。違反の可能性がある音声セグメントのみを返します。デフォルトでは、音声セグメントの一時的な URL は提供されません。

国際化タグ

音声検出 2.0 多言語サービスは、国際的なタグシステムを使用します。コンテンツに複数の種類のリスクが含まれている場合、サービスは複数のタグを同時に返すことができます。タグの分類には、以下が含まれますが、これらに限定されません。

タグタイプ	分類
プライマリタグ (ラベル)	violence: 暴力 contraband: 禁制品 Sexual Content: ポルノ profanity: 不適切な表現 pullinTraffic: 広告によるトラフィック誘導 regional: 地域紛争 C_customized: ユーザー定義ライブラリでのヒット
サブタグ (riskTips)	サブタグは `xxx_yyy` 形式で返されます。例: `contraband_Drugs`。

サービスパフォーマンス

音声検出 2.0 は、パフォーマンス専有型のコアエンジンを使用しており、数十のモデルとポリシーを高い同時実行性でスケジュールして、タイムリーなサービスを保証します。

サービスパフォーマンス	説明
ファイルサイズ	バージョン 2.0 では、サポートされる最大の音声ファイルサイズが 200 MB から 500 MB に増加します。
音声ファイル形式	サポートされている音声ファイル形式: MP3、WAV、AAC、WMA、OGG、M4A、AMR。サポートされている動画ファイル形式: AVI、FLV、MP4、MPG、ASF、WMV、MOV、RMVB、RM。
ライブ音声ストリーム	サポートされているプロトコル: RTMP、HLS、HTTP-FLV、RTSP。
1 秒あたりのクエリ数 (QPS)	タスクを送信するための 1 秒あたりのクエリ数 (QPS) は 50 から 100 に増加します。
同時ストリーム	バージョン 2.0 では、同時ストリームのデフォルトの制限が 20 から 50 に増加します。

説明

音声検出では、QPS は API が 1 秒あたりに応答するリクエストの数を指します。同時ストリームとは、システムで同時に検出されている音声ファイルまたは音声ストリームの数を指します。

課金情報

音声検出 2.0 サービスは、従量課金の課金方法をサポートしています。

従量課金

音声検出 2.0 サービスをアクティブ化すると、デフォルトの課金方法は従量課金になります。実際の使用量に基づいて毎日課金されます。サービスを使用しない場合、料金は発生しません。

モデレーションタイプ	サポートされているビジネスシナリオ (サービス)	単価
標準音声検出 (audio_standard)	音声および動画メディアの多言語検出: audio_multilingual_global ソーシャルおよびエンターテインメントライブストリームの多言語検出: stream_multilingual_global	1,000 分あたり 9.0 米ドル

アクセスガイド

ステップ 1: サービスをアクティブ化する

サービスのアクティブ化に移動して、音声検出 2.0 サービスをアクティブ化します。

ステップ 2: RAM ユーザーに権限を付与する

SDK または API を使用する前に、RAM ユーザーに権限を付与します。 Alibaba Cloud アカウントまたは RAM ユーザーの AccessKey ペアを作成できます。 Alibaba Cloud API 操作を呼び出すときは、ID 検証に AccessKey ペアを使用する必要があります。詳細については、「AccessKey ペアの取得」をご参照ください。

手順

[RAM コンソール] に RAM 管理者としてログオンします。
RAM ユーザーを作成します。

詳細については、「RAM ユーザーの作成」をご参照ください。
RAM ユーザーに AliyunYundunGreenWebFullAccess システムポリシーを付与します。

詳細については、「RAM ユーザーへの権限付与」をご参照ください。

上記の手順を完了すると、RAM ユーザーとして Content Moderation API を呼び出すことができます。

ステップ 3: SDK のインストールと統合

以下のリージョンがサポートされています:

リージョン	インターネットエンドポイント	内部エンドポイント
シンガポール	https://green-cip.ap-southeast-1.aliyuncs.com	https://green-cip-vpc.ap-southeast-1.aliyuncs.com
米国 (バージニア)	https://green-cip.us-east-1.aliyuncs.com	https://green-cip-vpc.us-east-1.aliyuncs.com

説明

他の言語の SDK サンプルコードが必要な場合は、OpenAPI Developer Portal のオンラインデバッグツールを使用して API 操作をデバッグできます。このツールは、API 操作の SDK サンプルコードを自動的に生成します。

API

使用上の注意

サービスエンドポイント: https://green-cip.{region}.aliyuncs.com。

この操作を呼び出して、音声コンテンツ検出タスクを作成できます。 HTTP リクエストを手動で作成するか、SDK を使用できます。手動で HTTP リクエストを作成する方法については、「RAW HTTP 呼び出しの作成」をご参照ください。 SDK の詳細については、「音声検出 2.0 SDK と統合ガイド」をご参照ください。

API 操作:
- 検出タスクの送信: VoiceModeration
- 検出タスク結果のクエリ: VoiceModerationResult
課金:
これは有料の操作です。 HTTP ステータスコード 200 を返すリクエストに対してのみ課金されます。他のエラーコードを返すリクエストは課金されません。

検出タスクの送信

リクエストパラメーター

名前

タイプ

必須

例

説明

Service

String

はい

udio_multilingual_global

モデレーションサービスの種類。有効な値：

audio_multilingual_global: 音声および動画メディアの多言語検出
stream_multilingual_global: ソーシャルおよびエンターテインメントライブストリームの多言語検出

ServiceParameters

JSONString

はい

検出サービスで必要なパラメーターセット。これは JSON 文字列です。各文字列の説明については、「ServiceParameters」をご参照ください。

表 1. ServiceParameters

名前	タイプ	必須	例	説明
url	String	はい	http://aliyundoc.com/test.flv	検出対象のオブジェクトの URL。パブリック HTTP または HTTPS URL である必要があります。
callback	String	いいえ	http://aliyundoc.com	検出結果がコールバック通知として送信される URL。 HTTP と HTTPS がサポートされています。このフィールドを空のままにする場合は、検出結果を定期的にポーリングする必要があります。コールバックインターフェイスは、POST メソッド、UTF-8 エンコードデータ、およびフォームパラメーター [checksum] と [content] をサポートする必要があります。 Content Moderation は、[checksum] および [content] パラメーターを設定し、次のルールとフォーマットに従ってコールバックインターフェイスを呼び出して検出結果を返します。 checksum: `user UID + seed + content` を連結し、SHA256 アルゴリズムを適用して生成された文字列。ユーザー UID は Alibaba Cloud アカウント ID であり、Alibaba Cloud 管理コンソールで確認できます。改ざん防止のために、プッシュされた結果を受信したときに同じアルゴリズムを使用して文字列を生成し、checksum と照合して検証できます。説明ユーザー UID は、RAM ユーザーの UID ではなく、Alibaba Cloud アカウントの UID である必要があります。 content: JSON 文字列。 JSON オブジェクトに解析します。 content の結果の例については、検出結果をクエリするためのサンプル応答をご参照ください。説明サーバーのコールバックインターフェイスが Content Moderation によってプッシュされた結果を受信した後、HTTP ステータスコード 200 を返した場合、受信は成功です。その他の HTTP ステータスコードは失敗と見なされます。失敗した場合、Content Moderation は、正常に受信されるまで最大 16 回結果のプッシュをリトライします。 16 回のリトライ後も受信されない場合、プッシュは停止されます。コールバックインターフェイスのステータスを確認してください。
seed	String	いいえ	abc****	コールバック通知リクエストの署名に使用されるランダムな文字列。英字、数字、アンダースコア (_) を含めることができ、64 文字を超えてはなりません。この値をカスタマイズして、コールバック通知リクエストが Alibaba Cloud Content Moderation サービスによって開始されたことを確認できます。説明このフィールドは、コールバックを使用する場合に必須です。
cryptType	String	いいえ	SHA256	コールバック通知 (callback) を使用する場合、通知コンテンツの暗号化アルゴリズムを設定します。 Content Moderation は、指定されたアルゴリズムを使用して結果 (`user UID + seed + content` から連結された文字列) を暗号化してから、コールバック通知アドレスに送信します。有効な値: SHA256 (デフォルト): SHA256 暗号化アルゴリズムを使用します。 SM3: SM3 HMAC アルゴリズムを使用します。小文字の英字と数字の 16 進数文字列を返します。たとえば、SM3 で暗号化された `abc` は `66c7f0f462eeedd9d1f2d46bdc10e4e24167c4875cf2f7a2297da02b8f4ba8e0` を返します。
liveId	String	いいえ	liveId1****	ライブ音声ストリームの ID。このパラメーターは、ライブ音声ストリームタスクを重複排除し、繰り返しの検出を防ぐために使用されます。このパラメーターを渡すと、システムは `uid+service+liveId` に基づいて進行中の検出タスクをチェックします。タスクが存在する場合、システムは新しいタスクを開始する代わりに、既存のライブ検出 taskId を返します。
dataId	String	いいえ	voice20240307***	検出されたオブジェクトに対応するデータ ID。大文字と小文字の英字、数字、アンダースコア (_)、ハイフン (-)、ピリオド (.) で構成でき、64 文字を超えてはなりません。これを使用して、ビジネスデータを一意に識別できます。

戻り値パラメーター

名前	タイプ	例	説明
Code	Integer	200	エラーコード。 HTTP ステータスコードと一致します。詳細については、「コードの説明」をご参照ください。
Data	JSONObject	{"taskId": "AAAAA-BBBBB"}	検出結果データ。
Message	String	OK	リクエストに対する応答メッセージ。
RequestId	String	AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****	リクエスト ID。

例

リクエスト例

{
  "service":"audio_multilingual_global",
  "serviceParameters":"{\"cryptType\":\"SHA256\",\"seed\":\"abc***123\",\"callback\":\"https://aliyun.com/callback\",\"url\":\"http://aliyundoc.com/test.flv"}"
}

レスポンスの例

{
  "code":200,
  "data":{
    "taskId":"AAAAA-BBBBB"
  },
  "message":"SUCCESS",
  "requestId":"AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}

タスク結果のクエリ

検出タスクが完了すると、クエリ結果はすべての音声セグメントのデータを返します。

リクエストパラメーター

名前	タイプ	必須	例	説明
Service	String	はい	audio_multilingual_global	モデレーションサービスの種類
ServiceParameters	JSONString	はい		検出サービスで必要なパラメーターセット。これは JSON 文字列です。各文字列の説明については、「ServiceParameters」をご参照ください。

表 2. ServiceParameters

名前	タイプ	必須	例	説明
taskId	String	はい	AAAAA-BBBBB	タスクの送信時に返された ID。

戻り値パラメーター

名前	タイプ	例	説明
Code	Integer	200	エラーコード。 HTTP ステータスコードと一致します。詳細については、「コードの説明」をご参照ください。
Data	JSONObject	{"url":xxxx,"results":xxx}	JSON 形式で返されるパラメーター。
Message	String	OK	リクエストに対する応答メッセージ。
RequestId	String	AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****	リクエスト ID。

表 3. Data

名前	タイプ	例	説明
url	String	https://aliyundoc.com	検出されたオブジェクトの URL。
LiveId	String	liveId1****	ライブ音声ストリームの ID (オプション)。
DataId	String	voice20240307***	検出されたオブジェクトに対応するデータ ID (オプション)。
RiskLevel	String	high	すべての音声セグメントに基づいて計算された、音声のリスクレベル。戻り値には以下が含まれます: high: 高リスク medium: 中リスク low: 低リスク none: リスクは検出されませんでした説明高リスクのコンテンツは直接処理する必要があります。中リスクのコンテンツは手動でレビューする必要があります。低リスクのコンテンツは、高い再現率が必要な場合にのみ処理する必要があります。それ以外の場合は、リスクが検出されなかったコンテンツと同じように扱います。
sliceDetails	JSONArray		音声セグメントの詳細な結果。詳細については、「sliceDetails」をご参照ください。

表 4. sliceDetails

名前	タイプ	例	説明
startTime	Integer	0	文の開始時刻 (秒単位)。
endTime	Integer	4065	文の終了時刻 (秒単位)。
startTimestamp	Integer	1678854649720	セグメントの開始タイムスタンプ (ミリ秒単位)。
endTimestamp	Integer	1678854649720	セグメントの終了タイムスタンプ (ミリ秒単位)。
text	String	disgusting	音声から変換されたテキスト。
url	String	https://aliyundoc.com	音声セグメントの一時的な URL。 URL は 30 分間有効です。速やかに保存してください。
labels	String	pullinTraffic	タグ (コンマ (,) 区切り)。内容: Violence: テロ contraband: 禁制品 Sexual content: ポルノ profanity: 不適切な表現 pullinTraffic: 広告によるトラフィック誘導 regional: 地域紛争 C_customized: ユーザー定義ライブラリでのヒット
RiskLevel	String	high	音声セグメントのリスクレベル。戻り値には以下が含まれます: high: 高リスク medium: 中リスク low: 低リスク none: リスクは検出されませんでした
riskWords	String	AAA,BBB,CCC	ヒットしたリスクワード (コンマ区切り)。
riskTips	String	sexuality_Suggestive	サブタグ (コンマ区切り)。
extend	String	{\"riskTips\":\"sexuality_Suggestive\",\"riskWords\":\"pxxxxy\"}	予約済みフィールド。

例

リクエスト例

{
  "service":"audio_multilingual_global",
  "serviceParameters":"{\"taskId\":\"AAAAA-BBBBB"}"
}

レスポンスの例

{
    "Code": 200,
    "Data": {
        "DataId": "voice20240307***",
        "LiveId": "liveId1****",
        "RiskLevel": "high",
        "SliceDetails": [
            {
                "EndTime": 4065,
                "Labels": "political_content,xxxx",
                "RiskLevel": "high",
                "RiskTips": "contraband_ProhibitedGoods",
                "RiskWords": "Risk Word A",
                "StartTime": 0,
                "Text": "Content Moderation product test case",
                "Url": "https://aliyundoc.com"
            }
        ]
    },
    "Message": "OK",
    "RequestId": "AAAAAA-BBBB-CCCCC-DDDD-EEEEEEEE****"
}

コールバックメッセージのフォーマット

コールバックメッセージデータは、以下に示すように JSON 形式です。

フィールド名	フィールドタイプ	説明
checksum	String	チェックサム。 `user uid + seed + content` を連結し、SHA256 アルゴリズムを適用して生成された文字列。ユーザー UID は Alibaba Cloud アカウント ID であり、Alibaba Cloud 管理コンソールで確認できます。改ざん防止のために、プッシュされた結果を受信したときに同じアルゴリズムを使用して文字列を生成し、チェックサムと照合して検証できます。説明ユーザー UID は、RAM ユーザーの UID ではなく、Alibaba Cloud アカウントの UID である必要があります。
taskId	String	コールバックメッセージのタスク ID。
content	String	シリアル化された検出結果。これは JSON 文字列です。 JSON オブジェクトに解析します。コンテンツ結果のフォーマットは、タスク結果をクエリするための応答と同じです。詳細については、「戻り値パラメーター」をご参照ください。

コードの説明

以下は、操作によって返されるコードの説明です。料金は、コード 200 を返すリクエストに対してのみ発生します。

コード	説明
200	リクエストは成功しました。
280	検証中。
400	リクエストパラメーターが空です。
401	リクエストパラメーターが無効です。
402	リクエストパラメーターの長さが要件を満たしていません。パラメーターを確認して変更してください。
403	リクエストが QPS 制限を超えています。 QPS 制限を確認して調整してください。
404	指定されたファイルのダウンロード中にエラーが発生しました。ファイルを確認するか、リトライしてください。
405	指定されたファイルのダウンロードがタイムアウトしました。ファイルにアクセスできない可能性があります。ファイルを確認してリトライしてください。
406	指定されたファイルがサイズ制限を超えています。ファイルを確認してリトライしてください。
407	指定されたファイルのフォーマットはサポートされていません。ファイルを確認してリトライしてください。
408	アカウントには、この操作を呼び出す権限がありません。アカウントでサービスがアクティブ化されていない、支払いが遅延している、またはサービスへのアクセスが承認されていない可能性があります。
480	同時ストリームの数が制限を超えています。同時実行数を確認して調整してください。
500	システムエラーが発生しました。