カスタムテキストライブラリの管理 - Content Moderation - Alibaba Cloud ドキュメントセンター

コンテンツモデレーションは、カスタムテキストライブラリをサポートしています。カスタムテキストライブラリを使用すると、モデレーション結果が特定のビジネス要件を満たしていることを確認できます。カスタムテキストライブラリは、画像内のテキスト違反検出、広告違反検出、テキストのスパム対策、ファイルのスパム対策、音声のスパム対策に使用できます。特定の管理要件を満たすために、異なるカスタムテキストライブラリでブロック、通過、またはレビューするテキストを指定できます。

背景情報

重要

このトピックの手順に従って、カスタムテキストライブラリを使用することをお勧めします。これにより、モデレーション結果の精度に影響を与える不適切な用語を追加することを防ぎます。

カスタムテキストライブラリには、フィードバックベースのテキストライブラリと自己管理型テキストライブラリが含まれます。

フィードバックベースのテキストライブラリは、レビュー対象のテキストに対応するために自動的に作成されます。デフォルトでは、フィードバックベースのテキストライブラリを使用して、同じタイプのすべてのモデレーションシナリオでテキストをモデレートできます。フィードバックベースのテキストライブラリ内のテキストを管理できます。ただし、フィードバックベースのテキストライブラリに対して操作を実行することはできません。たとえば、フィードバックベースのテキストライブラリを無効化または削除することはできません。人間のレビューの詳細については、「機械学習によるモデレーション結果のレビュー」をご参照ください。
自己管理型テキストライブラリは、特定のモデレーションシナリオまたは特定のタイプのモデレーションシナリオでテキストをモデレートするために作成するライブラリです。自己管理型テキストライブラリ内のテキストを管理し、自己管理型テキストライブラリに対して操作を実行できます。

説明

最大 10 個の自己管理型テキストライブラリを作成できます。

このトピックでは、コンテンツモデレーションコンソールでコンテンツモデレーション API のカスタムテキストライブラリを管理する方法について説明します。 API オペレーションを呼び出したり、コンテンツモデレーション SDK を使用したりして、カスタムテキストライブラリを管理することもできます。詳細については、以下のトピックをご参照ください。

テキストの種類

カスタムテキストライブラリには、用語とテキストパターンを追加できます。

用語
用語は、テキスト内の単語をモデレートするために設計されています。文またはテキストの一部に特定の用語が含まれている場合、その用語はヒットします。さまざまなビジネスシナリオに合わせて異なる用語を追加できます。
コンテンツモデレーションでは、用語ベースのモデレーションを画像内のテキスト違反検出とテキストのスパム対策に適用できます。関連パラメータの詳細については、さまざまなシナリオのモデレーション操作のパラメータの説明をご参照ください。これら 2 つのシナリオの関連パラメータは若干異なる場合があります。
中国語の用語には、AND（&）および NOT（〜）論理演算子を追加できます。例：
- 用語「A&B」が追加されています。テキストの一部に A と B の両方が含まれている場合、その用語はヒットします。
- 用語「A~B」が追加されています。テキストの一部に A が含まれていて B が含まれていない場合、その用語はヒットします。
説明
1 つの用語に両方の論理演算子を追加する場合、AND（&）演算子を NOT（〜）演算子の前に追加する必要があります。たとえば、「A&B~C」を用語として追加できますが、「A~C&B」を用語として追加することはできません。
テキストパターン
テキストパターンは、文またはテキストの一部間の類似性を比較するために設計されています。2 つの文または 2 つのテキストの一部が部分的に異なっていても同じ意味を表す場合、2 つの文または 2 つのテキストの一部は非常に類似しています。コンテンツモデレーションでは、テキストの一部がテキストパターンライブラリ内のテキストパターンと非常に類似しているかどうかを判断できます。類似度が特定の程度に達すると、テキストパターンはヒットします。
テキストパターンライブラリは、テキストのスパム対策に適用できます。コンテンツモデレーションでは、ビジネス要件に基づいて、テキストパターンライブラリのブラックリスト、ホワイトリスト、およびレビューリストをカスタマイズできます。レビューリストには、人間のレビューが必要なテキストが含まれています。テキストパターンライブラリでビジネスに関連するテキストパターンを管理できます。この場合、テキストパターンにヒットするコンテンツは、テキストのスパム対策で除外できます。

制限

種類	項目	制限
自己管理型テキストライブラリ	数量	最大 10 個の自己管理型テキストライブラリをサポートします。
自己管理型テキストライブラリ	名前の長さ	ライブラリ名ごとに最大 20 文字の長さをサポートします。
用語	用語の種類	中国語の用語がサポートされています。文字と数字を用語として使用できます。説明文字と数字の各組み合わせは、ワードブレーク中に単語と見なされます。英単語やフレーズを用語として使用することはできません。
用語	テキストライブラリ内の用語の数	テキストライブラリあたり最大 10,000 語をサポートします。
用語	用語の長さ	用語ごとに最大 50 文字の長さをサポートします（論理演算子を含む）。
用語	中国語の用語のエンコーディング	UTF-8。
用語	用語の形式	全角および半角形式の次の特殊文字はサポートされていません。アットマーク（@）、番号記号（#）、ドル記号（$）、パーセント記号（%）、キャレット（^）、アスタリスク（*）、括弧（()）、山括弧（<>）、スラッシュ（/）、疑問符（?）、コンマ（,）、ピリオド（.）、セミコロン（;）、アンダースコア（_）、プラス記号（+）、ハイフン（-）、等号（=）、一重引用符（'）、二重引用符（"）、スペース、タブ。
テキストパターン	テキストパターンの長さ	テキストパターンごとに 20 ～ 4,000 文字の長さをサポートします。説明テキストライブラリに追加されたテキストが長すぎる場合、無効な一致が発生する可能性があります。各テキストパターンの長さを最大 200 文字に設定することをお勧めします。
テキストパターン	テキストライブラリ内のテキストパターンの数	テキストライブラリあたり最大 10,000 個のテキストパターンをサポートします。
テキストパターン	エンコーディング	UTF-8。
テキストパターン	テキストコンテンツ	抽出できる明確な中国語のセマンティック特性が必要です。テキストパターンから識別できるセマンティック特性が少ない場合、このテキストパターンは無視されます。説明無意味な文字、数字、絵文字で構成されるテキストパターンは無視される場合があります。

手順

コンテンツモデレーションコンソールにログインします。
左側のナビゲーションペインで、[機械監査 V1.0] > [リスクライブラリ] を選択します。
[テキストライブラリの作成] をクリックします。

[カスタムテキストライブラリの作成] ダイアログボックスで、カスタムテキストライブラリを作成するためのパラメータテーブルに基づいてパラメータを設定します。次に、[OK] をクリックします。

表 1. カスタムテキストライブラリを作成するためのパラメータ

パラメータ	説明
名前	カスタムテキストライブラリの名前。複数のテキストライブラリに同じ名前を設定できます。ただし、各テキストライブラリに一意の名前を設定することをお勧めします。
シーン	テキストライブラリが適用されるシナリオ。有効な値：テキストのスパム対策: API リクエストで scene パラメータの値に antispam が含まれるテキストのスパム対策広告: API リクエストで scene パラメータの値に ad が含まれる画像モデレーション
種類	テキストライブラリのテキストの種類。有効な値：キーワード: 用語を含むモデレート対象のテキストと一致します。用語を使用することで、より多くの危険なテキストを検出できます。類似テキスト: 特定の確率でテキストパターンと類似しているモデレート対象のテキストと一致します。テキストパターンを使用することで、危険なテキストをより正確に検出できます。説明シーンパラメータがテキストのスパム対策に設定されている場合にのみ、このパラメータを類似テキストに設定できます。
一致モード	カスタムテキストライブラリに適用される一致モード。種類パラメータがキーワードに設定されている場合、このパラメータは必須です。有効な値：正確: テキストライブラリ内の同じ用語を含むモデレート対象のテキストと一致します。テキストの前処理後にチェック: 用語とモデレート対象のテキストを前処理してから、前処理された用語にヒットする前処理されたモデレート対象のテキストと一致します。用語とモデレート対象のテキストは、次の方法で前処理されます。大文字を小文字に変換します。たとえば、モデレート対象のテキストが「bitCoin」の場合、用語「bitcoin」はヒットします。繁体字を簡体字に変換します。類似語を変換します。説明デフォルトでは、テキストパターンで構成されるライブラリには、テキストの前処理後にチェックモードが選択されています。
リストカテゴリ	カスタムテキストライブラリに基づいて返されるモデレーション結果のカテゴリ。種類パラメータがキーワードに設定されている場合、リストカテゴリパラメータの有効な値は次のとおりです。ブロックリスト: モデレート対象のテキストがテキストライブラリ内の用語にヒットした場合、機械学習によるモデレーション結果には、値が block の suggestion パラメータが含まれます。レビューリスト: モデレート対象のテキストがテキストライブラリ内の用語にヒットした場合、機械学習によるモデレーション結果には、値が review の suggestion パラメータが含まれます。フィルタリスト: テキストライブラリ内の用語にヒットするテキストを除くテキストがモデレートされます。種類パラメータが類似テキストに設定されている場合、リストカテゴリパラメータの有効な値は次のとおりです。ブロックリスト: モデレート対象のテキストがテキストライブラリ内のテキストパターンにヒットした場合、機械学習によるモデレーション結果には、値が block の suggestion パラメータが含まれます。レビューリスト: モデレート対象のテキストがテキストライブラリ内のテキストパターンにヒットした場合、機械学習によるモデレーション結果には、値が review の suggestion パラメータが含まれます。信頼リスト: モデレート対象のテキストがテキストライブラリ内のテキストパターンにヒットした場合、機械学習によるモデレーション結果には、値が pass の suggestion パラメータが含まれます。
bizType	カスタムテキストライブラリが適用されるビジネスシナリオ。ビジネス要件に合わせて、API リクエストで異なるテキストライブラリを指定できます。たとえば、bizType パラメータを使用して、特定のモデレーションシナリオで適用されるテキストライブラリを指定できます。 bizType パラメータは次の方法で有効になります。モデレーションリクエストの bizType パラメータが A に設定されている場合、bizType パラメータが A に設定されているテキストライブラリがモデレーションに使用されます。これらのテキストライブラリは、有効になっている場合にのみ使用できます。その他の場合、有効になっているすべてのテキストライブラリがモデレーションに使用されます。

テキストライブラリが作成された後、テキストライブラリリストで表示できます。

テキストライブラリ内の用語またはテキストパターンを管理します。
[カスタムテキストライブラリ] タブには、すべてのカスタムテキストライブラリが表示されます。[システム] とマークされ、SCENARIO_FEEDBACK_WHITE または SCENARIO_FEEDBACK_BLACK 形式で名前が付けられているライブラリは、フィードバックベースのテキストライブラリです。たとえば、[ANTISPAM_FEEDBACK_BLACK] ライブラリは、システムによって追加されたテキストパターンで構成されるブラックリストであり、テキストのスパム対策に使用されます。
1. 管理する用語ライブラリを見つけ、[アクション] 列の [管理] をクリックします。
2. [テキストライブラリ] ページで、ライブラリ内の用語を管理します。
  [テキストライブラリ] ページには、ライブラリに追加されたすべての用語と、[過去 7 日間に検出された数] 列に各用語が過去 7 日間にヒットした回数が表示されます（現在の日の統計は除く）。
  説明
  用語を追加および削除できます。操作は約 15 分以内に有効になります。
  - [キーワードの追加] または [インポート] をクリックし、プロンプトに従って用語を追加します。
  - 不要になった用語を 1 つ以上選択し、[一括削除] をクリックして用語を削除します。特定の用語を見つけて、[アクション] 列の [削除] をクリックして用語を削除することもできます。

テキストライブラリの削除、変更、または無効化

[カスタムテキストライブラリ] タブで、[アクション] 列の [削除]、[編集]、または [無効化] をクリックして、自己管理型テキストライブラリを削除、変更、または無効化できます。