すべてのプロダクト
Search
ドキュメントセンター

Content Moderation:同期イメージ OCR タスクの送信

最終更新日:Jan 08, 2025

光学式文字認識 (OCR) タスクを送信し、リアルタイムで OCR 結果を取得します。このオペレーションを呼び出して、画像内のテキストを検出して取得するための OCR タスクを送信できます。

説明

オペレーション: /green/image/scan

このオペレーションを呼び出して、OCR タスクを送信し、リアルタイムで OCR 結果を取得できます。 HTTP リクエストを作成する方法の詳細については、「リクエスト構造」をご参照ください。また、既存の HTTP リクエストを選択することもできます。詳細については、「SDK の概要」をご参照ください。

  • 課金方法:

    このオペレーションの呼び出しには料金が発生します。課金方法の詳細については、 をご参照ください。

  • レスポンスタイムアウト:

    同期モデレーションリクエストで許可される最大応答時間は 6 秒です。6 秒以内にモデレーションが完了しない場合は、タイムアウトエラーが返されます。モデレーション結果をリアルタイムで必要としない場合は、非同期モデレーションリクエストを送信できます。ほとんどの場合、同期モデレーションオペレーションの方が呼び出しやすいため、同期モデレーションリクエストを送信することをお勧めします。同期モデレーションオペレーションの呼び出しには、タイムアウト期間を 6 秒に設定することをお勧めします。

  • 返される結果:

    通常、モデレーション結果は、同期モデレーションリクエストを送信してから 1 秒以内に返されます。システムで処理されるリクエストの数が多い場合、画像のサイズが大きい場合、または画像に多数の単語が含まれている場合は、時間が長くなることがあります。OCR の速度は、画像内の単語数に反比例します。モデレーション対象の画像に多数の単語が含まれている場合は、非同期モデレーションリクエストを送信することをお勧めします。

  • 画像の制限:

    • 画像の URL は、HTTP または HTTPS URL である必要があります。

    • 画像は PNG、JPG、JPEG、BMP、GIF、または WEBP 形式である必要があります。

    • 画像のサイズは最大 20 MB です。画像サイズの制限は、同期モデレーションオペレーションと非同期モデレーションオペレーションの両方に適用されます。

    • 画像のダウンロード時間は 3 秒に制限されています。3 秒以内に画像をダウンロードできない場合は、タイムアウトエラーが返されます。

    • モデレーション効果を確保するために、少なくとも 256 × 256 ピクセルの画像を送信することをお勧めします。

    • 画像をモデレーションするオペレーションの応答時間は、これらの画像のダウンロード時間によって異なります。モデレーション対象の画像を保存するには、安定していて信頼性の高いストレージサービスを使用してください。オブジェクトストレージサービス (OSS) またはコンテンツデリバリーネットワーク (CDN) を使用することをお勧めします。

QPS 制限

このオペレーションは、アカウントごとに 1 秒あたり最大 10 回呼び出すことができます。1 秒あたりの呼び出し数が制限を超えると、スロットリングがトリガーされます。その結果、ビジネスに影響が出る可能性があります。このオペレーションを呼び出すときは、制限に注意することをお勧めします。

リクエストパラメーター

パラメーター

タイプ

必須

説明

bizType

String

いいえ

default

ビジネスシナリオ。 ビジネスシナリオを作成できます。

Content Moderation コンソール。詳細については、「機械支援モデレーションのポリシーのカスタマイズ」をご参照ください。

scenes

StringArray

はい

["ocr"]

モデレーションシナリオ。値を ocr に設定します。

tasks

JSONArray

はい

モデレーション対象のオブジェクトのリスト。JSON 配列には、1 つ以上の要素を含めることができます。各要素は構造体です。JSON 配列には最大 100 個の要素を含めることができます。つまり、一度に最大 100 個のモデレーションオブジェクトを送信できます。一度に 100 個のモデレーションオブジェクトを送信するには、関連する同時実行制限を 100 より大きい数に上げる必要があります。構造体の詳細については、「task」をご参照ください。

表 1. task

パラメーター

タイプ

必須

説明

dataId

String

いいえ

test_data_xxxx

データ ID。各 ID がリクエスト内で一意であることを確認してください。

url

String

はい

https://aliyundoc.com/test_image_xxxx.png

インターネット経由でアクセスできる HTTP または HTTPS URL。URL の長さは最大 2,048 文字です。

間隔

整数

いいえ

2

連続してキャプチャされる 2 つのフレームの間隔です。このパラメーターは、GIF または長い画像のモデレーション専用です。

  • GIF 画像はフレームの配列と見なすことができます。間隔 パラメーターで指定された n 個のフレームごとに、1 つのフレームがモデレーションのためにキャプチャされます。システムは、このパラメーターが指定されている場合にのみ、GIF 画像からフレームをキャプチャします。

  • 長い画像は、縦向きモードまたは横向きモードにすることができます。

    • 長い縦向きの画像をモデレートするには、次の方法でフレームの総数を計算できます。高さを幅で割り、結果を最も近い整数に丸めます。長い縦向きの画像では、高さは 400 ピクセルより大きく、高さの幅に対する比率は 2.5:1 より大きくなります。

    • 長い横向きの画像をモデレートするには、次の方法でフレームの総数を計算できます。幅を高さと割り、結果を最も近い整数に丸めます。長い横向きの画像では、幅は 400 ピクセルより大きく、幅の高さに対する比率は 2.5:1 より大きくなります。

デフォルトでは、GIF 画像または長い画像の最初のフレームのみがモデレートされます。間隔 パラメーターを使用して、システムが連続してキャプチャする 2 つのフレームの間隔を指定できます。これは、モデレーションコストを削減するのに役立ちます。

説明

間隔 パラメーターと maxFrames パラメーターはペアで使用してください。たとえば、GIF 画像または長い画像をモデレートするために、間隔 パラメーターを 2 に設定し、maxFrames パラメーターを 100 に設定します。この例では、2 つのフレームごとに 1 つがモデレートされ、最大 100 フレームがモデレートされます。料金は、モデレートされたフレームの実際の数に基づいて計算されます。

maxFrames

整数

いいえ

100

キャプチャするフレームの最大数。このパラメーターは、GIFまたは長い画像のモデレーション専用です。デフォルト値: 1

interval パラメーターの値に maxFrames パラメーターの値を掛けた値が、GIF画像または長い画像の合計フレーム数よりも小さい場合、フレームをキャプチャする間隔は、画像の合計フレーム数を maxFrames パラメーターの値で除算した結果から切り上げた整数に自動的に変更されます。これは、全体的なモデレーション効果の向上に役立ちます。

レスポンスパラメーター

パラメーター

タイプ

説明

code

Integer

200

返された HTTP ステータスコード。

msg

String

OK

リクエストに対して返されるメッセージ。

dataId

String

test_data_xxxx

モデレーションオブジェクトの ID。

説明

モデレーションリクエストで dataId パラメーターを設定した場合、dataId リクエストパラメーターの値がここに返されます。

taskId

String

img5A@k7a@B4q@6K@d9nfKgOs-1s****

モデレーションタスクの ID。

url

String

https://aliyundoc.com/test_image_xxxx.png

インターネット経由でアクセスできる HTTP または HTTPS URL。 URL の長さは最大 2,048 文字です。

results

Array

返された結果。HTTP ステータスコード 200 が返された場合、返された結果の配列には 1 つ以上の要素が含まれます。各要素は構造体です。各要素の構造体の詳細については、「result」をご参照ください。

表 2. result

パラメーター

タイプ

説明

scene

String

ocr

モデレーションシナリオ。値を ocr に設定します。

label

String

ocr

モデレーション結果のカテゴリ。有効な値:

  • normal:画像にテキストが含まれていません。

  • ocr:画像にテキストが含まれています。

suggestion

String

review

推奨される後続の操作。有効な値:

  • pass:画像はそれ以上の操作を必要としません。

  • review:画像は手動によるレビューが必要です。

rate

Float

99.91

モデレーションされた画像が検出されたカテゴリに該当する確率。OCR シナリオでは、このパラメーターは無視できます。

ocrLocations

Array

モデレーションされた静止画像内の単一のテキストエントリに関する情報。テキスト、テキストサイズ、テキストの位置が含まれます。構造体の詳細については、「ocrLocation」をご参照ください。

説明

モデレーションされた画像でテキストが検出されない場合、このパラメーターは返されません。

ocrData

Array

["hello, this is a test text."]

モデレーションされた静止画像内のすべてのテキストの組み合わせ。一般的に、テキストの組み合わせは配列の最初の要素として格納されます。

説明

モデレーションされた画像でテキストが検出されない場合、このパラメーターは返されません。

frames

Array

xxx

モデレーションされたアニメーション画像からキャプチャされたフレームと、各フレームで検出されたテキスト。

説明

キャプチャされたフレームが 1 つ以下の場合、このパラメーターは返されません。

表 1. ocrLocation
パラメータータイプ説明
textStringhelloモデレーションされた画像で検出された単一のテキストエントリ。
xFloat41テキスト領域の左上隅と Y 軸の間の距離。画像の左上隅が座標の原点です。単位:ピクセル。
yFloat84テキスト領域の左上隅と X 軸の間の距離。画像の左上隅が座標の原点です。単位:ピクセル。
wFloat83テキスト領域の幅。単位:ピクセル。
hFloat26テキスト領域の高さ。単位:ピクセル。

表 3. ocrDetailInfo

表 4. wordsInfo

サンプルリクエスト

http(s)://[Endpoint]/green/image/scan
&<共通リクエストパラメーター>
{
    "scenes": [
        "ocr"
    ],
    "tasks": [
        {
            "dataId": "test_data_xxxx",
            "url": "https://aliyundoc.com/test_image_xxxx.png"
        }
    ]
}

正常応答の例

{
    "code": 200,
    "data": [
        {
            "code": 200,
            "dataId": "test_data_xxxx",
            "extras": {

            },
            "msg": "OK",
            "results": [
                {
                    "label": "ocr",
                    "ocrData": [
                        "hello, this is a test text."
                    ],
                    "ocrLocations": [
                        {
                            "h": 26,
                            "text": "hello",
                            "w": 83,
                            "x": 41,
                            "y": 84
                        },
                        {
                            "h": 25,
                            "text": " this is a test text.",
                            "w": 95,
                            "x": 78,
                            "y": 114
                        }
                    ],
                    "rate": 99.91,
                    "scene": "ocr",
                    "suggestion": "review"
                }
            ],
            "taskId": "img5A@k7a@B4q@6K@d9nfKgOs-1s****",
            "url": "https://aliyundoc.com/test_image_xxxx.png"
        }
    ],
    "msg": "OK",
    "requestId": "C4AB08A9-AD75-4410-859B-0B9EF6DFC3C4"
}