光学式文字認識 (OCR) タスクを送信し、リアルタイムで OCR 結果を取得します。このオペレーションを呼び出して、画像内のテキストを検出して取得するための OCR タスクを送信できます。
説明
オペレーション: /green/image/scan
このオペレーションを呼び出して、OCR タスクを送信し、リアルタイムで OCR 結果を取得できます。 HTTP リクエストを作成する方法の詳細については、「リクエスト構造」をご参照ください。また、既存の HTTP リクエストを選択することもできます。詳細については、「SDK の概要」をご参照ください。
課金方法:
このオペレーションの呼び出しには料金が発生します。課金方法の詳細については、 をご参照ください。
レスポンスタイムアウト:
同期モデレーションリクエストで許可される最大応答時間は 6 秒です。6 秒以内にモデレーションが完了しない場合は、タイムアウトエラーが返されます。モデレーション結果をリアルタイムで必要としない場合は、非同期モデレーションリクエストを送信できます。ほとんどの場合、同期モデレーションオペレーションの方が呼び出しやすいため、同期モデレーションリクエストを送信することをお勧めします。同期モデレーションオペレーションの呼び出しには、タイムアウト期間を 6 秒に設定することをお勧めします。
返される結果:
通常、モデレーション結果は、同期モデレーションリクエストを送信してから 1 秒以内に返されます。システムで処理されるリクエストの数が多い場合、画像のサイズが大きい場合、または画像に多数の単語が含まれている場合は、時間が長くなることがあります。OCR の速度は、画像内の単語数に反比例します。モデレーション対象の画像に多数の単語が含まれている場合は、非同期モデレーションリクエストを送信することをお勧めします。
画像の制限:
画像の URL は、HTTP または HTTPS URL である必要があります。
画像は PNG、JPG、JPEG、BMP、GIF、または WEBP 形式である必要があります。
画像のサイズは最大 20 MB です。画像サイズの制限は、同期モデレーションオペレーションと非同期モデレーションオペレーションの両方に適用されます。
画像のダウンロード時間は 3 秒に制限されています。3 秒以内に画像をダウンロードできない場合は、タイムアウトエラーが返されます。
モデレーション効果を確保するために、少なくとも 256 × 256 ピクセルの画像を送信することをお勧めします。
画像をモデレーションするオペレーションの応答時間は、これらの画像のダウンロード時間によって異なります。モデレーション対象の画像を保存するには、安定していて信頼性の高いストレージサービスを使用してください。オブジェクトストレージサービス (OSS) またはコンテンツデリバリーネットワーク (CDN) を使用することをお勧めします。
QPS 制限
このオペレーションは、アカウントごとに 1 秒あたり最大 10 回呼び出すことができます。1 秒あたりの呼び出し数が制限を超えると、スロットリングがトリガーされます。その結果、ビジネスに影響が出る可能性があります。このオペレーションを呼び出すときは、制限に注意することをお勧めします。
リクエストパラメーター
パラメーター | タイプ | 必須 | 例 | 説明 |
bizType | String | いいえ | default | ビジネスシナリオ。 ビジネスシナリオを作成できます。 Content Moderation コンソール。詳細については、「機械支援モデレーションのポリシーのカスタマイズ」をご参照ください。 |
scenes | StringArray | はい | ["ocr"] | モデレーションシナリオ。値を ocr に設定します。 |
tasks | JSONArray | はい | モデレーション対象のオブジェクトのリスト。JSON 配列には、1 つ以上の要素を含めることができます。各要素は構造体です。JSON 配列には最大 100 個の要素を含めることができます。つまり、一度に最大 100 個のモデレーションオブジェクトを送信できます。一度に 100 個のモデレーションオブジェクトを送信するには、関連する同時実行制限を 100 より大きい数に上げる必要があります。構造体の詳細については、「task」をご参照ください。 |
表 1. task
パラメーター | タイプ | 必須 | 例 | 説明 |
dataId | String | いいえ | test_data_xxxx | データ ID。各 ID がリクエスト内で一意であることを確認してください。 |
url | String | はい | https://aliyundoc.com/test_image_xxxx.png | インターネット経由でアクセスできる HTTP または HTTPS URL。URL の長さは最大 2,048 文字です。 |
間隔 | 整数 | いいえ | 2 | 連続してキャプチャされる 2 つのフレームの間隔です。このパラメーターは、GIF または長い画像のモデレーション専用です。
デフォルトでは、GIF 画像または長い画像の最初のフレームのみがモデレートされます。間隔 パラメーターを使用して、システムが連続してキャプチャする 2 つのフレームの間隔を指定できます。これは、モデレーションコストを削減するのに役立ちます。 説明 間隔 パラメーターと maxFrames パラメーターはペアで使用してください。たとえば、GIF 画像または長い画像をモデレートするために、間隔 パラメーターを 2 に設定し、maxFrames パラメーターを 100 に設定します。この例では、2 つのフレームごとに 1 つがモデレートされ、最大 100 フレームがモデレートされます。料金は、モデレートされたフレームの実際の数に基づいて計算されます。 |
maxFrames | 整数 | いいえ | 100 | キャプチャするフレームの最大数。このパラメーターは、GIFまたは長い画像のモデレーション専用です。デフォルト値: 1。 interval パラメーターの値に |
レスポンスパラメーター
パラメーター | タイプ | 例 | 説明 |
code | Integer | 200 | 返された HTTP ステータスコード。 |
msg | String | OK | リクエストに対して返されるメッセージ。 |
dataId | String | test_data_xxxx | モデレーションオブジェクトの ID。 説明 モデレーションリクエストで dataId パラメーターを設定した場合、dataId リクエストパラメーターの値がここに返されます。 |
taskId | String | img5A@k7a@B4q@6K@d9nfKgOs-1s**** | モデレーションタスクの ID。 |
url | String | https://aliyundoc.com/test_image_xxxx.png | インターネット経由でアクセスできる HTTP または HTTPS URL。 URL の長さは最大 2,048 文字です。 |
results | Array | 返された結果。HTTP ステータスコード 200 が返された場合、返された結果の配列には 1 つ以上の要素が含まれます。各要素は構造体です。各要素の構造体の詳細については、「result」をご参照ください。 |
表 2. result
パラメーター | タイプ | 例 | 説明 |
scene | String | ocr | モデレーションシナリオ。値を ocr に設定します。 |
label | String | ocr | モデレーション結果のカテゴリ。有効な値:
|
suggestion | String | review | 推奨される後続の操作。有効な値:
|
rate | Float | 99.91 | モデレーションされた画像が検出されたカテゴリに該当する確率。OCR シナリオでは、このパラメーターは無視できます。 |
ocrLocations | Array | モデレーションされた静止画像内の単一のテキストエントリに関する情報。テキスト、テキストサイズ、テキストの位置が含まれます。構造体の詳細については、「ocrLocation」をご参照ください。 説明 モデレーションされた画像でテキストが検出されない場合、このパラメーターは返されません。 | |
ocrData | Array | ["hello, this is a test text."] | モデレーションされた静止画像内のすべてのテキストの組み合わせ。一般的に、テキストの組み合わせは配列の最初の要素として格納されます。 説明 モデレーションされた画像でテキストが検出されない場合、このパラメーターは返されません。 |
frames | Array | xxx | モデレーションされたアニメーション画像からキャプチャされたフレームと、各フレームで検出されたテキスト。 説明 キャプチャされたフレームが 1 つ以下の場合、このパラメーターは返されません。 |
| パラメーター | タイプ | 例 | 説明 |
| text | String | hello | モデレーションされた画像で検出された単一のテキストエントリ。 |
| x | Float | 41 | テキスト領域の左上隅と Y 軸の間の距離。画像の左上隅が座標の原点です。単位:ピクセル。 |
| y | Float | 84 | テキスト領域の左上隅と X 軸の間の距離。画像の左上隅が座標の原点です。単位:ピクセル。 |
| w | Float | 83 | テキスト領域の幅。単位:ピクセル。 |
| h | Float | 26 | テキスト領域の高さ。単位:ピクセル。 |
表 3. ocrDetailInfo
表 4. wordsInfo
例
サンプルリクエスト
http(s)://[Endpoint]/green/image/scan
&<共通リクエストパラメーター>
{
"scenes": [
"ocr"
],
"tasks": [
{
"dataId": "test_data_xxxx",
"url": "https://aliyundoc.com/test_image_xxxx.png"
}
]
}正常応答の例
{
"code": 200,
"data": [
{
"code": 200,
"dataId": "test_data_xxxx",
"extras": {
},
"msg": "OK",
"results": [
{
"label": "ocr",
"ocrData": [
"hello, this is a test text."
],
"ocrLocations": [
{
"h": 26,
"text": "hello",
"w": 83,
"x": 41,
"y": 84
},
{
"h": 25,
"text": " this is a test text.",
"w": 95,
"x": 78,
"y": 114
}
],
"rate": 99.91,
"scene": "ocr",
"suggestion": "review"
}
],
"taskId": "img5A@k7a@B4q@6K@d9nfKgOs-1s****",
"url": "https://aliyundoc.com/test_image_xxxx.png"
}
],
"msg": "OK",
"requestId": "C4AB08A9-AD75-4410-859B-0B9EF6DFC3C4"
}