PAI TFRecord 用ラベル付きデータセット形式要件 - PAI - Alibaba Cloud - Platform For AI

ラベル付けされたデータセットを TFRecord ファイルに変換する前に、Machine Learning Platform for AI (PAI) から CSV ファイルとしてエクスポートします。CSV ファイルの各行は、3 つのフィールドを持つラベル付けされたエントリを 1 つ表します。

フィールド	データ型	説明
エントリ ID	INT	エントリの一意の ID。
生データ	JSON	ソースイメージの URL。
ラベル付け結果	JSON	ラベル付け結果。フォーマットはタスクタイプによって異なります。

このトピックでは、サポートされている各タスクタイプのラベル付け結果フォーマットについて説明します。

シングルラベル画像分類
マルチラベル画像分類
オブジェクト検出
画像セグメンテーション
テキスト認識
テキスト検出
エンドツーエンドテキスト認識

シングルラベル画像分類

各エントリは、イメージに 1 つのラベルを割り当てます。

CSV 行フォーマット：

1,{"url":"http://a.jpg"},"{"option":"Passport"}
2,{"url":"http://b.jpg"},"{"option":"Passport"}

ラベル付け結果スキーマ：

{
    "option": "Passport"
}

フィールド	タイプ	説明
`option`	文字列	イメージに割り当てられたラベル。

マルチラベル画像分類

各エントリは、イメージに 1 つ以上のラベルを割り当てます。

CSV 行フォーマット：

1,{"url":"http://a.jpg"},{["option":"Passport", "option":"ID card"]}
2,{"url":"http://b.jpg"},{["option":"Passport", "option":"Exit-Entry Permit for Traveling to and from Hong Kong and Macau"]}

ラベル付け結果スキーマ：

{
    "option": ["Passport", "ID card"]
}

フィールド	タイプ	説明
`option`	文字列の配列	イメージに割り当てられたラベル。

オブジェクト検出

各エントリには、検出されたオブジェクトのリストが含まれます。各オブジェクトには、カテゴリラベルとバウンディングボックスがあります。

CSV 行フォーマット：

1,{"url": "http://b.jpg"},[{"text": "{\"class*\": \"Category 1\"}", "coord": ["306.73", "517.59", "324.42", "282.07", "347.69", "282.07", "333.73", "519.45"]}, {"text": "{\"class*\": \"Category 2\"}", "coord": ["342.11", "723.32", "349.56", "608.81", "366.31", "606.95", "360.73", "730.76"]}]
2,{"url": "http://a.jpg"},[{"text": "{\"class*\": \"Category 1\"}", "coord": ["338.35", "8.53", "700.16", "8.53", "700.16", "50.35", "338.35", "50.35"]}, {"text": "{\"class*\": \"Category 2\"}", "coord": ["26.88", "64.00", "218.03", "64.00", "218.03", "99.84", "26.88", "99.84"]}]

ラベル付け結果スキーマ：

ラベル付け結果は配列です。各要素は、検出されたオブジェクトを 1 つ表します。

[
    {
        "text": "{\"class*\": \"Category 1\"}",
        "coord": [
            "338.35",
            "8.53",
            "700.16",
            "8.53",
            "700.16",
            "50.35",
            "338.35",
            "50.35"
        ]
    },
    {
        "text": "{\"class*\": \"Category 2\"}",
        "coord": [
            "26.88",
            "64.00",
            "218.03",
            "64.00",
            "218.03",
            "99.84",
            "26.88",
            "99.84"
        ]
    }
]

フィールド	タイプ	説明
`text`	文字列	オブジェクトのカテゴリを含む JSON エンコードされた文字列です。以下の `text` フィールドのスキーマを参照してください。
`coord`	文字列の配列	`[x1, y1, x2, y2, x3, y3, x4, y4]`バウンディングボックスポリゴンを定義する 8 つの座標値：。

text フィールドスキーマ：

text フィールドは、以下の構造を持つシリアル化された JSON オブジェクトです：

{"class*": "Category 1"}

フィールド	タイプ	説明
`class*`	文字列	検出されたオブジェクトのカテゴリ。

画像セグメンテーション

各エントリは、ラベル付けされたセグメンテーションから生成されたマスクイメージを参照します。

サンプル CSV ファイルをダウンロード。

CSV 行フォーマット：

1,{"http://a.jpg"},{"ossUrl":"http://ossgw.alicdn.com/a.png"}

ラベル付け結果スキーマ：

{
    "ossUrl": "http://ossgw.alicdn.com/a.png"
}

フィールド	タイプ	説明
`ossUrl`	文字列	エントリ用に生成されたマスクイメージの Object Storage Service (OSS) URL。マスクは PNG 形式です。

マスクチャンネルエンコーディング：

マスクは、そのカラーチャンネル全体にカテゴリ情報を格納します。イメージには、情報を格納するための赤、青、緑のチャンネルがあります。赤チャンネルは通常、カテゴリ情報を格納します。チャンネル ID は 0 から始まり、有効な値は 0 から 3 です。値 0 はバックグラウンドを示します。

テキスト認識

各エントリには、イメージから認識されたテキストが含まれます。

CSV 行フォーマット：

1,{"url": "http://b.jpg"},{"text": "Text 1"}
2,{"url": "http://a.jpg"},{"text": "Text 2"}

ラベル付け結果スキーマ：

{
    "text": "Text 1"
}

フィールド	タイプ	説明
`text`	文字列	認識されたテキストコンテンツ。

テキスト検出

各エントリには、検出されたテキスト行のリストが含まれます。各テキスト行には、その位置、方向、およびカテゴリが含まれます。エントリには、イメージ全体の方向も含まれます。

CSV 行フォーマット：

1,{"url": "http://b.jpg"},[[{"text": "{\"direction\": \"右下\", \"class*\": \"カテゴリ 1\"}", "coord": ["306.73", "517.59", "324.42", "282.07", "347.69", "282.07", "333.73", "519.45"]}, {"text": "{\"direction\": \"右下\", \"class*\": \"カテゴリ 2\"}", "coord": ["342.11", "723.32", "349.56", "608.81", "366.31", "606.95", "360.73", "730.76"]}], {"option": "右下"}]
2,{"url": "http://a.jpg"},[[{"text": "{\"direction\": \"下\", \"class*\": \"カテゴリ 1\"}", "coord": ["338.35", "8.53", "700.16", "8.53", "700.16", "50.35", "338.35", "50.35"]}, {"text": "{\"direction\": \"下\", \"class*\": \"カテゴリ 2\"}", "coord": ["26.88", "64.00", "218.03", "64.00", "218.03", "99.84", "26.88", "99.84"]}], {"option": "下"}]

ラベル付け結果スキーマ：

ラベル付け結果は 2 要素の配列です。テキスト行オブジェクトのリストと、それに続くイメージ方向オブジェクトで構成されます。

[
    [
        {
            "text": "{\"direction\": \"Bottom down\", \"class*\": \"Category 1\"}",
            "coord": [
                "338.35",
                "8.53",
                "700.16",
                "8.53",
                "700.16",
                "50.35",
                "338.35",
                "50.35"
            ]
        },
        {
            "text": "{\"direction\": \"Bottom down\", \"class*\": \"Category 2\"}",
            "coord": [
                "26.88",
                "64.00",
                "218.03",
                "64.00",
                "218.03",
                "99.84",
                "26.88",
                "99.84"
            ]
        }
    ],
    {
        "option": "Bottom down"
    }
]

テキスト行オブジェクトのフィールド：

フィールド	タイプ	説明
`text`	文字列	`text`テキスト行の方向とカテゴリを含む JSON エンコードされた文字列。以下のフィールドスキーマをご参照ください。
`coord`	文字列の配列	`[x1, y1, x2, y2, x3, y3, x4, y4]`バウンディングボックスポリゴンを定義する 8 つの座標値：。

text フィールドスキーマ：

{"direction": "Bottom down", "class*": "Category 1"}

フィールド	タイプ	説明
`direction`	文字列	テキスト行の方向。
`class*`	文字列	テキストのカテゴリ。

イメージ方向オブジェクト：

フィールド	タイプ	説明
`option`	文字列	イメージ全体の方向。イメージの下端が下向き、上向き、左向き、右向きのいずれであるかを指定します。

エンドツーエンドテキスト認識

エンドツーエンドテキスト認識は、テキスト検出とテキスト認識を組み合わせます。各エントリには、認識されたテキストコンテンツ、位置、方向、およびカテゴリを持つ検出されたテキスト行が含まれます。

CSV 行フォーマット：

1,{"url": "http://b.jpg"},[[{"text": "{\"text\": \"Text 1\", \"direction\": \"Bottom right\", \"class*\": \"Category 1\"}", "coord": ["306.73", "517.59", "324.42", "282.07", "347.69", "282.07", "333.73", "519.45"]}, {"text": "{\"text\": \"Text 2\", \"direction\": \"Bottom right\", \"class*\": \"Category 2\"}", "coord": ["342.11", "723.32", "349.56", "608.81", "366.31", "606.95", "360.73", "730.76"]}], {"option": "Bottom right"}]
2,{"url": "http://a.jpg"},[[{"text": "{\"text\": \"Text 3\", \"direction\": \"Bottom down\", \"class*\": \"Category 1\"}", "coord": ["338.35", "8.53", "700.16", "8.53", "700.16", "50.35", "338.35", "50.35"]}, {"text": "{\"text\": \"Text 4\", \"direction\": \"Bottom down\", \"class*\": \"Category 2\"}", "coord": ["26.88", "64.00", "218.03", "64.00", "218.03", "99.84", "26.88", "99.84"]}], {"option": "Bottom down"}]

ラベル付け結果スキーマ：

この構造は、テキスト検出と同一であり、各テキスト行の埋め込まれた JSON 文字列内に text フィールドが追加されています。

[
    [
        {
            "text": "{\"text\": \"Text 3\", \"direction\": \"Bottom down\", \"class*\": \"Category 1\"}",
            "coord": [
                "338.35",
                "8.53",
                "700.16",
                "8.53",
                "700.16",
                "50.35",
                "338.35",
                "50.35"
            ]
        },
        {
            "text": "{\"text\": \"Text 4\", \"direction\": \"Bottom down\", \"class*\": \"Category 2\"}",
            "coord": [
                "26.88",
                "64.00",
                "218.03",
                "64.00",
                "218.03",
                "99.84",
                "26.88",
                "99.84"
            ]
        }
    ],
    {
        "option": "Bottom down"
    }
]

テキスト行オブジェクトのフィールド：

フィールド	タイプ	説明
`text`	文字列	認識されたテキスト、行の向き、カテゴリを含む JSON 形式の文字列です。以下の `text` フィールドスキーマをご参照ください。
`coord`	文字列の配列	バウンディングボックスのポリゴンを定義する 8 つの座標値です： `[x1, y1, x2, y2, x3, y3, x4, y4]`。

text フィールドスキーマ：

{"text": "Text 3", "direction": "Bottom down", "class*": "Category 1"}

フィールド	タイプ	説明
`text`	文字列	行の認識されたテキストコンテンツ。
`direction`	文字列	テキスト行の方向。
`class*`	文字列	テキストのカテゴリ。

イメージ方向オブジェクト：

フィールド	タイプ	説明
`option`	文字列	イメージ全体の方向。イメージの下端が下向き、上向き、左向き、右向きのいずれであるかを指定します。

シングルラベル画像分類

マルチラベル画像分類

オブジェクト検出

画像セグメンテーション

テキスト認識

テキスト検出

エンドツーエンド テキスト認識

エンドツーエンドテキスト認識