图像类 - 人工智能平台 PAI

iTAG提供了图片OCR、目标检测、图像分类的图像类标注模板，创建标注任务时，您需要根据应用场景选择标注模板。本文为您介绍图像类标注模板的应用场景及数据结构。

背景信息

本文介绍以下图像类标注模板的数据结构：

图片OCR
目标检测
图像分类

图片OCR

图片OCR（Optical Character Recognition）任务首先将输入图像中的文字转换为文本格式，再根据文字信息类别对输入图像进行分组。

应用场景
证件识别、票据识别、车牌识别及银行卡识别等。

数据结构

输入数据
manifest文件的每行数据是一道题目，且每行数据必须包含source字段。
```
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/demo_test/ocr_pic/img6.jpeg"}}
...
```

输出数据

manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。

{
    "data": {
        "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/demo_test/ocr_pic/img6.jpeg"
    }, 
    "label-144863699223676****": {
        "results": [
            {
                "questionId": "1", 
                "data": [
                    {
                        "id": "ecdb7552-2a4e-4d0e-8abb-0f1a2dc0****", 
                        "type": "image/polygon", 
                        "value": [
                            [
                                368.1112214498511, 
                                71.72740814299901
                            ], 
                            [
                                444.34359483614696, 
                                71.72740814299901
                            ], 
                            [
                                444.34359483614696, 
                                106.26762661370405
                            ], 
                            [
                                368.1112214498511, 
                                106.26762661370405
                            ]
                        ], 
                        "labels": {
                            "OCR识别结果": "理财顾问", 
                            "单选": "标签1"
                        }
                    }
                ], 
                "rotation": 0, 
                "markTitle": "OCR标签配置", 
                "width": 1024, 
                "type": "image", 
                "height": 1024
            }
        ]
    }
}

目标检测

目标检测（Object Detection）标注任务是对图像中的具体目标进行定位，常用矩形框工具。

应用场景
车辆检测、行人检测及图片搜索等。

数据结构

输入数据
manifest文件的每行数据是一道题目，且每行数据必须包含source字段。
```
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/pic_ocr/img17.jpeg"}}
...
```

输出数据

manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。

{
    "data": {
        "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/pic_ocr/img17.jpeg"
    }, 
    "label-144853549785619****": {
        "results": [
            {
                "questionId": "1", 
                "data": [
                    {
                        "id": "e02a574b-9fd9-45e9-8c8a-9682567b****", 
                        "type": "image/polygon", 
                        "value": [
                            [
                                499.93454545454546, 
                                255.0981818181818
                            ], 
                            [
                                911.0109090909091, 
                                255.0981818181818
                            ], 
                            [
                                911.0109090909091, 
                                338.6836363636363
                            ], 
                            [
                                499.93454545454546, 
                                338.6836363636363
                            ]
                        ], 
                        "labels": {
                            "单选": "标签1"
                        }
                    }
                ], 
                "rotation": 0, 
                "markTitle": "目标检测标签配置", 
                "width": 1024, 
                "type": "image", 
                "height": 1024
            }
        ]
    }
}

图像分类

图像分类（Image Classification）是指从一组固定的分类标签集合中，找到与输入图像内容相匹配的一个或多个分类标签，并将其分配给该输入图像。该模板支持单标签和多标签图像分类。

应用场景
图片分类、拍照识图、图片搜索及内容推荐等。

数据结构

输入数据
manifest文件的每行数据是一道题目，且每行数据必须包含source字段。
```
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}}
...
```

输出数据

manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。

{
    "data": {
        "source": "oss://****.oss-cn-hangzhou.aliyuncs.com/pic/3.jpg"
    }, 
    "label-143082452899667****": {
        "results": [
            {
                "questionId": "2", 
                "data": [
                    "标签1", 
                    "标签2"
                ], 
                "markTitle": "多选", 
                "type": "survey/multivalue"
            }
        ]
    }
}