PAI提供了目标检测、语义分割、图像综合标注、OCR及图像分类模板。创建标注任务时,可以根据应用场景选择标注模板。

目标检测

目标检测(Object Detection)任务是对图像中的具体目标进行定位,常用矩形框工具。

  • 应用场景

    车辆检测、行人检测及图片搜索等。

  • 数据结构
    • 输入数据
      manifest文件的每行数据是一道题目,且每行数据必须包含picUrl字段。
      {"data":{"picUrl":"oss://****/pics/fruit/apple-1.jpg"}}
      ...
    • 输出数据
      manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。
      {
          "data": {
              "picUrl": "oss://****/pics/fruit/apple-1.jpg"
          },
          "label-****(标注任务ID)": {
              "results": [{
                  "data": [{
                      "id":"Znyumd-*****",
                      "type":"image/rectangleLabel",
                      "value":{
                          "rotation":0,
                          "x":40.68320610687023,
                          "width":327.52035623409665,
                          "y":5.762467474590647,
                          "height":296.68117192104745
                      },
                      "labelColor":"#72bf7d",
                      "labels":["apple"]
                  }],
                  "id":"44****",
                  "type":"image"
              }]
          }
      }

语义分割

语义分割(Semantic Segmentation)任务识别标注图像中存在的内容及位置(通过查找属于它的所有像素)。常用多边形描点工具、笔刷工具及超像素工具。

  • 应用场景

    自动驾驶、表情识别及服装分类等。

  • 数据结构
    • 输入数据
      manifest文件的每行数据是一道题目,且每行数据必须包含picUrl字段。
      {"data":{"picUrl":"oss://****/pics/fruit/apple-1.jpg"}}
      ...
    • 输出数据
      manifest文件的每行数据由题目和标注结果一起生成。每行数据的JSON结构如下。
      {
          "data": {
              "picUrl": "oss://****/pics/fruit/apple-1.jpg"
          },
          "label-****(标注任务ID)": {
              "results": [{
                  "data": [{
                      "id":"Znyumd-*****",
                      "type":"image/polygonLabel",
                      "value":{
                          "points": [
                              [110, 46],
                              [52, 196],
                              [48, 168],
                              [48, 145],
                              [54, 120],
                              [63, 93],
                              [76, 74]
                          ]
                      },
                      "labelColor":"#72bf7d",
                      "labels":["apple"]
                  }],
                  "id":"44****",
                  "type":"image"
              }]
          }
      }

图像综合标注

图像综合标注(Comprehensive Image Annotation)是指在一组标签集合中,对输入图像的图片内容进行标签匹配。该模板支持使用所有图像标注工具,可以满足更灵活的标注需求。

  • 应用场景

    自动驾驶、内容审核及内容识别等。

  • 数据结构
    • 输入数据
      manifest文件的每行数据是一道题目,且每行数据必须包含picUrl字段。
      {"data":{"picUrl":"oss://****/pics/fruit/apple-10.jpg"}}
    • 输出数据
      manifest文件的每行数据由题目和标注结果一起生成,每行数据的JSON结构如下。
      {
          "data": {
              "picUrl": "oss://****/pics/fruit/apple-10.jpg"
          },
          "label-****(标注任务ID)": {
              "results": [{
                  "data": [{
                      "id":"Znyumd-****",
                      "type":"image/rectangleLabel",
                      "value":{
                          "rotation":0,
                          "x":40.68320610687023,
                          "width":327.52035623409665,
                          "y":5.762467474590647,
                          "height":296.68117192104745
                      },
                      "labelColor":"#72bf7d",
                      "labels":["红苹果"]
                  }],
                  "id":"44****",
                  "type":"image"
              }]
          }
      }

OCR模板

光学字符识别OCR(Optical Character Recognition)任务首先将输入图像中的文字转换为文本格式,再根据文字信息类别对输入图像进行分组。

  • 应用场景

    证件识别、票据识别、车牌识别及银行卡识别等。

  • 数据结构
    • 输入数据
      manifest文件的每行数据是一道题目,且每行数据必须包含picUrl字段。
      {"data":{"picUrl":"oss://****/img/ocr_card/img0.jpeg"}}
    • 输出数据
      manifest文件的每行数据由题目和标注结果一起生成,每行数据的JSON结构如下。
      {
          "data": {
              "picUrl": "oss://****/img/ocr_card/img0.jpeg"
          },
          "label-****(标注任务ID)": {
              "results": [{
                  "data": [{
                      "direction_of_picture":"downward",
                      "type":"ocr/meta"
                  },
                  {
                      "id": "Y4ZFoC-****",
                      "direction_of_text": "downward",
                      "text": "阿里云计算公司",
                      "type": "ocr/polygonLabel",
                      "value": {
                          "points": [[325.08789110183716,397.47582054138184]]
                      },
                      "labelColor": "#67bd3a",
                      "labels": "公司"
                  }],
                  "id":"24****",
                  "type":"ocr"
              }]
          }
      }

图像分类

图像分类(Image Classification)是指从一组固定的分类标签集合中,找到与输入图像内容相匹配的一个或多个分类标签,并将其分配给该输入图像。该模板支持单标签和多标签图像分类。

  • 应用场景

    相册图片分类、拍照识图、图片搜索及内容推荐等。

  • 数据结构
    • 输入数据
      manifest文件的每行数据是一道题目,且每行数据必须包含picUrl字段。
      {"data":{"picUrl":"oss://****/img/ocr_card/img0.jpeg"}}
    • 输出数据
      manifest文件的每行数据由题目和标注结果一起生成,每行数据的JSON结构如下。
      {
          "data": {
              "picUrl": "oss://****/img/ocr_card/img0.jpeg"
          },
          "label-xxxxx(标注任务id)": {
              "results": [{
                  "data": [{
                      "data":"red",
                      "id":"33****",
                      "type":"survey/value"
                  }],
                  "id":"33****",
                  "type":"survey"
              }]
          }
      }