すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:ラベリングジョブのデータセットの作成

最終更新日:Apr 21, 2026

ラベリングジョブを作成するには、データセットを選択する必要があります。このトピックでは、データラベリング用のデータセットを作成する方法と、必要なデータ形式について説明します。

背景情報

iTAG でデータにラベルを付ける前に、ラベルを付けたいファイルからデータセットを作成する必要があります。PAI では、共通テンプレートまたはカスタムテンプレートのいずれかを使用してラベリングジョブを作成できます。データ準備とデータセットの作成方法は、選択したテンプレートによって異なります。詳細については、次のセクションをご参照ください。

  • 共通テンプレート

    共通テンプレートは、画像、テキスト、ビデオ、オーディオの 4 つのデータタイプで利用できます。これらのデータセットを作成する手順と形式の要件については、テキストデータセットの作成および画像、ビデオ、またはオーディオデータセットの作成をご参照ください。

  • カスタムテンプレート

    カスタムテンプレートは、より高い柔軟性を提供します。たとえば、1 つのラベリングジョブで画像やテキストなど、複数のデータタイプにラベルを付けることができます。このユースケースのデータセットを作成する手順と形式の要件については、カスタムデータセットの作成をご参照ください。

前提条件

Object Storage Service (OSS) を有効化する必要があります。詳細については、OSS コンソールの使用開始をご参照ください。

テキストデータセットの作成

項目

方法 1:クラウドサービスから

方法 2:ローカルアップロード

手順

  1. このトピックの形式要件に従って、ローカルで .manifest または .txt ファイルを作成します。

  2. ファイルを OSS にアップロードします。詳細については、ファイルのアップロードをご参照ください。

  3. クラウドサービスからデータセットを作成します。詳細については、データセットの作成:Alibaba Cloud クラウドサービスからをご参照ください。

  1. このトピックの形式要件に従って、ローカルで .csv または .xlsx ファイルを作成します。

  2. iTAG に移動します。

    1. PAI コンソールにログインします。

    2. 左側のナビゲーションウィンドウで、Workspaces をクリックします。[Workspaces] ページで、対象のワークスペースの名前をクリックします。

    3. 左側のナビゲーションウィンドウで、Data Preparation>iTAG を選択します。

  3. iTAG ページで、Go to Task Center または Go to Management Page をクリックします。

  4. Data Management タブで、Create Original Dataset をクリックします。

  5. [オリジナルデータセットの作成] ページで、次の主要なパラメーターを設定します。

    • Import Data で、Local Upload を選択します。

    • Import Format で、File を選択します。

    • OSS BucketFile Path in OSS を設定します。

    • Upload file をクリックし、作成した .csv または .xlsx ファイルを選択します。

  6. Create をクリックします。

ファイル拡張子

.manifest または .txt ファイル。

.csv または .xlsx ファイル。

ファイル形式

{"data":{"source":"text sample 1"}}
{"data":{"source":"text sample 2"}}
{"data":{"source":"text sample 3"}}

source パラメーターは、ラベル付けされるサンプルのコンテンツを指定します。source の値を対応するテキストコンテンツに置き換える必要があります。

.csv または .xlsx ファイルの列に、ラベル付けされるテキストが含まれています。

ファイル例

textDemo1.manifest

textDemo2.csv

画像、ビデオ、またはオーディオデータセットの作成

このセクションでは、画像を例として使用します。手順はビデオファイルとオーディオファイルでも同じです。

項目

方法 1:フォルダのスキャン

方法 2:ローカルアップロード

手順

  1. 画像ファイルを OSS バケットにアップロードして URL を生成します。詳細については、ファイルのアップロードをご参照ください。

  2. フォルダをスキャンしてデータセットを作成すると、.manifest ファイルが自動的に生成されます。詳細については、データセットの作成と管理をご参照ください。

  1. 画像を含むローカルフォルダを作成します。

  2. iTAG に移動します。

    1. PAI コンソールにログインします。

    2. 左側のナビゲーションウィンドウで、Workspaces をクリックします。[Workspaces] ページで、対象のワークスペースの名前をクリックします。

    3. 左側のナビゲーションウィンドウで、Data Preparation>iTAG を選択します。

  3. iTAG ページで、Go to Task Center または Go to Management Page をクリックします。

  4. Data Management タブで、Create Original Dataset をクリックします。Create Original Dataset パネルで、次のパラメーターを設定します。

    • Import Data で、Local Upload を選択します。

    • Import Format で、Folder を選択します。

    • [OSS bucket] File Path in OSS を設定します。

    • Upload Folder をクリックし、ローカルフォルダをアップロードします。

  5. Create をクリックします。

ファイル形式

{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg"}}

ここで、source はアノテーションされるサンプルのコンテンツを指定し、source の値は対応するサンプルの OSS ストレージパス URL です。

ファイル例

カスタムデータセットの作成

項目

クラウドサービスから

手順

  1. このトピックの形式要件に従って、ローカルで .manifest または .txt ファイルを作成します。

  2. ファイルを OSS にアップロードします。詳細については、ファイルのアップロードをご参照ください。

  3. クラウドサービスからデータセットを作成します。詳細については、データセットの作成と管理をご参照ください。

ファイル拡張子

.manifest または .txt ファイル。

ファイル形式

{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg","text":"Jack Ma and 17 other founders established Alibaba Group in a Hangzhou apartment. The group's first website was Alibaba.com, an English-language global wholesale marketplace."}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg","text":"Alibaba Group held the first West Lake Summit, bringing together business and thought leaders from the internet industry to discuss key topics."}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg","text":"Alibaba Group raised USD 82 million from several top-tier investment firms, which was the largest private equity financing in China's internet industry at the time."}}

各行の "data" オブジェクトは、ラベル付けされるデータ項目を表します。このオブジェクトには複数のキーと値のペアを含めることができ、1 つのラベリングジョブに画像やテキストなどの異なるデータタイプを含めることができます。

たとえば、次の行は、ストレージパス oss://****.oss url 01 の画像とテキスト text sample1 の両方を含むデータ項目を定義します。

{"data":{"picture_url":"oss://****.oss url 01","text":"text sample1"}}

ファイル例

multiModal.manifest

次のステップ

作成したデータセットを使用して、ラベリングジョブを作成できます。詳細については、ラベリングジョブの作成をご参照ください。