ラベリングジョブを作成するには、データセットを選択する必要があります。このトピックでは、データラベリング用のデータセットを作成する方法と、必要なデータ形式について説明します。
背景情報
iTAG でデータにラベルを付ける前に、ラベルを付けたいファイルからデータセットを作成する必要があります。PAI では、共通テンプレートまたはカスタムテンプレートのいずれかを使用してラベリングジョブを作成できます。データ準備とデータセットの作成方法は、選択したテンプレートによって異なります。詳細については、次のセクションをご参照ください。
共通テンプレート
共通テンプレートは、画像、テキスト、ビデオ、オーディオの 4 つのデータタイプで利用できます。これらのデータセットを作成する手順と形式の要件については、テキストデータセットの作成および画像、ビデオ、またはオーディオデータセットの作成をご参照ください。
カスタムテンプレート
カスタムテンプレートは、より高い柔軟性を提供します。たとえば、1 つのラベリングジョブで画像やテキストなど、複数のデータタイプにラベルを付けることができます。このユースケースのデータセットを作成する手順と形式の要件については、カスタムデータセットの作成をご参照ください。
前提条件
Object Storage Service (OSS) を有効化する必要があります。詳細については、OSS コンソールの使用開始をご参照ください。
テキストデータセットの作成
項目 | 方法 1:クラウドサービスから | 方法 2:ローカルアップロード |
手順 | このトピックの形式要件に従って、ローカルで .manifest または .txt ファイルを作成します。 ファイルを OSS にアップロードします。詳細については、ファイルのアップロードをご参照ください。 クラウドサービスからデータセットを作成します。詳細については、データセットの作成:Alibaba Cloud クラウドサービスからをご参照ください。
| このトピックの形式要件に従って、ローカルで .csv または .xlsx ファイルを作成します。 iTAG に移動します。 PAI コンソールにログインします。 左側のナビゲーションウィンドウで、Workspaces をクリックします。[Workspaces] ページで、対象のワークスペースの名前をクリックします。 左側のナビゲーションウィンドウで、Data Preparation>iTAG を選択します。
iTAG ページで、Go to Task Center または Go to Management Page をクリックします。 Data Management タブで、Create Original Dataset をクリックします。 [オリジナルデータセットの作成] ページで、次の主要なパラメーターを設定します。 Import Data で、Local Upload を選択します。 Import Format で、File を選択します。 OSS Bucket と File Path in OSS を設定します。 Upload file をクリックし、作成した .csv または .xlsx ファイルを選択します。
Create をクリックします。
|
ファイル拡張子 | .manifest または .txt ファイル。 | .csv または .xlsx ファイル。 |
ファイル形式 | {"data":{"source":"text sample 1"}}
{"data":{"source":"text sample 2"}}
{"data":{"source":"text sample 3"}}
source パラメーターは、ラベル付けされるサンプルのコンテンツを指定します。source の値を対応するテキストコンテンツに置き換える必要があります。
| .csv または .xlsx ファイルの列に、ラベル付けされるテキストが含まれています。 |
ファイル例 | textDemo1.manifest | textDemo2.csv |
画像、ビデオ、またはオーディオデータセットの作成
このセクションでは、画像を例として使用します。手順はビデオファイルとオーディオファイルでも同じです。
項目 | 方法 1:フォルダのスキャン | 方法 2:ローカルアップロード |
手順 | 画像ファイルを OSS バケットにアップロードして URL を生成します。詳細については、ファイルのアップロードをご参照ください。 フォルダをスキャンしてデータセットを作成すると、.manifest ファイルが自動的に生成されます。詳細については、データセットの作成と管理をご参照ください。
| 画像を含むローカルフォルダを作成します。 iTAG に移動します。 PAI コンソールにログインします。 左側のナビゲーションウィンドウで、Workspaces をクリックします。[Workspaces] ページで、対象のワークスペースの名前をクリックします。 左側のナビゲーションウィンドウで、Data Preparation>iTAG を選択します。
iTAG ページで、Go to Task Center または Go to Management Page をクリックします。 Data Management タブで、Create Original Dataset をクリックします。Create Original Dataset パネルで、次のパラメーターを設定します。 Import Data で、Local Upload を選択します。 Import Format で、Folder を選択します。 [OSS bucket] と File Path in OSS を設定します。 Upload Folder をクリックし、ローカルフォルダをアップロードします。
Create をクリックします。
|
ファイル形式 | {"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg"}}
{"data":{"source":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg"}}
ここで、source はアノテーションされるサンプルのコンテンツを指定し、source の値は対応するサンプルの OSS ストレージパス URL です。 |
ファイル例 | |
カスタムデータセットの作成
項目 | クラウドサービスから |
手順 | このトピックの形式要件に従って、ローカルで .manifest または .txt ファイルを作成します。 ファイルを OSS にアップロードします。詳細については、ファイルのアップロードをご参照ください。 クラウドサービスからデータセットを作成します。詳細については、データセットの作成と管理をご参照ください。
|
ファイル拡張子 | .manifest または .txt ファイル。 |
ファイル形式 | {"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/1.jpg","text":"Jack Ma and 17 other founders established Alibaba Group in a Hangzhou apartment. The group's first website was Alibaba.com, an English-language global wholesale marketplace."}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/10.jpg","text":"Alibaba Group held the first West Lake Summit, bringing together business and thought leaders from the internet industry to discuss key topics."}}
{"data":{"picture_url":"oss://****.oss-cn-hangzhou.aliyuncs.com/iTAG/pic/11.jpg","text":"Alibaba Group raised USD 82 million from several top-tier investment firms, which was the largest private equity financing in China's internet industry at the time."}}
各行の "data" オブジェクトは、ラベル付けされるデータ項目を表します。このオブジェクトには複数のキーと値のペアを含めることができ、1 つのラベリングジョブに画像やテキストなどの異なるデータタイプを含めることができます。 たとえば、次の行は、ストレージパス oss://****.oss url 01 の画像とテキスト text sample1 の両方を含むデータ項目を定義します。 {"data":{"picture_url":"oss://****.oss url 01","text":"text sample1"}}
|
ファイル例 | multiModal.manifest |
次のステップ
作成したデータセットを使用して、ラベリングジョブを作成できます。詳細については、ラベリングジョブの作成をご参照ください。