iTAG で AI データラベリングを合理化する - PAI

iTAG は PAI のデータラベリングプラットフォームであり、画像、テキスト、動画、音声、マルチモーダルデータに対応した豊富なテンプレートセットを提供します。

注意事項

iTAG は、次のラベリングタスク用の事前構築済みテンプレートを提供します。

画像: 分類、物体検出、光学文字認識 (OCR)、テーブル認識、およびセマンティックセグメンテーション。
テキスト: 分類、固有表現抽出 (NER)、およびエンティティ関係認識。
動画: 分類、タギ付け、および OCR。
音声: 分類、セグメンテーション、および認識。
マルチモーダル: 視覚的な質問応答 (VQA)、マルチモーダルな人間のフィードバックによる強化学習 (RLHF) ラベリング、image-to-text、画像テキストの説明、対話の書き換え、対話の並べ替え、および対話のグループ化。

詳細については、「テンプレートの管理」をご参照ください。

操作手順

データセットの作成
ラベリングするデータを Object Storage Service (OSS) にアップロードします。次に、データセット管理モジュールを使用して OSS パスからデータをインポートし、データセットを作成します。システムは、後続のラベリングタスクで使用される .manifest インデックスファイルをデータ用に生成します。このファイルは、データパスとメタ情報を含む JSON Lines (JSONL) 形式です。
重要
iTAG では、データを OSS に保存する必要があります。円滑なアクセスを確保するため、OSS バケットは PAI サービスと同じリージョンに配置する必要があります。
ラベリングタスクの作成
データセットを作成した後、汎用またはカスタムテンプレートを使用してラベリングタスクを作成し、配布します。タスクの配布プロセスは、ラベリング、レビュー、および検収の 3 段階で構成されています。ラベリングは必須ですが、レビューと検収はオプションです。
- ラベリング: アノテーターは [Label Task] ページでタスクパッケージを受け取り、ラベリングを完了して作業を提出します。
- レビュー: レビュアーは [Quality Inspection Task] ページで完了したタスクパッケージを受け取り、レビュー、修正、または却下します。
- 検収: プロジェクトオーナーは [Acceptance Task] ページでタスクパッケージを受け取り、検収、修正、または却下します。
ラベリングタスクの処理
アノテーター、レビュアー、およびプロジェクトオーナーは、配布されたタスクパッケージで割り当てられた作業を完了します。
ラベリング結果のエクスポート
ラベリング結果を、モデルトレーニング用に指定の OSS ディレクトリにエクスポートします。出力として、ラベリング済みのデータを含む `.manifest` ファイルがエクスポートされます。

課金

iTAG プラットフォーム (無料): 自社チームで独自のラベリングプロジェクトを管理する場合は無料です。
インテリジェントラベリングサービス (無料): 大規模モデルを活用した本サービスは、現在マルチモーダルカテゴリ内の一部テンプレート (image-to-text、画像テキスト説明など) に限り無料で利用可能です。将来的に料金が発生する場合は、事前に通知します。
OSS (有料): iTAG は OSS 上で実行されるため、ストレージおよびデータ読み書きのトラフィック費用が、OSS の課金基準に従って別途請求されます。
手動ラベリングアウトソーシングサービス (有料): データラベリングを Alibaba Cloud の専門チームに委託するには、チケットを提出するか、DingTalk グループ (ID： 21930006619) に参加して PAI チームにお問い合わせください。

ヘルプ

データの読み込みエラー、権限不足、またはクロスオリジンリソース共有 (CORS) の設定といった使用上の問題が発生した場合は、「iTAG のよくある質問」をご参照ください。