DataWorks のデータセットを使用すると、OSS または NAS に格納された非構造化データ(画像、文書、音声、その他のファイル)を登録およびバージョン管理できます。登録後、これらのデータは DataWorks 開発環境にマウントされ、シェルノード、Python ノード、ノートブック、および個人開発環境からアクセス可能になります。
適用範囲/利用シーン
機械学習用トレーニングデータ:OSS に格納された画像または文書のコレクションを登録し、トレーニングセットの進化に応じてバージョン管理を行い、ノートブックに直接マウントしてモデル開発を行います。
ETL の Landing Zone:上流システムが生データファイルを配置する NAS フォルダをデータセットとして指定し、シェルノードまたは Python ノードでそのファイルを処理します。
非構造化データパイプライン:複数の DataWorks タスク間で一貫したマウントパスを通じて、音声、動画、PDF ファイルにアクセスします。
再現可能な実験:特定時点のスナップショットを取得するためにデータセットのバージョンを作成します。新しいバージョンで問題が発生した場合、データパイプラインを再構築することなく、以前のバージョンへ復元できます。
前提条件
開始する前に、以下の条件を満たしていることを確認してください。
DataWorks ワークスペース
ワークスペースと同じリージョンにある OSS バケットまたは NAS ファイルシステム
(OSS)必要な OSS バケット権限
(NAS)DataWorks リソースグループと VPC 接続が設定された マウントポイント
ストレージタイプの比較
データセットは 2 種類のストレージバックエンドをサポートしています。アクセスパターンおよび既存のインフラストラクチャに応じて選択してください。
| 項目 | OSS | NAS |
|---|---|---|
| ストレージタイプ | オブジェクトストレージ(フラットな名前空間) | POSIX 準拠のファイルシステム |
| 主な用途 | 不変の大量ファイル(画像、モデル、アーカイブなど) | ランダムな読み取り/書き込みまたは共有ファイルアクセスを必要とするワークロード |
| ファイルシステムの選択肢 | 該当なし | 汎用 NAS または Extreme NAS |
| デフォルトのマウントパス | /mnt/data/ | /mnt/data/ |
| ネットワーク要件 | OSS バケット権限 | NAS マウントポイントとリソースグループ間の VPC 接続 |
注: コンソールでは、ストレージタイプとして Data Lake Formation (DLF) もサポートしています。詳細については、DataWorks コンソールをご参照ください。
データセットの作成
DataWorks コンソールにログインします。上部のナビゲーションバーで、対象のリージョンを選択します。
左側のナビゲーションウィンドウで、データガバナンス > データマップ を選択します。表示されたページで、データマップへ移動 をクリックします。
データマップページの左側ナビゲーションウィンドウで、データカタログ (
) をクリックします。ディレクトリ一覧 で、DataSet をクリックします。データセットを作成するワークスペースを見つけ、その名前をクリックします。ワークスペースに対応するデータセット一覧が表示されます。
データセットの作成 をクリックし、選択したストレージタイプに応じた設定を行います。
保存 をクリックしてデータセットを作成します。
OSS データセットの設定
データセット設定:
| 設定項目 | 説明 |
|---|---|
| ストレージタイプ | OSS |
| コンテンツタイプ | (任意)登録するデータの種類です。デフォルト値は 一般 です。 |
インポート設定:
| 設定項目 | 説明 |
|---|---|
| OSS パス | マウント対象の OSS フォルダのパスです。必要な OSS バケット権限 を付与済みであることを確認してください。 |
| デフォルトのマウントパス | DataWorks 内でデータにアクセスする際に使用されるパスです。デフォルト値は /mnt/data/ です。必要に応じて変更してください。 |
NAS データセットの設定
データセット設定:
| 設定項目 | 説明 |
|---|---|
| ストレージタイプ | 汎用 NAS または Extreme NAS |
| コンテンツタイプ | (任意)登録するデータの種類です。デフォルト値は 一般 です。 |
インポート設定:
| 設定項目 | 説明 |
|---|---|
| ファイルシステム | Alibaba Cloud アカウント下で、現在のリージョンに作成した NAS ファイルシステムを選択します。 |
| ファイルシステムのマウントポイント | NAS ファイルシステムにアクセスするための マウントポイント を選択します。マウントポイントの VPC は、リソースグループの VPC と接続されている必要があります。接続性を確保するには、両方の VPC を同一のものとして設定するか、クロス VPC のシナリオについては、「ネットワーク接続ソリューション」をご参照ください。 |
| ファイルシステムのパス | マウント対象の NAS フォルダのパスです。デフォルト値はルートディレクトリ / です。このパスは NAS ファイルシステム内に存在する必要があります。存在しない場合、データセットの使用時に失敗します。 |
| デフォルトのマウントパス | DataWorks から NAS データにアクセスする際に使用されるパスです。デフォルト値は /mnt/data/ です。必要に応じて変更してください。 |
データセットの管理
既存のデータセットを管理するには、データカタログ > DataSet に移動し、ワークスペースを選択した後、対象のデータセットの 操作 列から 詳細 をクリックします。
データセットの詳細ページには、属性情報 および データセットのバージョン のセクションが表示されます。
バージョンの作成
右上隅の バージョンの作成 をクリックします。新しいバージョンを作成する際は、OSS パス または NAS ファイルシステムの設定をカスタマイズし、デフォルトのマウントパス を設定します。
バージョン管理により、データセット設定の特定時点におけるスナップショットが取得されます。これにより、以下のような機能が実現されます。
再現性:トレーニングジョブに特定のバージョンを固定することで、結果の一貫性を保証できます。
ロールバック:現在のバージョンでデータ品質に関する問題が発生した場合、以前のバージョンへ復元できます。
監査可能性:各パイプライン実行で使用されたバージョンを追跡できます。
データセットのデータの表示(OSS のみ)
データの表示 タブをクリックし、その後 OSS コンソールで表示 をクリックして、選択したバージョンのストレージパスを OSS コンソールで開きます。
バージョンの削除
データセットのバージョン セクションで、ドロップダウンメニューから対象のバージョンを選択し、削除 をクリックします。
データセットの削除
データセットの詳細ページの右上隅にある 削除 をクリックします。
データセットまたはデータセットのバージョンを削除しても、OSS や NAS に格納されている元のファイルは削除されません。ただし、DataWorks のデータセット機能からは、削除されたデータセットまたはバージョンを復元することはできません。十分にご注意のうえ、操作を行ってください。
データセットの使用
データセットを作成した後は、設定済みのマウントパス(デフォルト:/mnt/data/)を通じて、以下の DataWorks 開発ツールからアクセスできます。
詳細な手順については、「データセットの使用」をご参照ください。
制限事項
データセット機能は現在ベータ版です。最終的な機能および安定性は変更される場合があります。
課金
データセット機能自体は無料です。ただし、基盤となるストレージに対しては課金が発生します。