すべてのプロダクト
Search
ドキュメントセンター

DataWorks:データセットの管理

最終更新日:Jun 26, 2026

DataWorks のデータセットを使用すると、画像やドキュメントなどの非構造化データを管理できます。OSS または NAS ストレージをバックエンドとするデータセットを作成し、データバージョンを追跡できます。

概要

データセットを使用すると、DataWorks から OSS および NAS に保存されているデータを読み書きできます。複数のデータバージョンを作成し、変更を追跡し、必要に応じて以前のバージョンに戻すことができます。

注意事項

データセット機能は現在ベータ版です。最終的な機能と安定性は変更される可能性があります。

料金

DataWorks のデータセット機能は無料です。OSS および NAS ストレージでは、別途ストレージ料金とネットワーク料金が発生します (OSS の料金NAS の料金)。

データセットの作成

  1. DataWorks コンソールにログインします。 左側のナビゲーションウィンドウで、[データガバナンス] > [データマップ] を選択します。 表示されるページで、[データマップに移動] をクリックします。

  2. データマップページで、左側のナビゲーションペインで Data Catalog (image) をクリックします。次に、Catalogs の下にある [DataSet] をクリックします。

  3. 対象のワークスペースをクリックします。データセットリストページで、Create Dataset をクリックし、以下で説明する設定を行います。

説明

管理者がデータセットタイプに カスタム属性 を設定している場合、データセットの作成時に、ビジネスドメインやデータ機密度レベルなどの値を設定できます。カスタム属性は、ワークスペースレベルの値を継承できます。

ストレージクラス: OSS

  • [Dataset Configuration]:

    設定項目

    説明

    ストレージクラス

    OSS

    コンテンツタイプ

    オプション。データタイプを選択します。デフォルト: General。

  • [Import Configuration]:

    設定項目

    説明

    OSS パス

    マウントする OSS フォルダーのパス。

    説明

    必要な OSS バケットの権限があることを確認してください。

    デフォルトのマウントパス

    DataWorks での OSS フォルダーのマウントパス。デフォルト: /mnt/data/。マウントパスは変更できます。

ストレージクラス: NAS

  • [Dataset Configuration]:

    設定項目

    説明

    ストレージクラス

    ファイルストレージ (汎用 NAS) または ファイルストレージ (エクストリーム NAS ファイルシステム) を選択します

    コンテンツタイプ

    オプション。データタイプを選択します。デフォルト: General。

  • [Import Configuration]:

    設定項目

    説明

    ファイルシステム

    Alibaba Cloud アカウント配下で、現在のリージョンにある NAS ファイルシステムを選択します。

    ファイルシステムのマウントターゲット

    NAS ファイルシステムの マウントターゲット を設定します。

    重要

    マウントターゲットの VPC は、リソースグループの VPC に接続する必要があります:

    • NAS マウントターゲットとリソースグループの両方に同じ VPC を使用します。

    • VPC をまたぐシナリオの場合は、「概要」に従って、NAS マウントターゲットの VPC をリソースグループの VPC に接続します。

    ファイルシステムのパス

    マウントする NAS フォルダーのパス。デフォルト: /。パスは NAS ファイルシステムに存在する必要があります。

    デフォルトのマウントパス

    DataWorks での NAS フォルダーのマウントパス。デフォルト: /mnt/data/。マウントパスは変更できます。

データセット詳細の表示

このセクションでは、「既存のデータセットを検索したい」というシナリオを想定し、データセット詳細ページへのアクセス方法と、そのページで利用可能な情報について説明します。データセットの変更 (バージョンの作成、削除など) については、「データセットの管理」をご参照ください。

データセット詳細ページにアクセスするには、Data Catalog > [DataSet] で対象ワークスペースのデータセットリストを開き、対象データセットの Actions 列にある Details をクリックします。

説明

詳細ページには2つのレイアウトがあります。データカタログパネル (デフォルト) からページを開くと、右上隅に [バージョンの作成] ボタンと [削除] ボタンが表示されます。グローバル検索結果または外部リンク (スタンドアロン詳細ルート) から直接開くと、ページヘッダーに Manage ボタンが追加で表示されます。このボタンをクリックすると、データカタログ内のこのデータセットの管理パネルに戻ります。タブの内容はどちらのレイアウトでも同じです。

詳細ページには、次のタブが含まれています:

  • プロパティ:データセットの所有者、作成時刻、所属ワークスペース、説明、その他のコアフィールドが表示されます。管理者がカスタム属性を設定している場合、対応するカスタム属性カードも表示されます (詳細については、「カスタム属性」をご参照ください。カスタム属性値はワークスペースから継承できます)。このタブには [データセットバージョン] ブロックも埋め込まれており、データセットのすべてのバージョンが一覧表示され、バージョンの切り替えや、OSS コンソールに移動して元のデータを表示するためのエントリーが提供されます (「データセットデータの表示」をご参照ください)。

  • [View Data]:DataWorks を離れることなく、データセットのストレージクラスとコンテンツタイプに基づいてサンプルデータをプレビューします。

    説明

    このタブは、ストレージクラスが [オブジェクトストレージ (OSS)] で、コンテンツタイプがプラットフォーム内のプレビューリストでサポートされているデータセットにのみ表示されます。他のストレージクラスまたはコンテンツタイプのデータセットの場合、このタブは表示されません。「データセットデータの表示」を使用して OSS コンソールに移動し、元のファイルを確認してください。

  • [Lineage Information]:データセットとアップストリームテーブルまたはダウンストリームタスクとの間のリネージを表示します。

  • [Usage Notes]:データセットの使用ノートをメンテナンスおよび参照します。この機能は、テーブル詳細のノートタブと同等です。

データセットの管理

Data Catalog > データセットで、対象のワークスペースのデータセットリストに移動します。 対象のデータセットのActions列で、Detailsをクリックします。 詳細ページにはOverviewDataset Versionの情報が表示され、次の操作がサポートされています:

  • [Create Version]:右上隅にある Create Version をクリックして、OSS Path または [NASファイルシステム設定] をカスタマイズし、Default Mount Path を設定します。

  • データセットの削除:右上隅にある Delete をクリックします。

  • データセットデータの表示:OSS データセットでのみ利用可能です。Dataset Version セクションで、対象のバージョンを選択し、View in OSS をクリックして、OSS コンソールで対応するストレージパスを表示します。

  • バージョンの削除Dataset Version セクションで、バージョンを選択し、Delete をクリックします。

重要

データセットまたはバージョンを削除しても元のファイルは削除されませんが、DataWorks でのこの削除操作は元に戻せません。操作は慎重に行ってください。

データセットの使用

データセットは、データ開発で Shell ノードPython ノードNotebook 開発、または個人の開発環境で使用します。

データセットの使用