すべてのプロダクト
Search
ドキュメントセンター

DataWorks:データセットの管理

最終更新日:Nov 09, 2025

DataWorks のデータセット機能を使用すると、画像やドキュメントなどの非構造化データを管理して DataWorks 内で使用できます。このトピックでは、データセットの作成方法と使用方法について説明します。

背景

DataWorks でデータを開発する際、データセット機能を使用して OSS および NAS に保存されているデータを読み書きできます。この機能は、データセットとそのバージョンの作成と管理をサポートします。バージョン管理により、データバージョンを追跡し、新しいバージョンに問題がある場合に迅速に以前のバージョンに復元できます。これにより、ビジネス運用がスムーズに実行されるようになります。

注意事項

データセット機能は現在ベータ版です。最終的な機能と安定性は異なる場合があります。

課金

DataWorks のデータセット機能は無料です。ただし、OSS または NAS にデータを保存すると、ストレージおよびネットワークアクセス料金が発生します。詳細については、「OSS の課金」および「NAS の課金」をご参照ください。

データセットの作成

  1. DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[データガバナンス] > [データマップ] を選択します。表示されたページで、[データマップへ移動] をクリックします。

  2. データマップページの左側のナビゲーションウィンドウで、[データカタログ] (image) をクリックしてデータカタログページを開きます。[ディレクトリリスト] で、[データセットカタログ] をクリックします。

  3. データセットを作成するワークスペースを見つけて、その名前をクリックします。この操作により、ワークスペースのデータセット詳細ページが開き、既存のすべてのデータセットが表示されます。[データセットの作成] ボタンをクリックし、指示に従って DataWorks データセットを作成します。

ストレージクラス: OSS

  • データセット構成:

    設定項目

    説明

    ストレージクラス

    OSS

    コンテンツタイプ

    登録するデータのタイプを選択します。これはオプションです。デフォルトは General です。

  • インポート構成:

    設定項目

    説明

    OSS パス

    マウントする OSS フォルダのパスを指定します。

    説明

    必要な OSS バケットの権限があることを確認してください。

    デフォルトのマウントパス

    OSS フォルダのデフォルトのマウントパスを指定します。このパスを使用して DataWorks のデータにアクセスできます。システムのデフォルトは /mnt/data/ です。マウントパスは手動で変更できます。

ストレージクラス: NAS

  • データセット構成:

    設定項目

    説明

    ストレージクラス

    ファイルストレージ (汎用型 NAS ファイルシステム) または ファイルストレージ (超高速型 NAS ファイルシステム) を選択します

    コンテンツタイプ

    登録するデータのタイプを選択します。これはオプションです。デフォルトは General です。

  • インポート構成:

    設定項目

    設定の説明

    ファイルシステム

    Alibaba Cloud アカウントで現在のリージョンに作成された宛先 NAS ファイルシステムを選択します。

    ファイルシステムのマウントポイント

    マウントポイントを設定して NAS ファイルシステムにアクセスします。

    重要

    マウントポイントの VPC がリソースグループの VPC に接続されていることを確認してください:

    • NAS マウントポイントとリソースグループに同じ VPC を使用して、ネットワーク接続を確保します。

    • その他のシナリオについては、「ネットワーク接続ソリューションの概要」をご参照ください。NAS マウントポイントの VPC をリソースグループに設定された VPC に接続します。

    ファイルシステムのパス

    マウントする NAS フォルダのパスを指定します。デフォルトはルートディレクトリ / です。このパスが NAS ファイルシステムに存在することを確認してください。存在しない場合、データセットを使用する際にエラーが発生します。

    デフォルトのマウントパス

    データセット内の NAS フォルダのデフォルトのマウントパスを指定します。このパスを使用して、DataWorks から NAS パス内のデータにアクセスできます。システムのデフォルトは /mnt/data/ です。マウントパスは手動で変更できます。

データセットの管理

[データカタログ] > [データセットカタログ] で、宛先ワークスペースのデータセットリストに移動します。管理したいデータセットの [操作] 列で、[詳細] をクリックします。この操作により、データセットの詳細ページが開きます。このページでは、[概要][データセットバージョン] の情報を表示し、次の操作を実行できます:

  • バージョンの作成: 右上隅の [バージョンの作成] ボタンをクリックして、バージョン作成ページを開きます。新しいバージョンを作成する際、[OSS パス] または [NAS ファイルシステム構成] をカスタマイズし、[デフォルトのマウントパス] を設定できます。

  • データセットの削除: データセット詳細ページの右上隅にある [削除] ボタンをクリックしてデータセットを削除します。

  • データセットデータの表示: この操作は Object Storage Service (OSS) データセットでのみサポートされています。[データセットバージョン] セクションで、タイトルの横にあるドロップダウンメニューから目的のバージョンを選択します。次に、[OSS で表示] をクリックします。OSS コンソールでそのバージョンのストレージパスにリダイレクトされます。

  • バージョンの削除: [データセットバージョン] セクションで、タイトルの横にあるドロップダウンメニューから目的のバージョンを選択します。次に、[削除] ボタンをクリックします。

重要

データセットまたはデータセットバージョンを削除しても、元のファイルは削除されません。ただし、削除されたデータセットまたはバージョンは DataWorks のデータセット機能から回復することはできません。注意して進めてください。

データセットの使用

Data Studio で作成したデータセットは、Shell ノードPython ノードNotebook 開発、および 個人開発環境 などで使用できます。

詳細については、「データセットの使用」をご参照ください。