DataWorks のデータセット機能を使用すると、画像やドキュメントなどの非構造化データを管理して DataWorks 内で使用できます。このトピックでは、データセットの作成方法と使用方法について説明します。
背景
DataWorks でデータを開発する際、データセット機能を使用して OSS および NAS に保存されているデータを読み書きできます。この機能は、データセットとそのバージョンの作成と管理をサポートします。バージョン管理により、データバージョンを追跡し、新しいバージョンに問題がある場合に迅速に以前のバージョンに復元できます。これにより、ビジネス運用がスムーズに実行されるようになります。
注意事項
データセット機能は現在ベータ版です。最終的な機能と安定性は異なる場合があります。
課金
DataWorks のデータセット機能は無料です。ただし、OSS または NAS にデータを保存すると、ストレージおよびネットワークアクセス料金が発生します。詳細については、「OSS の課金」および「NAS の課金」をご参照ください。
データセットの作成
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、[データマップへ移動] をクリックします。
データマップページの左側のナビゲーションウィンドウで、[データカタログ] (
) をクリックしてデータカタログページを開きます。[ディレクトリリスト] で、[データセットカタログ] をクリックします。データセットを作成するワークスペースを見つけて、その名前をクリックします。この操作により、ワークスペースのデータセット詳細ページが開き、既存のすべてのデータセットが表示されます。[データセットの作成] ボタンをクリックし、指示に従って DataWorks データセットを作成します。
ストレージクラス: OSS
データセット構成:
設定項目
説明
ストレージクラス
OSS
コンテンツタイプ
登録するデータのタイプを選択します。これはオプションです。デフォルトは General です。
インポート構成:
設定項目
説明
OSS パス
マウントする OSS フォルダのパスを指定します。
説明必要な OSS バケットの権限があることを確認してください。
デフォルトのマウントパス
OSS フォルダのデフォルトのマウントパスを指定します。このパスを使用して DataWorks のデータにアクセスできます。システムのデフォルトは
/mnt/data/です。マウントパスは手動で変更できます。
ストレージクラス: NAS
データセット構成:
設定項目
説明
ストレージクラス
ファイルストレージ (汎用型 NAS ファイルシステム) または ファイルストレージ (超高速型 NAS ファイルシステム) を選択します
コンテンツタイプ
登録するデータのタイプを選択します。これはオプションです。デフォルトは General です。
インポート構成:
設定項目
設定の説明
ファイルシステム
Alibaba Cloud アカウントで現在のリージョンに作成された宛先 NAS ファイルシステムを選択します。
ファイルシステムのマウントポイント
マウントポイントを設定して NAS ファイルシステムにアクセスします。
重要マウントポイントの VPC がリソースグループの VPC に接続されていることを確認してください:
NAS マウントポイントとリソースグループに同じ VPC を使用して、ネットワーク接続を確保します。
その他のシナリオについては、「ネットワーク接続ソリューションの概要」をご参照ください。NAS マウントポイントの VPC をリソースグループに設定された VPC に接続します。
ファイルシステムのパス
マウントする NAS フォルダのパスを指定します。デフォルトはルートディレクトリ
/です。このパスが NAS ファイルシステムに存在することを確認してください。存在しない場合、データセットを使用する際にエラーが発生します。デフォルトのマウントパス
データセット内の NAS フォルダのデフォルトのマウントパスを指定します。このパスを使用して、DataWorks から NAS パス内のデータにアクセスできます。システムのデフォルトは
/mnt/data/です。マウントパスは手動で変更できます。
データセットの管理
で、宛先ワークスペースのデータセットリストに移動します。管理したいデータセットの [操作] 列で、[詳細] をクリックします。この操作により、データセットの詳細ページが開きます。このページでは、[概要] と [データセットバージョン] の情報を表示し、次の操作を実行できます:
バージョンの作成: 右上隅の [バージョンの作成] ボタンをクリックして、バージョン作成ページを開きます。新しいバージョンを作成する際、[OSS パス] または [NAS ファイルシステム構成] をカスタマイズし、[デフォルトのマウントパス] を設定できます。
データセットの削除: データセット詳細ページの右上隅にある [削除] ボタンをクリックしてデータセットを削除します。
データセットデータの表示: この操作は Object Storage Service (OSS) データセットでのみサポートされています。[データセットバージョン] セクションで、タイトルの横にあるドロップダウンメニューから目的のバージョンを選択します。次に、[OSS で表示] をクリックします。OSS コンソールでそのバージョンのストレージパスにリダイレクトされます。
バージョンの削除: [データセットバージョン] セクションで、タイトルの横にあるドロップダウンメニューから目的のバージョンを選択します。次に、[削除] ボタンをクリックします。
データセットまたはデータセットバージョンを削除しても、元のファイルは削除されません。ただし、削除されたデータセットまたはバージョンは DataWorks のデータセット機能から回復することはできません。注意して進めてください。
データセットの使用
Data Studio で作成したデータセットは、Shell ノード、Python ノード、Notebook 開発、および 個人開発環境 などで使用できます。
詳細については、「データセットの使用」をご参照ください。