データセットとは、類似の属性を持つ、または同じターゲットによって使用されるデータのセットです。 データセットから異なるソースのデータを更新および削除できます。 このトピックでは、AIダッシュボードでデータセットを管理する方法について説明します。
前提条件
クラウドネイティブAIコンポーネントセットがインストールされていること。 詳細については、「クラウドネイティブAIスイートのデプロイ」をご参照ください。
AIダッシュボードの管理者の資格情報が取得されていること。
既存の PVC に基づいて高速化データセットを作成する
AIダッシュボードにログオンします。 詳細については、「AIダッシュボードへのアクセス」をご参照ください。
AIダッシュボードの左側のナビゲーションウィンドウで、
を選択します。高速化するデータセットを選択し、[高速化] 列の [オペレーター] をクリックします。
説明他のタイプのデータが存在しない場合、[データセットリスト] ページには、現在のクラスタ内のすべての永続ボリューム要求(PVC)が表示されます。
[データセットの編集] ダイアログボックスで、次のパラメータを設定します。
高速化するデータセットの [名前] を指定し、データセットが属する [名前空間] を選択します。
[PVC] を [ソースタイプ] に選択し、[データソース] を選択して、[サブディレクトリ] を入力します。
[ランタイム構成] を設定します。 name フィールドは、データセットの名前に設定する必要があります。
次の [ランタイム構成] のテンプレートは、例として提供されています。
apiVersion: data.fluid.io/v1alpha1 kind: JindoRuntime metadata: name: fluid-imagenet spec: replicas: 4 data: replicas: 1 tieredstore: levels: - mediumtype: SSD path: /var/lib/docker/alluxio quota: 150Gi high: "0.99" low: "0.8"
[保存] をクリックします。 データセットの [状態] には [NotReady] と表示されます。 数秒待ちます。 その後、データセットの [状態] が [Ready] に変わります。
OSS に基づいて高速化データセットを作成する
手順 1:シークレットを作成する
Object Storage Service(OSS)の構成には機密情報が含まれているため、AIダッシュボードに渡す前に暗号化する必要があります。 シークレットを作成する必要があります。 次の YAML テンプレートは例です。
apiVersion: v1
kind: Secret
metadata:
name: imagenet-oss-xxx
namespace: default
type: kubernetes.io/basic-auth
stringData:
username: <ACCESS_ID>
password: <ACCESS_KEY>
次のコマンドを実行して、シークレットを作成します。
kubectl create -f oss_access_secret.yaml
手順 2:OSS に基づいて高速化データセットを作成する
AIダッシュボードにログオンします。 詳細については、「AIダッシュボードへのアクセス」をご参照ください。
AIダッシュボードの左側のナビゲーションウィンドウで、
を選択します。[追加] をクリックします。
[データセットの作成] ダイアログボックスで、次のパラメータを設定します。
作成するデータセットの [名前] を指定し、データセットが属する [名前空間] を選択します。
[OSS] を [ソースタイプ] に選択します。 次の表でパラメータについて説明します。
パラメータ
例
説明
名前
oss-imagenet
カスタム名を入力できます。
名前空間
default
作成したシークレットの構成で指定されている
namespace
に値を設定します。 詳細については、手順 1:シークレットを作成する をご参照ください。データソース
oss://my-dawnbench-v2/
該当なし
サブディレクトリ
mydawnbench-v2
カスタムサブディレクトリを入力できます。
エンドポイント
oss-xxx.aliyuncs.com
該当なし
accessKeyId
secret: imagenet-oss-xxx
secretKey: username
[secret] を、作成したシークレットの
name
に設定します。 詳細については、手順 1:シークレットを作成する をご参照ください。[secretkey] を、作成したシークレットの構成で指定されている
username
に設定します。 詳細については、手順 1:シークレットを作成する をご参照ください。
accessKeySecret
secret: imagenet-oss-xxx
secretKey: password
[secret] を、作成したシークレットの
name
に設定します。 詳細については、手順 1:シークレットを作成する をご参照ください。[secretkey] を、作成したシークレットの構成で指定されている
password
に設定します。 詳細については、手順 1:シークレットを作成する をご参照ください。
アクセスするノードにデータセットが作成されるようにするには、次のコマンドを実行してノードアフィニティを追加します。
aliyun.accelerator/nvidia_name in Tesla-V100-SXM2-16GB;Tesla-V100-SXM2-32GB
[ランタイム構成] を設定します。 name フィールドは、データセットの名前に設定する必要があります。
次の [ランタイム構成] のテンプレートは、例として提供されています。
apiVersion: data.fluid.io/v1alpha1 kind: JindoRuntime metadata: name: oss-imagenet spec: replicas: 2 data: replicas: 1 tieredstore: levels: - mediumtype: SSD path: /var/lib/docker/alluxio quota: 150Gi high: '0.99' low: '0.8'
[保存] をクリックします。 データセットの [状態] には [NotReady] と表示されます。 数秒待ちます。 その後、データセットの [状態] が [Ready] に変わります。
他のストレージサービスに基づいて高速化データセットを作成する
AIダッシュボードにログオンします。 詳細については、「AIダッシュボードへのアクセス」をご参照ください。
AIダッシュボードの左側のナビゲーションウィンドウで、
を選択します。[追加] をクリックします。
[データセットの作成] ダイアログボックスで、次のパラメータを設定します。
作成するデータセットの [名前] を指定し、データセットが属する [名前空間] を選択します。
[その他] を [ソースタイプ] に選択し、[データソース] を設定して、[サブディレクトリ] を設定します。
[ランタイム構成] を設定します。 name フィールドは、データセットの名前に設定する必要があります。
次の [ランタイム構成] のテンプレートは、例として提供されています。
apiVersion: data.fluid.io/v1alpha1 kind: JindoRuntime metadata: name: fluid-imagenet spec: replicas: 4 data: replicas: 1 tieredstore: levels: - mediumtype: SSD path: /var/lib/docker/alluxio quota: 150Gi high: "0.99" low: "0.8"
[保存] をクリックします。 データセットの [状態] には [NotReady] と表示されます。 数秒待ちます。 その後、データセットの [状態] が [Ready] に変わります。
データセットを削除する
通常のユーザーは、高速化されていないデータセットを削除することはできません。 関連する Alibaba Cloud アカウントを持つ管理者のみが、ACK コンソールでデータセットを削除できます。
管理者として AI ダッシュボードにログオンします。
削除するデータセットを見つけ、[削除] 列の [オペレーター] をクリックします。