DataStudio 個人開発環境は、アカウントレベルのクラウド開発インスタンスです。Object Storage Service (OSS)、NAS ストレージ、Git コード管理、および Python/Notebook エコシステムを統合しています。ローカルスクリプトの実行、オンラインデバッグ、タスクの送信をサポートしています。柔軟なカスタムイメージと外部サービス拡張機能を使用することで、データ処理、モデルトレーニング、共同開発に対して効率的でカスタマイズ可能なエンドツーエンドのサポートを提供します。これにより、コードの品質と開発効率が向上します。このトピックでは、個人開発環境の使用方法について説明します。
特徴
DataStudio では、アカウントレベルで個人開発環境インスタンスを作成できます。ネットワークに接続すると、NAS ストレージや Git リポジトリに簡単にアクセスし、Git リポジトリからコードをクローンし、Python および Notebook コードをオンラインで開発およびデバッグできます。また、コードをプロジェクトワークスペースにコミットしてスケジューリングすることもできます。
個人開発環境インスタンス:
SQL、AI Notebook、および Python エコシステムをサポートします。SQL 文、Python スクリプト、および Shell コマンドをローカルで実行し、Notebook 開発タスクを開発できます。また、コードデバッグ機能も提供します。
DataWorks Agent タスクなど、特定のタスクを開発するための拡張機能のインストールをサポートします。
Git と統合してコードを管理します。これにより、コードのクローン、プッシュ、管理が容易になります。
OSS および NAS ストレージをサポートし、簡単なデータ管理とアクセスを実現します。
DataWorks カスタムイメージをサポートします。これにより、作成したイメージに基づいて多様な開発タスクを実行できます。
これらの特徴により、DataStudio は効率的で柔軟かつ強力な開発環境を提供します。これにより、データの処理と分析、モデルのトレーニングが容易になり、開発効率とコード品質が向上します。
課金
個人開発環境インスタンスを作成する際には、リソースグループと計算ユニット (CU) を指定する必要があります。リソースグループの CU は、そのランタイムに基づいて課金されます。詳細については、「Serverless リソースグループの課金」をご参照ください。
個人開発環境インスタンスが [実行中] 状態で、従量課金のリソースグループを使用している場合、
リソースクォータ × インスタンスランタイムの数式に基づいて課金されます。インスタンスがサブスクリプションリソースグループを使用している場合、そのリソースグループの利用可能なクォータが消費されます。個人開発環境インスタンスを使用していない場合は、速やかにインスタンスを停止してください。
範囲
ワークスペースの制限: 個人開発環境は、[新しいバージョンのデータ開発 (DataStudio) を使用する] オプションが有効になっているワークスペースでのみサポートされます。
リソースグループの制限: Serverless リソースグループのみがサポートされます。
数量制限: 各メンバーは、ワークスペース内に最大
10個の個人開発環境インスタンスを作成できます。ストレージの制限: 各個人開発環境インスタンスは、
30 GiBの無料ディスク領域 (インスタンス固有のストレージ) を提供します。このストレージは、インスタンスが停止してから 15 日後に回収されます。個人のコードファイルは適時に保存してください。アクセスの制御: DataStudio は、テナント管理者、ワークスペース管理者、インスタンス所有者などのロールに基づいて、個人開発環境インスタンスの権限を異なる方法で管理します。
テナント管理者とワークスペース管理者
現在のワークスペース内のすべての個人開発環境インスタンスを表示および管理できます。。
自分が所有する個人開発環境インスタンスのみを使用できます。
個人開発環境インスタンスの所有者
自分が所有する個人開発環境インスタンスのみを表示、使用、および管理できます。。
管理操作には[構成の変更]、[停止]、[開始]、[削除]、[イメージの作成]、[スケジュールされたシャットダウン]、[自動シャットダウンポリシーの表示]、およびその他の操作が含まれます。
個人開発環境インスタンスの作成
DataWorks コンソールの [ワークスペース] ページに移動します。上部のナビゲーションバーで、目的のリージョンを選択します。目的のワークスペースを見つけ、[アクション] 列で を選択します。
上部のナビゲーションバーで、[個人開発環境] をクリックします。必要に応じて、既存の個人開発環境インスタンスを選択するか、新しいインスタンスを作成します。
パラメーター
説明
インスタンス名
個人開発環境インスタンスの名前。名前はカスタマイズできます。
インスタンス所有者
デフォルトでは、ワークスペースを作成した現在のユーザーがインスタンス所有者として設定されます。。
リソース詳細
リソースグループ
個人開発環境インスタンスの Serverless リソースグループを選択します。
リソースタイプ
[CPU] および [GPU] リソースタイプを設定できます。
リソースクォータ
必要に応じて、個人開発環境インスタンスのリソース仕様を選択します。
仕様を選択すると、次の情報が表示されます。
[仕様名]、[CPU]、[メモリ]、[帯域幅]、および [リソースクォータ] (選択した仕様に対してリソースグループから差し引かれる CU の数)。
GPU インスタンスの場合、[GPU 仕様] と [GPU メモリ] も表示されます。
Serverless リソースグループの [タスクの CU クォータの割り当て] セクションで、現在の個人開発環境インスタンスが使用できる [最大 CU] または [保証 CU] を割り当てることができます。
重要[リソースクォータ] 情報に注意してください。個人開発環境インスタンスが実行中で、従量課金のリソースグループを使用している場合、
リソースクォータ × インスタンスランタイムの数式に基づいて課金されます。インスタンスがサブスクリプションリソースグループを使用している場合、そのリソースグループの利用可能なクォータが消費されます。イメージの選択
必要に応じて、システム提供のイメージまたはカスタムイメージを選択します。
システム提供のイメージ: 詳細については、「DataWorks 公式イメージ」をご参照ください。
カスタムイメージ: システム提供のイメージに加えて、作成したカスタムイメージを選択できます。カスタムイメージを使用すると、特定のサードパーティパッケージをプリインストールして、カスタム開発のニーズを満たすことができます。カスタムイメージの作成方法については、「個人開発環境で DataWorks イメージを作成する」をご参照ください。
ストレージ設定
システムディスク
各個人開発環境インスタンスは 30 GiB の無料ディスク領域 (インスタンス自身のストレージ) を提供します。このストレージは、インスタンスが停止してから 15 日後に回収されます。個人のコードファイルは適時に保存してください。
インスタンス自身のストレージのデフォルトパスは
/mnt/workspaceです。データセット
個人開発環境で OSS または NAS に保存されているデータを読み書きするには、環境にデータセットを追加できます。
[データセット]: 現在のワークスペースで作成されたファイルストレージタイプ (OSS または NAS) のデータセットを選択できます。次の点に注意してください:
NAS ファイルストレージタイプのデータセットを選択した場合、現在の DataWorks リソースグループのネットワークが NAS マウントポイントに接続されていない場合は、VPC ネットワークを調整して接続性を確保する必要があります。
説明DataWorks リソースグループにバインドされている VPC が NAS マウントポイントにバインドされている VPC と同じ場合、ネットワークは接続されています。
[マウントパス]: デフォルトのマウントパスはデータセットの構成に基づいています。現在のノードに対して手動で変更できます。
[詳細設定]: OSS または NAS データセットを読み取るノードを開発する場合、読み取りメソッドやマウントプロトコルなどの設定を調整するために、さまざまなマネージドデータセットを設定できます。
[読み取り専用]: このオプションを有効にすると、個人開発環境で実行されているタスクはデータを読み取ることしかできず、OSS または NAS にデータを書き込むことはできません。
重要個人開発環境のインスタンスストレージ内のファイルの削除に関する注意:
個人開発環境インスタンスによってマウントされた NAS スペース (デフォルトパス:
/mnt/data) から削除されたファイルは、DataStudio ゴミ箱に移動されません。[ファイルストレージコンソール] で ゴミ箱機能を有効にすると、削除されたファイルはファイルシステムのゴミ箱に移動されます。個人開発環境インスタンスによってマウントされた OSS スペース (デフォルトパス:
/mnt/data) から削除されたファイルは、DataStudio ゴミ箱に移動されません。スケジュールされたバックアップ機能を有効にしてデータを回復できます。インスタンス自身のストレージ (デフォルトパス:
/mnt/workspace) から削除されたファイルは、DataStudio ゴミ箱に移動されません。
ネットワーク設定
VPC
VPC 内のリソース (RDS など) にアクセスする: ここで対応する [VPC] を設定します。
パブリックネットワークリソースにアクセスする: このパラメーターは空のままにします。開発環境はデフォルトでパブリックネットワークアクセスをサポートしています。
VPC とパブリックネットワークリソースの両方にアクセスする: [VPC] を設定した後、インターネットにアクセスするために VPC の パブリックゲートウェイも設定する必要があります。
説明ホワイトリストベースのアクセス制御を持つアドレスにアクセスするには、パブリックネットワーク機能を持つ [VPC] をバインドする必要もあります。
セキュリティグループ
作成したセキュリティグループを選択してアタッチします。
vSwitch
オプション。これを空のままにすると、システムは選択された VPC に基づいて vSwitch をランダムに選択します。
アクセス設定
SSH の有効化
これを有効にすると、ネイティブの SSH メソッドを使用して、選択した VPC 経由で個人開発環境に直接ログインできます。カスタムイメージを設定している場合は、カスタムイメージに sshd がインストールされていることを確認してください。
重要SSH を使用するには、個人開発環境に SSH サーバーをインストールする必要があります。詳細については、「ステップ 4: SSH サーバーをインストールする」をご参照ください。
SSH 公開鍵
ローカルで生成された公開鍵。詳細については、「ステップ 2: SSH 公開鍵を生成する」をご参照ください。
SSH アクセス方法
[VPC 内でのログイン]: このアクセス方法はデフォルトでサポートされています。VPC 内の他の端末 (ECS インスタンスなど) から個人開発環境にアクセスできます。
[インターネット経由でのログイン]: このオプションを選択して、パブリックネットワークアクセスを追加します。また、[NAT Gateway] と [Elastic IP Address] を設定する必要があります。
VPC エンドポイント
これにより、組み込みの権限のあるドメイン名 (PrivateZone) が作成されます。VPC 内でこのドメイン名を使用して、現在のインスタンスの SSH サービスまたは他のカスタムサービスにアクセスできます。これにより、変化するインスタンス IP アドレスを使用する不便さを回避できます。組み込みの権限のあるドメイン名を作成すると、料金が発生することに注意してください。
NAT Gateway
このパラメーターは、パブリックネットワークアクセスに必要です。現在の VPC 用に作成されたパブリック NAT Gatewayを選択します。
Elastic IP Address
このパラメーターは、パブリックネットワークアクセスに必要です。現在の NAT Gateway 用に作成された EIP を選択します。
詳細情報
RAM ロール
RAM ロールを使用すると、ロールを個人開発環境インスタンスに関連付けることができます。これにより、インスタンスはセキュリティトークンサービス (STS) からの一時的な資格情報に基づいて他の Alibaba Cloud プロダクトにアクセスできます。一時的な資格情報は定期的に更新されます。これにより、Alibaba Cloud アカウントの AccessKey のセキュリティが確保され、RAM を介した詳細な制御と権限管理が可能になります。デフォルトでは、[DataWorks のデフォルトロール] が選択されています。
ロールの詳細については、「個人開発環境の RAM ロールを設定する」をご参照ください。
個人開発環境インスタンスの管理
個人開発環境インスタンスの停止
個人開発環境インスタンスが [実行中] 状態で、従量課金のリソースグループを使用している場合、
リソースクォータ × インスタンスランタイムの数式に基づいて課金されます。インスタンスがサブスクリプションリソースグループを使用している場合、そのリソースグループの利用可能なクォータが消費されます。個人開発環境インスタンスを使用していない場合は、速やかにインスタンスを停止してください。
個人開発環境インスタンスは、複数の方法で停止できます。
1. ワークスペースレベルの自動シャットダウンポリシーの設定
Alibaba Cloud アカウントまたはワークスペース管理者は、管理センターに移動して、ワークスペース内のすべての個人開発環境インスタンスの自動シャットダウンポリシーを設定できます。ワークスペース内の実行中のインスタンスは、このポリシーの条件を満たすと自動的にシャットダウンされます。
設定センターページに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。
ページで、[個人開発環境インスタンス] セクションの [自動シャットダウンポリシー] を見つけ、必要に応じて設定します。
パラメーター:
[アイドル期間] は必須パラメーターで、時間単位で測定されます。
[GPU 使用率] または [CPU 使用率] の少なくとも 1 つを設定する必要があります。
説明ここで定義されたシャットダウンポリシーは、現在のワークスペース内のすべての実行中の個人開発環境インスタンスに適用されます。ポリシーは保存後すぐに有効になります。
自動シャットダウン設定を変更すると、個人開発環境インスタンスのアイドル期間が再計算されます。
2. スケジュールされたシャットダウンの設定
DataStudio インターフェイスで、上部のナビゲーションバーの [個人開発環境] をクリックし、[環境の管理] を選択します。
[個人開発環境インスタンス] リストで、シャットダウンをスケジュールしたいインスタンスを探し、[操作] 列の をクリックします。[自動シャットダウン時刻] を設定し、[OK] をクリックします。
3. インスタンスの手動停止
DataStudio インターフェイスで、上部のナビゲーションバーの [個人開発環境] をクリックし、[環境の管理] を選択します。
[個人開発環境インスタンス] リストで、停止したいインスタンスを見つけ、[アクション] 列の [停止] をクリックします。
個人開発環境インスタンスの削除
個人開発環境インスタンスを削除するには、インスタンスリストで削除したいインスタンスを見つけ、[アクション] 列の [削除] をクリックし、表示されるダイアログボックスで削除を確認します。
個人開発環境インスタンスのリソース使用率の表示
インスタンス名の横にある簡単なリソース使用率情報にカーソルを合わせると、各メトリックの詳細情報が表示されます。
個人開発環境でのデータセットの使用
個人開発環境では、ノード実行中にデータセットを使用して OSS または NAS ストレージのデータを読み書きできます。詳細については、「個人開発環境でデータセットを使用する」をご参照ください。
詳細情報
個人開発環境インスタンスからカスタムイメージを作成し、それを他のノードで使用してビジネス目標を達成できます。個人開発環境インスタンスからイメージを作成して使用する方法の詳細については、「個人開発環境から DataWorks イメージを作成する」をご参照ください。
個人開発環境を Git リポジトリに接続してコードをクローン、プッシュ、管理する方法の詳細については、「個人開発環境を Git リポジトリに接続する」をご参照ください。
> [定期シャットダウン]