このトピックでは、Platform for AI (PAI) のデータサイエンスワークショップ (DSW) の使用方法について説明します。
ステップ1: 準備をする
権限の付与
Alibaba Cloudアカウントを使用してPAIを有効化し、デフォルトのワークスペースを作成します。 PAI コンソールにログインします。 左上隅のリージョンを選択し、[権限付与] および [有効化] をクリックします。 詳細については、「PAIの有効化とデフォルトワークスペースの作成」をご参照ください。
操作アカウントを承認します。 Alibaba Cloudアカウントを使用してDSWを管理する場合は、この手順をスキップできます。 ただし、RAMアカウントを使用する場合は、操作アカウントの承認が必要です。
(オプション) 専用リソースグループの準備
ステップ1の後、パブリックリソースグループが自動的に準備されます。 専用リソースグループを使用する必要がある場合は、「専用リソースグループの作成と一般的なコンピューティングリソースの購入」および「リソースグループの作成とLingjunリソースの購入」をご参照ください。
(オプション) データセットのマウント
パブリックおよび専用リソースグループのストレージ容量は限られており、永続ストレージをサポートしていません。 ストレージを拡張し、データの永続性を確保するために、NASまたはOSSデータセットまたはOSSパスをマウントできます。 詳細については、「データセットの作成と管理」をご参照ください。
重要パブリックリソースグループのDSWインスタンスは、容量が制限された空きディスクを使用します。これは、インスタンスが停止または削除されてから15日後にクリアされます。
専用リソースグループのDSWインスタンスは、システムディスクにデータを保存します。インスタンスを停止または削除すると、一時的なストレージがクリアされます。
(オプション) 画像のカスタム
DSWは、PyTorch、TensorFlow、ModelScopeなど、さまざまな公式画像を提供しています。 特定の開発要件に合わせたカスタムイメージについては、「カスタムイメージ」をご参照ください。
手順2: DSWインスタンスの作成とアクセス
インスタンスの作成
DSWインスタンスを作成するには、「DSWインスタンスの作成」をご参照ください。
インスタンスの管理
インスタンスの開始、停止、削除、インスタンスタイプ、イメージ、データセットなどの設定の変更など、インスタンスのライフサイクル管理と設定の変更については、「DSWインスタンスの管理」をご参照ください。
インスタンスコストを最適化するには、アイドルおよびスケジュールされたシャットダウンポリシーを設定します。 無料トライアルインスタンスでは、アイドルシャットダウンがデフォルトで有効になっています。 管理者は、一般的なシナリオのワークスペーススケジューリングセンターでリソースリサイクルポリシーを設定できます。 詳細については、「Workspaceスケジューリングセンター」をご参照ください。 注意: 専用リソースグループの一時ストレージ内のデータは、インスタンスの停止後に消去されます。 速やかに輸出してください。
インスタンスへのアクセス
DSWのシンプルさと豊富な機能のために、コンソールからDSWインスタンスを開くことを推奨します。 詳細については、「DSWインスタンスへのアクセス」をご参照ください。
クラウドベースのDSWインスタンスでローカルノートブックコードを実行するなど、SSHを使用してDSWインスタンスにアクセスするには、「DSWインスタンスへの接続」をご参照ください。
手順3: DSWインスタンスの使用
モデル開発とトレーニング
DSWでモデルを開発できます。 DSWインスタンスは、コードをデバッグし、実行結果を表示できるインタラクティブな開発環境を提供します。 サードパーティのライブラリを管理して、特定の環境要件を満たすことができます。
分散トレーニングを実行する場合は、DSWのコードをDLCに送信できます。 詳細については、「トレーニングジョブの送信」をご参照ください。
モデル展開
トレーニング済みモデルをオンラインサービスとしてElastic Algorithm service (EAS) にデプロイして、モデル推論を実装できます。 詳細については、「モデル展開」をご参照ください。
データ伝送
データソースへのアクセス DSWは、OSSやMaxComputeなどのさまざまなデータソースとの統合をサポートしており、データファイルをDSWインスタンスにインポートし、処理済みデータをデータソースにエクスポートすることができます。 詳細については、「データの読み書きとファイル転送」をご参照ください。
アップロードとダウンロード。 DSWインスタンスを使用すると、データをアップロードしてダウンロードしたり、DSWでノートブックをエクスポートして共有したりできます。 詳細については、「ファイルの転送と処理」をご参照ください。
手順4: DSWインスタンスの探索
ベストプラクティス
ノートブックギャラリーでは、LLM (large language Model) やAIコンテンツ生成などの分野、Llama 2、Qwen、Stable Diffusionなどのモデルをカバーする幅広いノートブックケースを提供しています。 ノートブックケースを直接実行したり、DSWでノートブックケースに基づいてカスタム開発を実行したりできます。 詳細については、「ノートブックギャラリー」をご参照ください。
高度な機能
DSWは次の高度な機能をサポートしています。
TensorBoardを使用して、DSWでのトレーニングを視覚化できます。 詳細については、「TensorBoard: training visualization」をご参照ください。
DSWでRを実行できます。 詳細については、「DSWへのRカーネルのインストール」をご参照ください。
SQL文を実行して、MaxComputeデータソースのデータを照会できます。 詳細については、「SQLファイルを使用したMaxComputeテーブルのクエリ」をご参照ください。
DSWインスタンスをE-MapReduceクラスターに接続し、Sparkジョブを送信できます。 詳細については、「DSWインスタンスのEMRクラスターへの接続」をご参照ください。
詳細については、「DSWユースケース」をご参照ください。