RAY リソースグループの作成および管理方法 - Lindorm - Alibaba Cloud ドキュメントセンター

重要

RAY リソースグループは現在 招待プレビュー 期間中です。アクセスをリクエストする場合は、Lindorm テクニカルサポート（DingTalk ID：s0s3eg3）までお問い合わせください。

Lindorm コンピュートエンジン向けの RAY リソースグループは、エンドツーエンドの AI ワークロード処理に必要な分散コンピューティング機能を提供します。Ray コンピューティングモデルおよびプログラミングインターフェイスと互換性があり、Lindorm のマルチモデルストレージエンジンと統合することで、データ前処理、トレーニング、推論タスクを一貫して処理できます。

制限事項

RAY リソースグループでは、現時点では変更または再起動操作をサポートしていません。

前提条件

開始する前に、以下の条件を満たしていることを確認してください。

LindormTable を有効化済みであること
Lindorm のコンピュートエンジンを有効化済みであること

課金

RAY リソースグループは永続モードで動作します。課金額は以下の 2 部分で構成されます。

永続リソース料金：ヘッドノードおよびワーカーノードに設定された永続リソースに基づき、計算ユニット（CU）単位で課金されます。
弾力的リソース料金：ワーカーノードはワークロードに応じた弾力的スケーリングをサポートします。弾力的にスケールしたワーカーノードについては、使用時間に応じて CU が課金されます。

RAY リソースグループの作成

説明

作成には約 20 分かかります。

Lindorm コンソールにログインします。左上隅からご利用のインスタンスのリージョンを選択します。インスタンス ページで、インスタンス ID をクリックするか、操作列の インスタンスの詳細を表示 をクリックします。
インスタンスの詳細 ページの設定セクションで、コンピュートエンジン の操作列より リソースグループ をクリックします。

リソースグループの詳細 ページで、リソースグループの作成 をクリックし、以下のパラメーターを設定します。

パラメーター	説明
リソースグループの種類	RAY を選択します。
リソースグループ名	小文字の英字および数字のみを使用して名前を入力します。最大 63 文字です。例：`raycg`。
実行モード	デフォルトは常駐です。常駐モードでは、Ray クラスターが常に実行されています。ジョブが実行されていない場合、クラスターは最小限のリソースで動作します。ジョブが送信されると、クラスターはジョブの要件に応じて動的にリソースをリクエストします。

ヘッドノード および ワーカーグループ を設定します。

ヘッドノード

パラメーター	説明
ヘッダーリソースタイプ	CPU または GPU を選択します。GPU リソースを利用する場合は、Lindorm テクニカルサポート（DingTalk ID：s0s3eg3）までお問い合わせください。GPU リソースはマシンタイプおよび在庫状況により制限される場合があります。
ヘッドノードのリソース仕様	CPU の場合：4 コア 8 GB、4 コア 16 GB、8 コア 32 GB のいずれかのクォータを選択します。デフォルト：4 コア 16 GB。GPU の場合：Lindorm テクニカルサポート（DingTalk ID：s0s3eg3）までお問い合わせください。
ヘッドディスクサイズ	ログ、メモリオーバーフローファイル、ジョブリソースファイルの保存用ディスク領域です。デフォルト：30 GB。

ワーカーグループ

1 つ以上のワーカーグループを選択します。各ワーカーグループは異なるリソース仕様を設定できます。

パラメーター	説明
ワーカーノードのリソースタイプ	CPU または GPU を選択します。GPU リソースを利用する場合は、Lindorm テクニカルサポート（DingTalk ID：s0s3eg3）までお問い合わせください。GPU リソースはマシンタイプおよび在庫状況により制限される場合があります。
ワーカーノードのリソース仕様	CPU の場合：4 コア 8 GB、4 コア 16 GB、8 コア 32 GB のいずれかのクォータを選択します。デフォルト：4 コア 16 GB。GPU の場合：Lindorm テクニカルサポート（DingTalk ID：s0s3eg3）までお問い合わせください。
ワーカーノードのディスク領域	ログ、メモリオーバーフローファイル、ジョブリソースファイルの保存用ディスク領域です。デフォルト：30 GB。
ワーカーの最小数	ワーカーグループ内の最小レプリカ数です。ジョブが実行されていない場合でも、クラスターはこの数を維持します。
ワーカーの最大数	ジョブ実行時にプロビジョニング可能な最大レプリカ数です。

OK をクリックします。

RAY リソースグループの管理

RAY リソースグループを作成後は、組み込みの WebUI を使用して実行状態をモニターし、ジョブを管理できます。

Lindorm コンソールにログインします。左上隅からご利用のインスタンスのリージョンを選択します。インスタンス ページで、インスタンス ID をクリックするか、操作列の インスタンスの詳細を表示 をクリックします。
インスタンスの詳細 ページの設定セクションで、コンピュートエンジン の操作列より リソースグループ をクリックします。
リソースグループの詳細 ページで、RAY リソースグループの操作列の WebUI にカーソルを合わせると、そのアドレスが表示されます。例：http://alb-57k7r581oht8rd****.cn-hangzhou.alb.aliyuncsslb.com/ray/raycg/dashboard/。

WebUI のアドレスをブラウザで開きます。WebUI には以下の 4 つのタブがあります。

タブ	表示内容
Jobs	送信済みのすべてのジョブおよびそのステータス
Cluster	すべてのノード（CPU、メモリ、GPU、Object Store を含む）のリソース使用量
Actors	クラスター内で実行中のアクター
Logs	クラスターログ

（任意）リソースグループを削除する場合は、リソースグループの詳細 ページの操作列より削除をクリックします。