Lindorm の RAY リソースグループは、分散コンピューティングサービスを提供し、エンドツーエンドの AI ワークロード処理をサポートします。このリソースグループは、標準の RAY コンピューティングモデルとプログラミングインターフェイスと完全に互換性があります。Lindorm のマルチモデルストレージエンジンと深く統合されており、データの前処理、トレーニング、推論タスクを効率的に処理します。このトピックでは、RAY リソースグループの有効化、管理、および課金方法について説明します。
RAY リソースグループは現在、招待制プレビューです。ご利用を希望される場合は、Lindorm のテクニカルサポート (DingTalk ID: s0s3eg3) までお問い合わせください。
前提条件
-
Lindorm LindormTable が有効化されていること。
-
Lindorm コンピューティングエンジンが有効化されていること。
課金方法
RAY リソースグループは常駐モードで実行されます。総コストは、次の 2 つの料金で構成されます。
RAY リソースグループの有効化
Lindorm コンソールにログインします。ページの左上隅で、インスタンスのリージョンを選択します。Instances ページで、ターゲットインスタンスの ID をクリックするか、インスタンスの Actions 列で View Instance Details をクリックします。
-
Instance Details ページの Configurations セクションで、[Compute Engine]の Compute Engine 列にある リソースグループの管理 をクリックします。
-
リソースグループの詳細 ページで リソースグループの作成 をクリックし、以下の項目を設定します。
-
[リソースグループタイプ]: [RAY] を選択します。
-
[リソースグループ名]:リソースグループの名前を入力します。小文字と数字のみを使用してください。名前は 63 文字以内にしてください。例:
raycg。 -
[実行モード]:RAY リソースグループの実行モードです。デフォルトは [常駐する]です。常駐モードでは、RAY ジョブは専用の RAY クラスターに送信されます。ジョブが実行されていない場合、クラスターは最小限のリソースで実行されます。ジョブが送信されると、クラスターは必要に応じて動的にリソースを割り当てます。
-
常駐モードの RAY リソースグループのパラメーター:
-
ヘッドノード設定:クラスターのサイズに応じて、ヘッドノードの仕様とディスク容量を選択します。
-
ワーカーグループ数:シナリオに応じて 1 つ以上のワーカーグループを選択します。各ワーカーグループは、異なるリソース仕様を使用できます。
-
ワーカーグループ設定:各ワーカーグループに対して、独自のリソース仕様、ディスク容量、および実行レプリカの最小数と最大数を設定します。
ヘッドノード設定
設定項目
パラメーターの説明
[Head リソースタイプ]
RAY リソースグループは CPU と GPU のリソースタイプをサポートします。
[Head リソース仕様]
-
CPU リソースの場合、CPU とメモリのクォータ (例:4 コア 8 GB、4 コア 16 GB、8 コア 32 GB) を選択します。クラスターのサイズに応じて選択してください。デフォルトは 4 コア 16 GB です。
-
GPU リソースの場合、利用できるかどうかはインスタンスタイプと在庫状況によって決まります。サポートが必要な場合は、Lindorm のテクニカルサポート (DingTalk ID: s0s3eg3) までお問い合わせください。
[Head ディスクサイズ]
ヘッドノードのディスク容量です。ジョブの実行中に使用されるログ、メモリオーバーフローファイル、リソースファイルの保存に使用されます。デフォルトは 30 GB です。
ワーカーグループ設定
設定項目
パラメーターの説明
[Worker リソースタイプ]
RAY リソースグループは CPU と GPU のリソースタイプをサポートします。
[Worker リソース仕様]
-
CPU リソースの場合、CPU とメモリのクォータ (例:4 コア 8 GB、4 コア 16 GB、8 コア 32 GB) を選択します。実際のジョブの要件に基づいて選択してください。デフォルトは 4 コア 16 GB です。
-
GPU リソースの場合、利用できるかどうかはインスタンスタイプと在庫状況によって決まります。サポートが必要な場合は、Lindorm のテクニカルサポート (DingTalk ID: s0s3eg3) までお問い合わせください。
[Worker ディスク容量]
ワーカーノードのディスク容量です。ジョブの実行中に使用されるログ、メモリオーバーフローファイル、リソースファイルの保存に使用されます。デフォルトは 30 GB です。
[最小 Worker 数]
ワーカーグループ内で実行されるレプリカの最小数です。ジョブがアクティブでない場合、この最小数分のリソースでグループが実行されます。
[最大 Worker 数]
ワーカーグループ内で実行されるレプリカの最大数です。ジョブの実行中に割り当て可能なワーカーノードの最大数を表します。
-
-
-
OK をクリックして RAY リソースグループを作成します。作成には約 20 分かかります。
RAY リソースグループの管理
Lindorm コンソールにログインします。ページの左上隅で、インスタンスのリージョンを選択します。Instances ページで、ターゲットインスタンスの ID をクリックするか、インスタンスの Actions 列で View Instance Details をクリックします。
-
Instance Details ページの Configurations セクションで、[Compute Engine]の Compute Engine 列にある リソースグループの管理 をクリックします。
-
リソースグループの詳細 ページで、RAY リソースグループの Actions 列にある WebUI にマウスポインターを合わせると、その Web UI アドレスが表示されます。例:
http://alb-57k7r581oht8rd****.cn-hangzhou.alb.aliyuncsslb.com/ray/raycg/dashboard/。 -
ブラウザーで、リソースグループの WebUI アドレスにアクセスし、その実行ステータスを確認します。
-
Web UI 上部のメニューでタブを切り替えて、ジョブリスト (Jobs)、クラスターステータス (Cluster)、アクターリスト (Actors)、およびクラスターログ (Logs) を表示できます。
-
[Cluster] タブでは、すべてのクラスターノードの CPU、メモリ、GPU、オブジェクトストア、およびその他のリソース使用状況を表示できます。
-
-
(オプション) リソースグループの詳細 ページでは、既存のリソースグループを Delete することもできます。
説明RAY リソースグループの変更または再起動はサポートされていません。