Elastic High Performance Computing (E-HPC) の管理型クラスターを作成し、Alibaba Cloud 上で HPC ワークロードを実行します。管理型クラスターでは、E-HPC が管理ノードをプロビジョニングおよび維持します。ユーザーは計算ノードとジョブキューのみを管理します。
E-HPC クラスターを作成すると、ECS インスタンスなどのリソースが自動的にプロビジョニングされ、料金が発生します。詳細については、「課金の概要」をご参照ください。
クラスターのアーキテクチャ
管理型クラスターは、以下の 3 つの構成要素で構成されます:
計算ノード:ジョブを実行する ECS インスタンスです。計算ノードはスケーラブルなキューに属します。ワークロードの需要に応じて、計算ノード数を増減できます。
ログオンノード:ログインアドオンがデプロイされた単一の ECS インスタンスで、リモートアクセス用に弾性 IP アドレス(EIP)がバインドされています。
共有ファイルシステム:ジョブおよびアプリケーションデータをすべてのノードで共有するために使用される NAS または Cloud Parallel File Storage(CPFS)ファイルシステムです。
E-HPC クラスター内のノードを管理する際は、必要に応じて ECS コンソール を使用しないでください。代わりに E-HPC コンソール をご使用ください。
詳細については、「クラスターの概要」をご参照ください。
前提条件
開始する前に、以下の条件を満たしていることを確認してください。
E-HPC のサービスリンクロール(E-HPC コンソールへの初回ログイン時に自動的に作成されます)
VPC および vSwitch。『VPC の作成と管理』および『vSwitch の作成』を参照してください。
Apsara File Storage NAS (NAS)が有効化され、ファイルシステムおよびマウントポイントが作成されています。「ファイルシステムの作成」および「マウントポイントの作成」を参照してください。
操作手順
ステップ 1:クラスター作成ページを開く
E-HPC コンソールの「クラスターの作成」ページに移動します。
ステップ 2:クラスターの構成
クラスター構成 ステップで、ネットワーク、クラスタータイプ、スケジューラ設定を構成します。
基本設定
| パラメーター | 説明 |
|---|---|
| リージョン | クラスターを作成するリージョンです。 |
| ネットワークおよび可用性ゾーン | クラスター用の VPC および vSwitch です。ノードは vSwitch から割り当てられた IP アドレスを使用します。vSwitch の利用可能な IP アドレス数がクラスターノード数より多いことを確認してください。 |
| セキュリティグループ | クラスターノードのインバウンドおよびアウトバウンドトラフィックを制御します。次のいずれかのオプションを選択します:[通常セキュリティグループを自動作成]、[エンタープライズセキュリティグループを自動作成]、または[既存のセキュリティグループを選択]。システムはノード間通信用のルールを自動的に作成します。1 つの基本セキュリティグループには、最大 2,000 ノードを含めることができます。より大規模なクラスターの場合は、高度セキュリティグループを使用します。「基本セキュリティグループと高度セキュリティグループ」をご参照ください。 |
クラスタータイプ
管理型クラスターでは、管理ノードと計算ノードが分離されています。E-HPC が管理ノードを作成および維持します。
| パラメーター | 説明 |
|---|---|
| シリーズ | Managed Edition を選択します。 |
| デプロイモード | パブリッククラウドクラスター を選択します。 |
| クラスタータイプ | Slurm を選択します(サポートされている唯一のオプションです)。 |
カスタムオプション
| パラメーター | 説明 |
|---|---|
| スケジューラ | デプロイするスケジューラソフトウェアです。Slurm 22 のみがサポートされています。 |
| ドメインアカウント | クラスター向けのドメインアカウントサービスです。管理型クラスターでは、Network Information Service(NIS)のみがサポートされています。 |
| ドメイン名解決 | デフォルト値を使用します。 |
| クラスターノードの最大数 | クラスターに含めることのできるノードの最大数です。クラスター内のコア数の最大値 と連携してクラスター規模を制御します。 |
| クラスター内のコア数の最大値 | 計算ノードで利用可能な vCPU の最大数です。クラスターノードの最大数 と連携してクラスター規模を制御します。 |
| クラスター削除保護 | 誤ったクラスター削除を防止します。この設定を有効にすると、設定を無効にするまでクラスターをリリースできません。 |
リソースグループ
クラスターをリソースグループに割り当てます。デフォルトでは、クラスターはデフォルトのリソースグループに属します。詳細については、「リソースグループ」をご参照ください。
ステップ 3:計算ノードおよびキューの構成
計算ノードおよびキュー ステップで、キューおよび計算ノードを設定します。
計算ノードはキューに整理されます。ジョブを送信する際には、対象となるキューを指定します。各クラスターには、comp という名前のデフォルトキューがあります。キューを追加するには、キューをさらに追加 をクリックします。
各キューについて、以下のパラメーターを構成します。
基本設定
| パラメーター | 説明 |
|---|---|
| 自動キュー拡張 | 自動スケーリングの有効/無効を切り替えます。この機能を有効化した後、ワークロードに基づいて計算ノードを自動的に追加または削除するため、自動増加 および/または 自動減少 を選択します。 |
| キューの計算ノード | 初期ノード数、最大ノード数、最小ノード数を設定します。自動スケーリングを無効にする場合:初期ノード数を設定します。自動スケーリングを有効にする場合:最小ノード数および最大ノード数を設定します。 |
最小ノード数 をゼロ以外の値に設定すると、アイドル状態であってもスケールイン時にその数のノードが保持されます。不要なコストを回避するため、この値は慎重に設定してください。
キューのノード構成
自動スケーリングが有効である場合、または初期ノード数が 0 より大きい場合に、ノード仕様を構成します。
| パラメーター | 説明 |
|---|---|
| [ノード間相互接続] | コンピューティングノード間の通信モードです。オプション: [VPC ネットワーク] (標準 VPC ネットワーキング) または [eRDMA ネットワーク] (Elastic RDMA インターフェース (ERI) をサポートするインスタンスタイプ向けの eRDMA (Elastic Remote Direct Memory Access) ネットワーキング)。詳細については、「eRDMA の概要」および「エンタープライズレベルインスタンスでの eRDMA の設定」をご参照ください。 |
| [プリセットノードプールを使用] | スケールアウト時に事前割り当て済みリソースを再利用するために、予約済みノードプールを選択します。詳細については、「クラスターでの予約済みノードプールの使用」をご参照ください。 |
| [仮想スイッチ] | コンピューティングノード用の vSwitch です。システムは vSwitch CIDR ブロックから IP アドレスを割り当てます。 |
| [インスタンスタイプグループ] | [インスタンスの追加] をクリックしてインスタンスタイプを選択します。オートスケーリングなしの場合: 1 つのインスタンスタイプ。オートスケーリングありの場合: 複数のインスタンスタイプ。 |
在庫不足時のフォールバックとして、複数の vSwitch およびインスタンスタイプを指定できます。システムは、指定されたインスタンスタイプおよびゾーンの順序に従ってノードの作成を試行します。最初の vSwitch が初期ゾーンを決定します。
自動スケーリング
自動スケーリングが有効な場合に、以下のパラメーターを構成します。
| パラメーター | 説明 |
|---|---|
| スケーリングポリシー | 供給優先戦略 のみがサポートされています。ノードは、設定された vSwitch の順序に従って指定されたゾーンで作成されます。 |
| 単一展開ノードの最大数 | 1 回のスケーリングサイクルで追加または削除するノード数です。デフォルト値は 99 です。このパラメーターを構成することで、計算ノードに関するコストを制御できます。 |
| ホスト名のプレフィックス | 異なるキュー内のノードを識別するためのホスト名のプレフィックスです。 |
| ホスト名のサフィックス | 異なるキュー内のノードを識別するためのホスト名のサフィックスです。 |
| インスタンス RAM ロール | ノードが Alibaba Cloud サービスにアクセスできるようにする RAM ロールです。ドロップダウンメニューからロールを選択します。デフォルトの AliyunECSInstanceForEHPCRole ロールが推奨されます。 |
ステップ 4:共有ファイルストレージの構成
共有ファイルストレージ ステップで、クラスターノード間で共有されるファイルシステムを構成します。
デフォルトでは、ファイルシステムは管理ノードの /home および /opt ディレクトリに共有ストレージとしてマウントされます。他のディレクトリにファイルシステムをマウントする場合は、ストレージをさらに追加 をクリックします。
/home および /opt に異なるファイルシステムのディレクトリをマウントすることはできません。
| パラメーター | 説明 |
|---|---|
| タイプ | ファイルシステムの種類:汎用 NAS、Extreme NAS、または 並列ファイル CPFS です。 |
| ファイルシステム | ファイルシステムの ID およびマウントポイントです。ファイルシステムに十分なマウントポイントがあることを確認してください。 |
| ファイルシステムのディレクトリ | マウント対象のファイルシステムのディレクトリです。 |
| マウントオプション | マウントプロトコルの設定です。 |
ステップ 5:ソフトウェアおよびアドオンの構成
ソフトウェアおよびサービスコンポーネント ステップで、ソフトウェアをインストールし、アドオンを構成します。
ソフトウェアの追加 をクリックします。ダイアログボックスで、インストールする HPC アプリケーションを選択します。
サービスコンポーネントの追加 をクリックします。ダイアログボックスで、アドオンを選択および構成します。
サポートされているのは Login アドオンのみです。パブリッククラウドクラスターでは、インターネット経由でのリモートアクセスを可能にするため、デフォルトで有効になっています。
Login アドオンには、以下のパラメーターがあります。
| カテゴリ | パラメーター | 説明 |
|---|---|---|
| カスタムパラメーター | SSH | SSH 接続のポート番号、プロトコル、および許可される CIDR ブロックです。 |
| カスタムパラメーター | VNC | VNC 接続のポート番号、プロトコル、および許可される CIDR ブロックです。 |
| カスタムパラメーター | Web ポータル | クライアント接続のポート番号、プロトコル、および許可される CIDR ブロックです。 |
| アドオンのデプロイリソース | EIP | Login アドオンの ECS インスタンスにインターネットアクセス用にバインドされる EIP です。既存の EIP を選択するか、新しい EIP を作成します。 |
| アドオンのデプロイリソース | ECS インスタンス | Login アドオンを実行する ECS インスタンスのインスタンスタイプです。 |
ステップ 6:確認および作成
構成の確認 ステップで、クラスター設定を確認し、名前および認証情報を指定します。
| パラメーター | 説明 |
|---|---|
| クラスター名 | クラスター一覧ページで識別用に表示される名前です。 |
| ログイン認証情報 | 認証方式です。カスタムパスワード のみがサポートされています。 |
| パスワードの設定 および パスワードの再入力 | クラスター内のすべてのノードにログインするための root ユーザーのパスワードです。 |
サービス契約を読み、課金内容を確認した後、クラスターの作成 をクリックします。
次のステップ
クラスターが作成された後、ジョブを送信するためのクラスター ユーザーを作成します。「ユーザーの管理」および「ジョブの概要」を参照してください。