Elastic High Performance Computing (E-HPC) クラスターは、高性能コンピューティング機能を提供する ECS インスタンスのグループです。 典型的な Elastic Compute Service (ECS) インスタンスと比較して、E-HPC クラスターはより高いパフォーマンス、スケーラビリティ、信頼性、および可用性を提供します。 このトピックでは、E-HPC クラスターの用語と機能について説明します。
ノード
E-HPC クラスターの各ノードは ECS インスタンスです。 ノードは、ログオンノード、管理ノード、および計算ノードに分類されます。 次の表に、各タイプのノードと E-HPC クラスターでの役割を示します。
ノード | 説明 |
ログオンノード | ログオンノードは、E-HPC クラスターにログオンするために使用されます。 また、ログオンノードを介して、ソフトウェアのデバッグ、コンパイル、インストール、およびジョブの送信を行うこともできます。 |
管理ノード | 管理ノードは、クラスターを管理するために使用されます。 スケジューリングサービスとドメインアカウントサービスがデプロイされています。
重要 管理ノードは、ジョブのスケジュールとドメインアカウントの解決に使用されます。 ビジネスの継続性を確保するために、管理ノードを使用してソフトウェアをコンパイルしたり、圧縮データをアップロードまたはダウンロードしたりしないでください。 |
計算ノード | 計算ノードは、高性能コンピューティングジョブを実行するために使用されます。 |
計算ノードの数に基づいて、管理ノードのインスタンス仕様を選択し、ジョブをスケジュールすることをお勧めします。 次の表に、推奨されるインスタンス仕様とジョブ数を示します。
計算ノードの数 | 管理ノードの仕様 | ジョブ数 |
100 以下の計算ノード |
|
|
500 以下の計算ノード |
|
|
500 を超える計算ノード |
|
|
イメージ
イメージには、ビジネス用のオペレーティングシステムと構成データが含まれています。 E-HPC クラスターを構成する ECS インスタンスを提供するために使用されます。 E-HPC は、次のタイプのイメージをサポートしています。
パブリックイメージ: Alibaba Cloud によって提供されるイメージ。
カスタムイメージ: ECS インスタンスまたはスナップショットから作成されたイメージ、またはコンピューターからインポートされたイメージ。
共有イメージ: 他の Alibaba Cloud アカウントによって共有されるイメージ。
Alibaba Cloud Marketplace イメージ: Alibaba Cloud Marketplace によってライセンスされている独立系ソフトウェアベンダー (ISV) によって提供されるイメージ。
コミュニティイメージ: Alibaba Cloud コミュニティのイメージプラットフォームでリリースされるイメージ。
選択できるイメージタイプは、指定されたリージョン、ノードに指定されたインスタンスタイプ、および現在の Alibaba Cloud アカウントに使用可能なイメージリソースがあるかどうかによって異なります。 使用可能なすべてのイメージタイプがコンソールに表示されます。
スケジューラー、ドメインアカウントサービス、およびサポートされている共有ストレージとソフトウェアは、イメージによって異なります。
詳細については、「概要」をご参照ください。
スケジューラー
スケジューラーは、クラスターでジョブをスケジュールするために使用されます。 次の表に、E-HPC でサポートされているスケジューラーを示します。
タイプ | スケジューラー | コンソールに表示される名前 |
PBS | PBS Pro19 | pbs19 |
PBS Pro18 | pbs 説明 インストールするスケジューラーソフトウェアのバージョンは、使用するイメージによって異なります。 | |
OpenPBS 20 | ||
OpenPBS 22 | ||
Slurm | Slurm 22 | slurm22 |
Slurm 20 | slurm20 | |
Slurm 19 | slurm19 | |
Slurm 17 | slurm | |
GridEngine | Open Grid Scheduler (SGE) | opengridscheduler |
その他 | Deadline | deadline |
サポートされているスケジューラーは、イメージによって異なります。 詳細については、このトピックの「イメージでサポートされているスケジューラー、ドメインアカウントサービス、および共有ストレージ」セクションをご参照ください。
ドメインアカウントサービス
ドメインアカウントサービスは、クラスターユーザーを管理するために使用されます。 E-HPC は、次のドメインアカウントサービスをサポートしています。
Network Information Service (NIS) は、集中型のID管理を提供します。 NIS サーバーでユーザーを作成できます。 新しいノードが NIS に追加された後、各ノードでユーザーを作成しなくても、そのユーザーを使用してノードにログオンできます。
Lightweight Directory Access Protocol (LDAP) は、E-HPC ユーザーを認証するために使用されます。 LDAP を使用してユーザーを承認およびグループ化することにより、組織内の権限管理を簡素化できます。
サポートされているドメインアカウントサービスは、イメージによって異なります。 詳細については、このトピックの「イメージでサポートされているスケジューラー、ドメインアカウントサービス、および共有ストレージ」セクションをご参照ください。
共有ストレージ
E-HPC クラスターのユーザーデータ、スケジューラー情報、および共有ジョブデータは、クラスター内のすべてのノードが共有アクセスできるようにファイルシステムに保存されます。 E-HPC は、次のタイプのファイルシステムをサポートしています。
Aspara File Storage NAS: 汎用 NAS と Extreme NAS が含まれます。
Cloud Parallel File Storage (CPFS) ファイルシステム: CPFS-NFS および CPFS-POSIX マウント方式をサポートしています。
その他: セルフマネージド NAS ファイルシステムなど、Alibaba Cloud でホストされていないファイルストレージ。
サポートされているストレージは、イメージによって異なります。 詳細については、このトピックの「イメージでサポートされているスケジューラー、ドメインアカウントサービス、および共有ストレージ」セクションをご参照ください。
イメージでサポートされているスケジューラー、ドメインアカウントサービス、および共有ストレージ
次の表に、イメージでサポートされているスケジューラー、ドメインアカウントサービス、および共有ストレージを示します。
E-HPC コンソールで E-HPC クラスターを作成する場合、サポートされているイメージタイプ、スケジューラー、およびドメインアカウントサービスがコンソールに表示されます。
表でカスタムスケジューラー、カスタムドメインアカウントサービス、またはカスタム共有ストレージのラベルが付いているイメージの場合、スケジューラー、ドメインアカウントサービス、および共有ストレージはイメージに提供されていません。 これらを自分でインストールする必要があります。
CentOS 6 と CentOS 8 は EOL に達しました。つまり、Linux コミュニティはこれらのオペレーティングシステムバージョンをもう保守していません。 セキュリティと信頼性の理由から、他のオペレーティングシステムに切り替えることをお勧めします。 詳細については、「CentOS 6 リポジトリアドレスを変更するにはどうすればよいですか。」および「CentOS 8 リポジトリアドレスの変更」をご参照ください。
パブリックイメージ | スケジューラー | ドメインアカウントサービス | 共有ストレージ |
|
|
|
|
CentOS 8.0 64 ビット | Open PBS 20 | NIS |
|
CentOS 6.9 64 ビット |
|
|
|
CentOS 6.10 64 ビット | カスタム | カスタム |
|
Alibaba Cloud Linux 2.1903 LTS 64 ビット | PBS Pro18 |
|
|
Alibaba Cloud Linux 3.2104 LTS 64 ビット | Open Grid Scheduler (SGE) | NIS |
|
Alibaba Cloud Linux 3.2104 LTS 64 ビット for ARM | Open Grid Scheduler (SGE) | NIS |
|
Ubuntu 20.04 64 ビット | Slurm 22 | NIS |
|
Ubuntu 20.04 64 ビット for ARM | Slurm 22 | NIS |
|
| カスタム | カスタム | カスタム |
E-HPC クラスターユーザー
E-HPC クラスターでジョブを送信、デバッグ、および実行するには、ユーザーを作成する必要があります。 ユーザーを作成するときに、2 つのタイプの権限をユーザーに付与できます。
通常の権限: ジョブを送信およびデバッグするだけの通常のユーザーに適しています。
Sudo 権限: E-HPC クラスターを管理する必要がある管理ユーザーに適しています。 通常の権限に加えて、sudo 権限により、ユーザーは sudo コマンドを実行してソフトウェアをインストールし、ノードを再起動できます。
重要root ユーザーは、E-HPC クラスターを作成するときにのみ作成できます。 日常業務には root ユーザーを使用しないことをお勧めします。 これにより、不適切な操作や誤操作によるクラスターデータの損傷のリスクが最小限に抑えられます。
詳細については、「ユーザーの管理」をご参照ください。
ソフトウェア
E-HPC は、主要なコンピューティングアプリケーション、ランタイムライブラリ、および Message Passing Interface (MPI) ライブラリへのアクセスを提供します。 ビジネス要件に基づいてソフトウェアをインストールできます。 詳細については、「ソフトウェアの概要」をご参照ください。
E-HPC クラスターの状態
[作成中]: クラスターが作成されています。 クラスターを構成する ECS インスタンスはこの段階で作成されます。
[初期化されていません]: イメージがクラスター内のインスタンスにインストールされています。
[初期化中]: クラスターが初期化されています。 root ユーザーはこの段階で初期化されます。
[実行中]: クラスターは稼働しています。
[異常]: 管理ノードが削除または停止された場合、またはスケジューラーがログオフされた場合、クラスターは [異常] 状態になります。 クラスターの復元を試みることができます。 クラスターを復元できない場合は、submit a ticket を送信してください。
[解放中]: クラスターはシャットダウン中で、解放されます。