すべてのプロダクト
Search
ドキュメントセンター

Elastic High Performance Computing:概要

最終更新日:Jan 11, 2025

Elastic High Performance Computing (E-HPC) クラスターは、高性能コンピューティング機能を提供する ECS インスタンスのグループです。 典型的な Elastic Compute Service (ECS) インスタンスと比較して、E-HPC クラスターはより高いパフォーマンス、スケーラビリティ、信頼性、および可用性を提供します。 このトピックでは、E-HPC クラスターの用語と機能について説明します。

ノード

E-HPC クラスターの各ノードは ECS インスタンスです。 ノードは、ログオンノード、管理ノード、および計算ノードに分類されます。 次の表に、各タイプのノードと E-HPC クラスターでの役割を示します。

ノード

説明

ログオンノード

ログオンノードは、E-HPC クラスターにログオンするために使用されます。 また、ログオンノードを介して、ソフトウェアのデバッグ、コンパイル、インストール、およびジョブの送信を行うこともできます。

管理ノード

管理ノードは、クラスターを管理するために使用されます。 スケジューリングサービスとドメインアカウントサービスがデプロイされています。

  • スケジューリングサービスは、PBS や Slurm などのスケジューラーを実行し、ジョブを処理およびスケジュールします。

  • ドメインアカウントサービスは、クラスターのユーザー情報を管理するために使用されます。

重要

管理ノードは、ジョブのスケジュールとドメインアカウントの解決に使用されます。 ビジネスの継続性を確保するために、管理ノードを使用してソフトウェアをコンパイルしたり、圧縮データをアップロードまたはダウンロードしたりしないでください。

計算ノード

計算ノードは、高性能コンピューティングジョブを実行するために使用されます。

計算ノードの数に基づいて、管理ノードのインスタンス仕様を選択し、ジョブをスケジュールすることをお勧めします。 次の表に、推奨されるインスタンス仕様とジョブ数を示します。

計算ノードの数

管理ノードの仕様

ジョブ数

100 以下の計算ノード

  • 16 個以上の vCPU

  • 64 GiB 以上のメモリ

  • 5,000 未満のキューイングされたジョブ

  • 10,000 未満の未完了のジョブ

500 以下の計算ノード

  • 32 個以上の vCPU

  • 128 GiB 以上のメモリ

  • 10,000 未満のキューイングされたジョブ

  • 20,000 未満の未完了のジョブ

500 を超える計算ノード

  • 64 個以上の vCPU

  • 256 GiB 以上のメモリ

  • 10,000 未満のキューイングされたジョブ

  • 20,000 未満の未完了のジョブ

イメージ

イメージには、ビジネス用のオペレーティングシステムと構成データが含まれています。 E-HPC クラスターを構成する ECS インスタンスを提供するために使用されます。 E-HPC は、次のタイプのイメージをサポートしています。

  • パブリックイメージ: Alibaba Cloud によって提供されるイメージ。

  • カスタムイメージ: ECS インスタンスまたはスナップショットから作成されたイメージ、またはコンピューターからインポートされたイメージ。

  • 共有イメージ: 他の Alibaba Cloud アカウントによって共有されるイメージ。

  • Alibaba Cloud Marketplace イメージ: Alibaba Cloud Marketplace によってライセンスされている独立系ソフトウェアベンダー (ISV) によって提供されるイメージ。

  • コミュニティイメージ: Alibaba Cloud コミュニティのイメージプラットフォームでリリースされるイメージ。

重要
  • 選択できるイメージタイプは、指定されたリージョン、ノードに指定されたインスタンスタイプ、および現在の Alibaba Cloud アカウントに使用可能なイメージリソースがあるかどうかによって異なります。 使用可能なすべてのイメージタイプがコンソールに表示されます。

  • スケジューラー、ドメインアカウントサービス、およびサポートされている共有ストレージとソフトウェアは、イメージによって異なります。

詳細については、「概要」をご参照ください。

スケジューラー

スケジューラーは、クラスターでジョブをスケジュールするために使用されます。 次の表に、E-HPC でサポートされているスケジューラーを示します。

タイプ

スケジューラー

コンソールに表示される名前

PBS

PBS Pro19

pbs19

PBS Pro18

pbs

説明

インストールするスケジューラーソフトウェアのバージョンは、使用するイメージによって異なります。

OpenPBS 20

OpenPBS 22

Slurm

Slurm 22

slurm22

Slurm 20

slurm20

Slurm 19

slurm19

Slurm 17

slurm

GridEngine

Open Grid Scheduler (SGE)

opengridscheduler

その他

Deadline

deadline

説明

サポートされているスケジューラーは、イメージによって異なります。 詳細については、このトピックの「イメージでサポートされているスケジューラー、ドメインアカウントサービス、および共有ストレージ」セクションをご参照ください。

ドメインアカウントサービス

ドメインアカウントサービスは、クラスターユーザーを管理するために使用されます。 E-HPC は、次のドメインアカウントサービスをサポートしています。

  • Network Information Service (NIS) は、集中型のID管理を提供します。 NIS サーバーでユーザーを作成できます。 新しいノードが NIS に追加された後、各ノードでユーザーを作成しなくても、そのユーザーを使用してノードにログオンできます。

  • Lightweight Directory Access Protocol (LDAP) は、E-HPC ユーザーを認証するために使用されます。 LDAP を使用してユーザーを承認およびグループ化することにより、組織内の権限管理を簡素化できます。

説明

サポートされているドメインアカウントサービスは、イメージによって異なります。 詳細については、このトピックの「イメージでサポートされているスケジューラー、ドメインアカウントサービス、および共有ストレージ」セクションをご参照ください。

共有ストレージ

E-HPC クラスターのユーザーデータ、スケジューラー情報、および共有ジョブデータは、クラスター内のすべてのノードが共有アクセスできるようにファイルシステムに保存されます。 E-HPC は、次のタイプのファイルシステムをサポートしています。

  • Aspara File Storage NAS: 汎用 NAS と Extreme NAS が含まれます。

  • Cloud Parallel File Storage (CPFS) ファイルシステム: CPFS-NFS および CPFS-POSIX マウント方式をサポートしています。

  • その他: セルフマネージド NAS ファイルシステムなど、Alibaba Cloud でホストされていないファイルストレージ。

説明

サポートされているストレージは、イメージによって異なります。 詳細については、このトピックの「イメージでサポートされているスケジューラー、ドメインアカウントサービス、および共有ストレージ」セクションをご参照ください。

イメージでサポートされているスケジューラー、ドメインアカウントサービス、および共有ストレージ

次の表に、イメージでサポートされているスケジューラー、ドメインアカウントサービス、および共有ストレージを示します。

説明
  • E-HPC コンソールで E-HPC クラスターを作成する場合、サポートされているイメージタイプ、スケジューラー、およびドメインアカウントサービスがコンソールに表示されます。

  • 表でカスタムスケジューラー、カスタムドメインアカウントサービス、またはカスタム共有ストレージのラベルが付いているイメージの場合、スケジューラー、ドメインアカウントサービス、および共有ストレージはイメージに提供されていません。 これらを自分でインストールする必要があります。

  • CentOS 6 と CentOS 8 は EOL に達しました。つまり、Linux コミュニティはこれらのオペレーティングシステムバージョンをもう保守していません。 セキュリティと信頼性の理由から、他のオペレーティングシステムに切り替えることをお勧めします。 詳細については、「CentOS 6 リポジトリアドレスを変更するにはどうすればよいですか。」および「CentOS 8 リポジトリアドレスの変更」をご参照ください。

パブリックイメージ

スケジューラー

ドメインアカウントサービス

共有ストレージ

  • CentOS 7.2 64 ビット

  • CentOS 7.3 64 ビット

  • CentOS 7.4 64 ビット

  • CentOS 7.5 64 ビット

  • CentOS 7.6 64 ビット

  • CentOS 7.8 64 ビット

  • CentOS 7.9 64 ビット

  • CentOS 7.9 64 ビット (UEFI)

  • PBS Pro18

  • PBS Pro19

  • Slurm 17

  • Slurm 19

  • Slurm 20

  • Slurm 22

  • Open Grid Scheduler (SGE)

  • Deadline

  • NIS

  • LDAP

  • 汎用 NAS

  • Extreme NAS

  • CPFS-NFS

  • CPFS-POSIX

CentOS 8.0 64 ビット

Open PBS 20

NIS

  • 汎用 NAS

  • Extreme NAS

  • CPFS-NFS

CentOS 6.9 64 ビット

  • PBS Pro18

  • Deadline

  • NIS

  • LDAP

  • 汎用 NAS

  • Extreme NAS

CentOS 6.10 64 ビット

カスタム

カスタム

  • 汎用 NAS

  • Extreme NAS

Alibaba Cloud Linux 2.1903 LTS 64 ビット

PBS Pro18

  • NIS

  • LDAP

  • 汎用 NAS

  • Extreme NAS

  • CPFS-NFS

Alibaba Cloud Linux 3.2104 LTS 64 ビット

Open Grid Scheduler (SGE)

NIS

  • 汎用 NAS

  • Extreme NAS

  • CPFS-NFS

Alibaba Cloud Linux 3.2104 LTS 64 ビット for ARM

Open Grid Scheduler (SGE)

NIS

  • 汎用 NAS

  • Extreme NAS

  • CPFS-NFS

Ubuntu 20.04 64 ビット

Slurm 22

NIS

  • 汎用 NAS

  • Extreme NAS

  • CPFS-NFS

Ubuntu 20.04 64 ビット for ARM

Slurm 22

NIS

  • 汎用 NAS

  • Extreme NAS

  • CPFS-NFS

  • Windows Server 2022

  • Windows Server 2019

  • Windows Server 2016

  • Windows Server 2012 R2

  • Windows Server 2008 R2

カスタム

カスタム

カスタム

E-HPC クラスターユーザー

E-HPC クラスターでジョブを送信、デバッグ、および実行するには、ユーザーを作成する必要があります。 ユーザーを作成するときに、2 つのタイプの権限をユーザーに付与できます。

  • 通常の権限: ジョブを送信およびデバッグするだけの通常のユーザーに適しています。

  • Sudo 権限: E-HPC クラスターを管理する必要がある管理ユーザーに適しています。 通常の権限に加えて、sudo 権限により、ユーザーは sudo コマンドを実行してソフトウェアをインストールし、ノードを再起動できます。

    重要

    root ユーザーは、E-HPC クラスターを作成するときにのみ作成できます。 日常業務には root ユーザーを使用しないことをお勧めします。 これにより、不適切な操作や誤操作によるクラスターデータの損傷のリスクが最小限に抑えられます。

詳細については、「ユーザーの管理」をご参照ください。

ソフトウェア

E-HPC は、主要なコンピューティングアプリケーション、ランタイムライブラリ、および Message Passing Interface (MPI) ライブラリへのアクセスを提供します。 ビジネス要件に基づいてソフトウェアをインストールできます。 詳細については、「ソフトウェアの概要」をご参照ください。

E-HPC クラスターの状態

  • [作成中]: クラスターが作成されています。 クラスターを構成する ECS インスタンスはこの段階で作成されます。

  • [初期化されていません]: イメージがクラスター内のインスタンスにインストールされています。

  • [初期化中]: クラスターが初期化されています。 root ユーザーはこの段階で初期化されます。

  • [実行中]: クラスターは稼働しています。

  • [異常]: 管理ノードが削除または停止された場合、またはスケジューラーがログオフされた場合、クラスターは [異常] 状態になります。 クラスターの復元を試みることができます。 クラスターを復元できない場合は、submit a ticket を送信してください。

  • [解放中]: クラスターはシャットダウン中で、解放されます。