StarRocks FE と BE ノード仕様概要 - E-MapReduce (EMR)

このトピックでは、StarRocks 非共有インスタンスまたは共有データインスタンスの仕様を計画する方法について説明します。 StarRocks インスタンスを作成する際の参考として、このトピックの推奨事項を使用できます。

非共有インスタンス

StarRocks 非共有インスタンスには、フロントエンドノード（FE）とバックエンドノード（BE）のみが含まれます。このセクションでは、FE と BE の仕様を計画する方法について説明します。

BE の CU の総数を推定する

StarRocks 非共有インスタンスでは、BE はデータの保存と計算タスクの実行に使用されます。

数式
```
CU の総数 = スキャンされる行の総数 / CPU 処理能力 / 予想応答時間 × クエリ/秒（QPS）
```
パラメータの説明：
- スキャンされる行の総数：各 SQL 文でスキャンされると予想される行の総数。このパラメータは、単一のテーブル内の行の総数を指すのではなく、実際にスキャンされる行の数に限定されることに注意してください。
- CPU 処理能力：この値は、さまざまな SQL 文の複雑さに基づいて動的に変化します。ほとんどの場合、1 秒あたり 1,000 万行から 1 億行の範囲です。 SQL の複雑さが高いほど、処理される行数は少なくなります。
- 予想応答時間：SQL 文の予想実行時間。たとえば、SQL 文は 1 秒で結果を返すことが期待されています。
- QPS：1 秒あたりに同時に送信される SQL 文の数。例：1 秒あたり 30 クエリ。

サンプルデータ

重要

SQL の複雑さが異なるとバリエーションが生じる可能性があるため、数式ベースの推定は十分に正確ではない場合があります。実稼働環境では、推定結果と実際のビジネスのロードテスト結果を組み合わせて、最終的に必要なリソースを評価する必要があります。

スキャンされる行の総数	SQL の複雑さ	CPU 処理能力（行/秒）	予想応答時間（秒）	QPS	推定 CU 総数	推定 BE 仕様
5,000 万	高	2,000 万	2	50	63	16 CU × 4
5,000 万	中	5,000 万	1.5	100	67	16 CU × 5
5,000 万	低	1 億	1	200	100	32 CU × 3
10 億	高	2,000 万	5	20	200	32 CU × 7
10 億	中	5,000 万	3	50	333	64 CU × 6
10 億	低	1 億	1	80	800	64 CU × 13
300 億	高	2,000 万	30	10	500	64 CU × 8
300 億	中	5,000 万	15	20	800	64 CU × 13
300 億	低	1 億	15	20	400	64 CU × 6
3,000 億	高	2,000 万	60	5	2,083	64 CU × 33
3,000 億	中	5,000 万	45	10	2,222	64 CU × 35
3,000 億	低	1 億	45	10	1,111	64 CU × 18

BE のストレージ容量を推定する

StarRocks インスタンスに必要な合計ストレージ容量は、元のデータのサイズ、データレプリカの数、および使用されるデータ圧縮アルゴリズムの圧縮率の影響を受けます。

数式
```
必要な合計ストレージ容量 = 元のデータのサイズ × データレプリカの数 / データ圧縮アルゴリズムの圧縮率
```
パラメータの説明：
- 元のデータのサイズ：1 行のサイズ × データ行の総数。
- データレプリカの数：StarRocks 非共有アーキテクチャでは、ほとんどの場合、レプリカの数は 3 です。
- データ圧縮アルゴリズムの圧縮率：StarRocks は、zlib、Zstandard（zstd）、LZ4、および Snappy の 4 つのデータ圧縮アルゴリズムをサポートしています（圧縮率の降順に並べられています）。これらのデータ圧縮アルゴリズムは、3:1 から 5:1 の圧縮率を提供できます。
サンプルデータ
1 行のサイズ（KB）
データ行の総数
データレプリカの数
データ圧縮アルゴリズムの圧縮率
推定合計ストレージ容量（GB）
50
100,000,000
3
3
4,768.37
説明
上記の表の推定結果は参考値です。実稼働環境では、推定結果と実際のビジネスのロードテスト結果を組み合わせて、最終的に必要なリソースを評価する必要があります。

BE のディスク仕様を推定する

数式：

単一 BE の合計ディスクサイズ = 合計ストレージ容量 / ディスク使用率 / BE の数

パラメータの説明：

合計ストレージ容量：前に推定された BE の合計ストレージ容量。
ディスク使用率：ディスク使用率は 80% を推奨します。残りの 20% の容量は計算用に予約されています。
BE の数：CU の推定結果に基づいて決定される BE の数。

たとえば、合計ストレージ容量が 4,768 GB、ディスク使用率が 80%、BE の数が 11 の場合、単一 BE の合計ディスクサイズは 541 GB です。この結果は、次の数式に基づいて計算されます：4768 GB / 80% / 11 = 541 GB。

ディスクの数を決定する

ディスクの数は、ESSD のパフォーマンスと各ノードの合計ディスクサイズに基づいて決定できます。単一ディスクのパフォーマンスを最適化するために、次の表の情報に基づいて PL1 の ESSD の数を決定することをお勧めします。

単一 BE の合計ディスクサイズ	ディスクタイプ	推奨ディスク数
<= 500 GB	ESSD PL1	1
500 GB～1 TB	ESSD PL1	1 または 2
1 TB～1.5 TB	ESSD PL1	2 または 3
1.5 TB～2 TB	ESSD PL1	3 または 4
2 TB～2.5 TB	ESSD PL1	4 または 5
2.5 TB～3 TB	ESSD PL1	5 または 6
3 TB～3.5 TB	ESSD PL1	6 または 7
3.5 TB～4 TB	ESSD PL1	7 または 8
> 4 TB	ESSD PL1	8

さまざまなタイプの ESSD の上限パフォーマンス：

ESSD PL0：ディスクサイズが 320 GB の場合に上限 I/O パフォーマンスに達します。
ESSD PL1：ディスクサイズが 460 GB の場合に上限 I/O パフォーマンスに達します。
ESSD PL2：ディスクサイズが 1,260 GB の場合に上限 I/O パフォーマンスに達します。
ESSD PL3：ディスクサイズが 7,760 GB の場合に上限 I/O パフォーマンスに達します。

PL1 の ESSD に関する上記の推奨事項に基づいて、他の ESSD タイプのディスクの数を調整してパフォーマンスを最適化します。

FE の仕様を推定する

FE は、主にメタデータ管理、クライアント接続管理、クエリ計画、およびクエリスケジューリングに使用されます。

FE の仕様は、BE の CU の総数に基づいておおまかに推定できます。次の表に具体的な推奨事項を示します。 FE の単一データディスクのサイズは 100 GB にできます。ストレージ容量が不足している場合は、データディスクのサイズを個別に変更できます。

BE CU の総数	シナリオタイプ	推奨 FE 仕様
< 120 CU	共通	8 CU × 3
120 CU～1,000 CU	共通	16 CU × 3
1,000 CU～3,000 CU	共通	32 CU × 3
>= 3,000 CU	共通	64 CU × 3

説明

上記の表の推定結果は参考値です。実稼働環境では、推定結果と実際のビジネスのロードテスト結果を組み合わせて、最終的に必要なリソースを評価する必要があります。
高並列ポイントクエリシナリオでは、FE の数を増やすことをお勧めします。たとえば、数を 5 に増やすことができます。

共有データインスタンス

StarRocks 共有データインスタンスには、FE と計算ノード（CN）のみが含まれます。

CN の CU の総数を推定する

非共有インスタンスのBE の CU の総数を推定するを参照できます。

CN のストレージ容量を推定する

CN のストレージ容量は、主にデータのキャッシュに使用されます。

数式
```
必要な合計ストレージ容量 = 元のデータのサイズ / データ圧縮アルゴリズムの圧縮率 × ホットデータの割合
```
パラメータの説明：
- 元のデータのサイズ：1 行のサイズ × データ行の総数。
- データ圧縮アルゴリズムの圧縮率：StarRocks は、zlib、zstd、LZ4、および Snappy の 4 つのデータ圧縮アルゴリズムをサポートしています（圧縮率の降順に並べられています）。これらのデータ圧縮アルゴリズムは、3:1 から 5:1 の圧縮率を提供できます。
- ホットデータの割合：ビジネス状況に基づいて、頻繁にクエリされるホットデータの割合を評価できます。たとえば、評価結果は 50% の割合になる場合があります。特定の割合が不明で、共有データインスタンスのクエリパフォーマンスが要件をできるだけ満たすことを期待している場合は、割合を 100% に設定することをお勧めします。これは、完全なデータレプリカを示します。主キーインデックスも一定量のキャッシュ容量を占有します。 20% のバッファを予約することをお勧めします。したがって、この値を 120% に設定することをお勧めします。
サンプルデータ
1 行のサイズ（KB）
データ行の総数
データ圧縮アルゴリズムの圧縮率
ホットデータの割合
推定合計ストレージ容量（GB）
50
100,000,000
3
120%
1,907.35
説明
上記の表の推定結果は参考値です。実稼働環境では、推定結果と実際のビジネスのロードテスト結果を組み合わせて、最終的に必要なリソースを評価する必要があります。

非共有インスタンスのBE のディスク仕様を推定するを参照して、単一 CN のディスクのサイズと数を推定できます。

FE の仕様を推定する

非共有インスタンスのFE の仕様を推定するを参照できます。

1 行のサイズ（KB）	データ行の総数	データレプリカの数	データ圧縮アルゴリズムの圧縮率	推定合計ストレージ容量（GB）
50	100,000,000	3	3	4,768.37