HBase でコールドホットデータ分離を実装する方法 - ApsaraDB for Hbase (Hbase)

ApsaraDB for HBase パフォーマンス強化版では、ホットデータとコールドデータを異なる種類のストレージメディアに個別に保存できます。これにより、ホットデータクエリの効率が向上し、データストレージコストが削減されます。

背景情報

ビッグデータのシナリオでは、注文データや監視データなどのビジネスデータは時間の経過とともに増加し、大容量のストレージスペースが必要になります。同時に、大量の履歴データがアーカイブされ、ほとんど使用されません。企業は、コストを削減するために、この種のデータを保存するための費用対効果の高いストレージ方法を必要としています。そのため、ApsaraDB for HBase パフォーマンス強化版では、コールドデータとホットデータの分離機能が導入され、簡素化された O&M 構成を使用してストレージコストを最小限に抑えることができます。ApsaraDB for HBase パフォーマンス強化版では、コールドデータを保存するために新しいメディア（コールドストレージ）を使用します。これにより、ウルトラディスクを使用する場合と比較して、ストレージコストを 3 分の 2 削減できます。

ApsaraDB for HBase パフォーマンス強化版では、指定した時間境界に基づいて、同じテーブルに保存されているコールドデータとホットデータを自動的に分離できます。コールドデータはコールドストレージに自動的にアーカイブされます。コールドデータとホットデータを個別に保存するテーブルには、標準テーブルにアクセスするのと同じ方法でアクセスできます。コールドデータとホットデータを個別に保存するテーブルをクエリする場合、システムがコールドデータとホットデータのどちらをスキャンするかを判断するために、クエリヒントまたは時間範囲を指定するだけで済みます。

仕組み

ApsaraDB for HBase パフォーマンス強化版では、テーブルに書き込まれるデータがコールドデータかホットデータかは、データのタイムスタンプと指定された時間境界に基づいて判断されます。タイムスタンプはミリ秒単位です。新しいデータはホットストレージに保存されます。データは時間の経過とともにコールドストレージに移動されます。ビジネス要件に基づいて、コールドデータとホットデータを分離するための時間境界を変更できます。データは、コールドストレージからホットストレージに、またはホットストレージからコールドストレージに移動できます。

使用上の注意

使用上の注意については、「コールドストレージ」をご参照ください。

使用方法

コールドストレージを使用するには、ApsaraDB for HBase パフォーマンス強化版を V2.1.8 以降にアップグレードする必要があります。データの読み取りと書き込みのためにクライアントの依存関係を変更する必要はありません。次のいずれかの方法を使用して、テーブルスキーマを変更するだけで済みます。

Java API を使用する場合は、AliHBase-Connector 1.x のバージョンが 1.0.7 以降、AliHBase-Connector 2.x のバージョンが 2.0.7 以降である必要があります。ApsaraDB for HBase Java API を使用して ApsaraDB for HBase パフォーマンス強化版インスタンスにアクセスするの手順に従って、Java 用 SDK をインストールし、パラメータを構成します。
HBase Shell を使用する場合は、HBase Shell のバージョンが alihbase-2.0.7-bin.tar.gz 以降である必要があります。HBase Shell を使用して ApsaraDB for HBase パフォーマンス強化版インスタンスにアクセスするの手順に従って、HBase Shell をダウンロードして構成します。

コールドストレージを有効にする

クラスターのコールドストレージを有効にする方法については、「コールドストレージ」をご参照ください。

テーブルの時間境界を指定する

COLD_BOUNDARY パラメータを変更して、コールドデータとホットデータを分離するための時間境界を変更できます。時間境界は秒単位で測定されます。たとえば、COLD_BOUNDARY の値が 86400 以上の場合、新しいデータは 86,400 秒（1 日に相当）後にコールドデータとしてアーカイブされます。

コールドデータとホットデータの分離のために、列ファミリのプロパティを COLD に設定する必要はありません。プロパティを COLD に設定している場合は、プロパティを削除します。詳細については、「コールドストレージ」をご参照ください。

[shell]

// コールド データとホット データを個別に保存するテーブルを作成します。
hbase(main):002:0> create 'chsTable', {NAME=>'f', COLD_BOUNDARY=>'86400'}
// コールド データとホット データの分離を無効にします。
hbase(main):004:0> alter 'chsTable', {NAME=>'f', COLD_BOUNDARY=>""}
// テーブルのコールド データとホット データの分離を有効にするか、時間境界を変更します。時間境界は秒単位で測定されます。
hbase(main):005:0> alter 'chsTable', {NAME=>'f', COLD_BOUNDARY=>'86400'}

[java API]

// コールド データとホット データを個別に保存するテーブルを作成します。
Admin admin = connection.getAdmin();
TableName tableName = TableName.valueOf("chsTable");
HTableDescriptor descriptor = new HTableDescriptor(tableName);
HColumnDescriptor cf = new HColumnDescriptor("f");
// COLD_BOUNDARY パラメータは、コールド データとホット データを分離するための時間境界を指定します。単位：秒。この例では、新しいデータは 1 日後にコールド データとしてアーカイブされます。
cf.setValue(AliHBaseConstants.COLD_BOUNDARY, "86400");
descriptor.addFamily(cf);
admin.createTable(descriptor);

// コールド データとホット データの分離を無効にします。
// 注：コールド ストレージからホット ストレージにデータを移動する前に、メジャー コンパクション操作を実行する必要があります。
HTableDescriptor descriptor = admin
    .getTableDescriptor(tableName);
HColumnDescriptor cf = descriptor.getFamily("f".getBytes());
// コールド データとホット データの分離を無効にします。
cf.setValue(AliHBaseConstants.COLD_BOUNDARY, null);
admin.modifyTable(tableName, descriptor);

// テーブルのコールド データとホット データの分離を有効にするか、時間境界を変更します。
HTableDescriptor descriptor = admin
    .getTableDescriptor(tableName);
HColumnDescriptor cf = descriptor.getFamily("f".getBytes());
// COLD_BOUNDARY パラメータは、コールド データとホット データを分離するための時間境界を指定します。単位：秒。この例では、新しいデータは 1 日後にコールド データとしてアーカイブされます。
cf.setValue(AliHBaseConstants.COLD_BOUNDARY, "86400");
admin.modifyTable(tableName, descriptor);

データの書き込み

コールドデータとホットデータを個別に保存するテーブルには、標準テーブルにデータを書き込むのと同じ方法でデータを書き込むことができます。詳細については、「HBase Java API を使用して ApsaraDB for HBase パフォーマンス強化版クラスターにアクセスする」または「複数言語 API を使用して ApsaraDB for HBase パフォーマンス強化版クラスターにアクセスする」をご参照ください。データのタイムスタンプは、データがテーブルに書き込まれたtime です。新しいデータはホットストレージ（標準ディスク）に保存されます。データの保存期間が COLD_BOUNDARY パラメータで指定された値を超えると、システムはメジャーコンパクションプロセス中にデータをコールドストレージに自動的に移動します。このプロセスはユーザーにとって完全に透過的です。

データのクエリ

ApsaraDB for HBase パフォーマンス強化版では、1 つのテーブルを使用してコールドデータとホットデータを保存できます。1 つのテーブルからのみデータをクエリできます。保存期間が COLD_BOUNDARY パラメータで指定された値よりも短いデータをクエリする場合、GET または SCAN ステートメントで HOT_ONLY ヒントを構成して、ホットデータのみをクエリできます。また、GET または SCAN ステートメントで TimeRange パラメータを構成して、クエリするデータの時間範囲を指定することもできます。システムは、指定した時間範囲に基づいて、クエリするデータがホットデータかコールドデータかを自動的に判断します。コールドデータのクエリに必要な時間は、ホットデータのクエリに必要な時間よりも長くなります。[コールドデータの読み取りスループットは、ホットデータの読み取りスループットよりも低くなります。]

例

Get

Shell

// この例では、HOT_ONLY ヒントは使用されていません。システムはコールド データをスキャンする場合があります。
hbase(main):013:0> get 'chsTable', 'row1'
// この例では、HOT_ONLY ヒントが使用されています。システムはホット データのみをスキャンします。row1 がコールド ストレージに保存されている場合、クエリ結果は返されません。
hbase(main):015:0> get 'chsTable', 'row1', {HOT_ONLY=>true}
// この例では、TimeRange パラメータが指定されています。システムは、TimeRange と COLD_BOUNDARY の値に基づいて、スキャンする必要があるデータのスコープを判断します。TIMERANGE の値はミリ秒単位で測定されます。
hbase(main):016:0> get 'chsTable', 'row1', {TIMERANGE => [0, 1568203111265]}

Java

Table table = connection.getTable("chsTable");
// この例では、HOT_ONLY ヒントは使用されていません。システムはコールド データをスキャンする場合があります。
Get get = new Get("row1".getBytes());
System.out.println("result: " + table.get(get));
// この例では、HOT_ONLY ヒントが使用されています。システムはホット データのみをスキャンします。row1 がコールド ストレージに保存されている場合、クエリ結果は返されません。
get = new Get("row1".getBytes());
get.setAttribute(AliHBaseConstants.HOT_ONLY, Bytes.toBytes(true));
// この例では、TimeRange パラメータが指定されています。システムは、TimeRange と COLD_BOUNDARY の値に基づいて、スキャンする必要があるデータのスコープを判断します。TIMERANGE の値はミリ秒単位で測定されます。
get = new Get("row1".getBytes());
get.setTimeRange(0, 1568203111265)

Scan

SCAN ステートメントに HOT_ONLY ヒントまたは時間範囲を構成しない場合、コールドデータとホットデータの両方がクエリされます。クエリ結果は、ApsaraDB for HBase の SCAN 操作の仕組みに基づいてマージされ、返されます。

Shell

// この例では、HOT_ONLY ヒントは使用されていません。システムはホット データとコールド データの両方をスキャンします。
hbase(main):017:0> scan 'chsTable', {STARTROW =>'row1', STOPROW=>'row9'}
// この例では、HOT_ONLY ヒントが使用されています。システムはホット データのみをスキャンします。
hbase(main):018:0> scan 'chsTable', {STARTROW =>'row1', STOPROW=>'row9', HOT_ONLY=>true}
// この例では、TimeRange パラメータが指定されています。システムは、TimeRange と COLD_BOUNDARY の値に基づいて、スキャンする必要があるデータのスコープを判断します。TIMERANGE の値はミリ秒単位で測定されます。
hbase(main):019:0> scan 'chsTable', {STARTROW =>'row1', STOPROW=>'row9', TIMERANGE => [0, 1568203111265]}

Java

TableName tableName = TableName.valueOf("chsTable");
Table table = connection.getTable(tableName);
// この例では、HOT_ONLY ヒントは使用されていません。システムはホット データとコールド データの両方をスキャンします。
Scan scan = new Scan();
ResultScanner scanner = table.getScanner(scan);
for (Result result : scanner) {
    System.out.println("scan result:" + result);
}
// この例では、HOT_ONLY ヒントが使用されています。システムはホット データのみをスキャンします。
scan = new Scan();
scan.setAttribute(AliHBaseConstants.HOT_ONLY, Bytes.toBytes(true));
// この例では、TimeRange パラメータが指定されています。システムは、TimeRange と COLD_BOUNDARY の値に基づいて、スキャンする必要があるデータのスコープを判断します。TIMERANGE の値はミリ秒単位で測定されます。
scan = new Scan();
scan.setTimeRange(0, 1568203111265);

説明

コールドストレージは、アクセス頻度の低いデータをアーカイブするためにのみ使用されます。ほとんどの場合、HOT_ONLY ヒントまたは時間範囲を指定して、ホットデータのみをクエリすることをお勧めします。クラスターがコールドデータにヒットする大量のクエリを受信する場合は、時間境界が適切な値に設定されているかどうかを確認できます。
コールドストレージに保存されている行のフィールドを更新すると、更新後にフィールドはホットストレージに移動されます。この行が HOT_ONLY ヒントまたはホットデータにヒットするように構成された時間範囲を含むクエリにヒットすると、ホットストレージ内の更新されたフィールドのみが返されます。行全体を返すようにするには、クエリステートメントから HOT_ONLY ヒントを削除するか、この行が挿入された時刻から最後に更新された時刻までの期間が指定された時間範囲内にあることを確認する必要があります。コールドストレージに保存されているデータは更新しないことをお勧めします。コールドデータを頻繁に更新する必要がある場合は、時間境界を調整してデータをホットストレージに移動することをお勧めします。

コールドデータとホットデータのサイズをクエリする

[ClusterManager] の [ユーザーテーブル] タブで、テーブル内のコールドデータとホットデータのサイズを確認できます。詳細については、「Lindorm Insight でのクラスタ管理」をご参照ください。

説明

コールドストレージにデータが保存されていない場合、テーブル内のデータはランダムアクセスメモリ（RAM）に保存されている可能性があります。flush コマンドを実行してデータをディスクにフラッシュし、メジャーコンパクション操作を実行できます。メジャーコンパクション操作が完了したら、コールドデータのサイズを確認します。

ホットデータ選択の優先順位付け

SCAN クエリを実行して顧客のすべての注文やチャット記録などの情報をクエリするシナリオでは、システムはホットデータとコールドデータをスキャンして必要なデータをクエリする場合があります。クエリ結果は、データ行がテーブルに書き込まれたタイムスタンプに基づいて降順にページ分割されます。ほとんどの場合、ホットデータはコールドデータの前に表示されます。SCAN クエリで HOT_ONLY ヒントを使用しない場合、システムはホットデータとコールドデータをスキャンします。その結果、クエリ応答時間が長くなります。クエリでホットデータ選択を優先する場合、システムは優先的にホットデータをスキャンします。コールドデータは、さらにクエリ結果を表示する場合にのみクエリされます。たとえば、さらに結果を返すようにシステムに指示する場合は、ページの [次のページ] アイコンをクリックできます。これにより、コールドデータアクセスの頻度と応答時間が短縮されます。

ホットデータ選択を優先するには、SCAN クエリで COLD_HOT_MERGE パラメータの値を true に設定するだけで済みます。これは、システムが最初にホットデータをスキャンすることを示します。さらにクエリ結果を表示する場合、システムはコールドデータをスキャンします。

Shell

hbase(main):002:0> scan 'chsTable', {COLD_HOT_MERGE=>true}

Java

scan = new Scan();
scan.setAttribute(AliHBaseConstants.COLD_HOT_MERGE, Bytes.toBytes(true));
scanner = table.getScanner(scan);

説明

行の特定のフィールドのデータが更新されるシナリオでは、行にはホットデータとコールドデータが保存されます。ホットデータ優先機能を有効にすると、クエリ結果は 2 つのバッチで返されます。結果セットには、同じ行キーの 2 つの結果があります。
ホットデータ優先機能が有効になると、システムはコールドデータの前にホットデータを返すため、指定されたコールドデータの戻り行の行キー値は、指定されたホットデータの戻り行の行キー値よりも小さくなる場合があります。SCAN クエリで返される結果は順番にソートされません。ホットデータの行とコールドデータの行は、行キー値に基づいて個別にソートされます。返される行のソート方法については、次のサンプル結果を参照してください。シナリオによっては、行キーを指定して、SCAN クエリの結果の順序を確保できます。たとえば、テーブルを使用して注文に関する情報を保存します。顧客 ID を保存する列と注文作成時刻を保存する列で構成される行キーを指定できます。これにより、顧客の注文をクエリすると、返される注文は注文作成時刻に基づいてソートされます。

// この例では、行キー値が coldRow の行はコールド データを保存し、行キー値が hotRow の行はホット データを保存します。
// ほとんどの場合、ApsaraDB for HBase の行は辞書順にソートされるため、行キー値が coldRow の行は、行キー値が hotRow の行の前に返されます。
hbase(main):001:0> scan 'chsTable'
ROW                                                                COLUMN+CELL
 coldRow                                                              column=f:value, timestamp=1560578400000, value=cold_value
 hotRow                                                               column=f:value, timestamp=1565848800000, value=hot_value
2 row(s)

// COLD_HOT_MERGE を true に設定すると、システムは最初に hotRow の行キー値を持つ行をスキャンします。その結果、行キー値が hotRow の行は、行キー値が coldRow の行の前に返されます。
hbase(main):002:0> scan 'chsTable', {COLD_HOT_MERGE=>true}
ROW                                                                COLUMN+CELL
 hotRow                                                               column=f:value, timestamp=1565848800000, value=hot_value
 coldRow                                                              column=f:value, timestamp=1560578400000, value=cold_value
2 row(s)

背景情報

仕組み

使用上の注意

使用方法

コールド ストレージを有効にする

テーブルの時間境界を指定する

データの書き込み

データのクエリ

例

Get

Scan

コールド データとホット データのサイズをクエリする

ホット データ選択の優先順位付け

コールドストレージを有効にする

コールドデータとホットデータのサイズをクエリする

ホットデータ選択の優先順位付け