JindoTable を使用して、テーブルとパーティションのアクセス頻度統計を収集し、統計に基づいてコールドデータとホットデータを分離できます。 これにより、ストレージコストを削減し、キャッシュ使用効率を向上させることができます。
アクセスレコードを収集する
JindoTable では、Hive テーブルのアクセスレコードを収集できます。 Spark エンジンと Hive エンジンがこの機能をサポートしています。 収集されたデータは、クラスターの SmartData サービスの名前空間に保存されます。
デフォルトでは、アクセスレコードの収集は有効になっています。 この機能を無効にする場合は、アクセスレコードの収集を無効にするで説明されている操作を実行します。
アクセス頻度統計をクエリする
JindoTable では、コマンドを実行してアクセス頻度統計をクエリできます。
- 構文
jindo table -accessStat <-d [days]> <-n [topNums]>
days
とtopNums
を正の整数に設定します。 days を 1 に設定すると、現在の日の 0:00(現地時間)から現在時刻までに生成されたすべてのアクセスレコードがクエリされます。 - 説明
このコマンドは、指定された期間内に最も頻繁にアクセスされたテーブルまたはパーティションの特定の数のアクセスレコードをクエリするために使用されます。
- 例:過去 7 日間に最も頻繁にアクセスされたテーブルまたはパーティションの 20 件のアクセスレコードをクエリします。
jindo table -accessStat -d 7 -n 20
JindoTable の使用方法の詳細については、「JindoTable を使用する」をご参照ください。
アクセスレコードの収集を無効にする
- 上部のナビゲーションバーで、クラスターが存在するリージョンを選択し、ビジネス要件に基づいてリソースグループを選択します。
- [クラスター管理] タブをクリックします。
- [クラスター管理] ページで、クラスターを見つけて、[アクション] 列の [詳細] をクリックします。
- パラメーターを変更します。重要 次の操作を実行して、関連パラメーターの値の一部を削除できます。
- Hive:
- 左側のナビゲーションペインで、 を選択します。
- [構成] タブをクリックします。
- [サービス構成] セクションの [hive-site] タブをクリックします。
- [構成フィルター] セクションで hive.exec.post.hooks パラメーターを検索し、パラメーター値から com.aliyun.emr.table.hive.HivePostHook を削除します。
- Spark:
- 左側のナビゲーションペインで、 を選択します。
- [構成] タブをクリックします。
- [サービス構成] セクションの [spark-defaults] タブをクリックします。
- [構成フィルター] セクションで spark.sql.queryExecutionListeners パラメーターを検索し、パラメーター値から com.aliyun.emr.table.spark.SparkSQLQueryListener を削除します。
- Hive:
- 構成を保存します。
- [サービス構成] セクションの右上隅にある [保存] をクリックします。
- [変更の確認] ダイアログボックスで、[説明] を指定し、[構成の自動更新] をオンにします。
- [OK] をクリックします。
- 関連サービスを再起動します。
- Hive:
- ページの右上隅で、 を選択します。
- [クラスターアクティビティ] ダイアログボックスで、関連パラメーターを指定します。
- [OK] をクリックします。
- [確認] メッセージで、[OK] をクリックします。
- Spark:
- ページの右上隅で、 を選択します。
- [クラスターアクティビティ] ダイアログボックスで、関連パラメーターを指定します。
- [OK] をクリックします。
- [確認] メッセージで、[OK] をクリックします。
- Hive: