JindoTable によるテーブルアクセス頻度の分析 - E-MapReduce

JindoTable を使用して、テーブルとパーティションのアクセス頻度統計を収集し、統計に基づいてコールドデータとホットデータを分離できます。これにより、ストレージコストを削減し、キャッシュ使用効率を向上させることができます。

アクセスレコードを収集する

JindoTable では、Hive テーブルのアクセスレコードを収集できます。 Spark エンジンと Hive エンジンがこの機能をサポートしています。収集されたデータは、クラスターの SmartData サービスの名前空間に保存されます。

デフォルトでは、アクセスレコードの収集は有効になっています。この機能を無効にする場合は、アクセスレコードの収集を無効にするで説明されている操作を実行します。

アクセス頻度統計をクエリする

JindoTable では、コマンドを実行してアクセス頻度統計をクエリできます。

構文
```
jindo table -accessStat <-d [days]> <-n [topNums]>
```
days と topNums を正の整数に設定します。 days を 1 に設定すると、現在の日の 0:00（現地時間）から現在時刻までに生成されたすべてのアクセスレコードがクエリされます。
説明
このコマンドは、指定された期間内に最も頻繁にアクセスされたテーブルまたはパーティションの特定の数のアクセスレコードをクエリするために使用されます。
例：過去 7 日間に最も頻繁にアクセスされたテーブルまたはパーティションの 20 件のアクセスレコードをクエリします。
```
jindo table -accessStat -d 7 -n 20
```

JindoTable の使用方法の詳細については、「JindoTable を使用する」をご参照ください。

アクセスレコードの収集を無効にする

上部のナビゲーションバーで、クラスターが存在するリージョンを選択し、ビジネス要件に基づいてリソースグループを選択します。
[クラスター管理] タブをクリックします。
[クラスター管理] ページで、クラスターを見つけて、[アクション] 列の [詳細] をクリックします。
パラメーターを変更します。
重要次の操作を実行して、関連パラメーターの値の一部を削除できます。
- Hive:
  1. 左側のナビゲーションペインで、[クラスターサービス] > [hive] を選択します。
  2. [構成] タブをクリックします。
  3. [サービス構成] セクションの [hive-site] タブをクリックします。
  4. [構成フィルター] セクションで hive.exec.post.hooks パラメーターを検索し、パラメーター値から com.aliyun.emr.table.hive.HivePostHook を削除します。
- Spark:
  1. 左側のナビゲーションペインで、[クラスターサービス] > [spark] を選択します。
  2. [構成] タブをクリックします。
  3. [サービス構成] セクションの [spark-defaults] タブをクリックします。
  4. [構成フィルター] セクションで spark.sql.queryExecutionListeners パラメーターを検索し、パラメーター値から com.aliyun.emr.table.spark.SparkSQLQueryListener を削除します。
構成を保存します。
1. [サービス構成] セクションの右上隅にある [保存] をクリックします。
2. [変更の確認] ダイアログボックスで、[説明] を指定し、[構成の自動更新] をオンにします。
3. [OK] をクリックします。
関連サービスを再起動します。
- Hive:
  1. ページの右上隅で、[アクション] > [hiveserver2 の再起動] を選択します。
  2. [クラスターアクティビティ] ダイアログボックスで、関連パラメーターを指定します。
  3. [OK] をクリックします。
  4. [確認] メッセージで、[OK] をクリックします。
- Spark:
  1. ページの右上隅で、[アクション] > [thriftserver の再起動] を選択します。
  2. [クラスターアクティビティ] ダイアログボックスで、関連パラメーターを指定します。
  3. [OK] をクリックします。
  4. [確認] メッセージで、[OK] をクリックします。