すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:JindoTable を使用してテーブルとパーティションのアクセス頻度統計を収集する

最終更新日:Jan 11, 2025

JindoTable を使用して、テーブルとパーティションのアクセス頻度統計を収集し、統計に基づいてコールドデータとホットデータを分離できます。 これにより、ストレージコストを削減し、キャッシュ使用効率を向上させることができます。

アクセスレコードを収集する

JindoTable では、Hive テーブルのアクセスレコードを収集できます。 Spark エンジンと Hive エンジンがこの機能をサポートしています。 収集されたデータは、クラスターの SmartData サービスの名前空間に保存されます。

デフォルトでは、アクセスレコードの収集は有効になっています。 この機能を無効にする場合は、アクセスレコードの収集を無効にするで説明されている操作を実行します。

アクセス頻度統計をクエリする

JindoTable では、コマンドを実行してアクセス頻度統計をクエリできます。
  • 構文
    jindo table -accessStat <-d [days]> <-n [topNums]>

    daystopNums を正の整数に設定します。 days を 1 に設定すると、現在の日の 0:00(現地時間)から現在時刻までに生成されたすべてのアクセスレコードがクエリされます。

  • 説明

    このコマンドは、指定された期間内に最も頻繁にアクセスされたテーブルまたはパーティションの特定の数のアクセスレコードをクエリするために使用されます。

  • 例:過去 7 日間に最も頻繁にアクセスされたテーブルまたはパーティションの 20 件のアクセスレコードをクエリします。
    jindo table -accessStat -d 7 -n 20

JindoTable の使用方法の詳細については、「JindoTable を使用する」をご参照ください。

アクセスレコードの収集を無効にする


  1. 上部のナビゲーションバーで、クラスターが存在するリージョンを選択し、ビジネス要件に基づいてリソースグループを選択します
  2. [クラスター管理] タブをクリックします。
  3. [クラスター管理] ページで、クラスターを見つけて、[アクション] 列の [詳細] をクリックします。
  4. パラメーターを変更します。
    重要 次の操作を実行して、関連パラメーターの値の一部を削除できます。
    • Hive:
      1. 左側のナビゲーションペインで、[クラスターサービス] > [hive] を選択します。
      2. [構成] タブをクリックします。
      3. [サービス構成] セクションの [hive-site] タブをクリックします。
      4. [構成フィルター] セクションで hive.exec.post.hooks パラメーターを検索し、パラメーター値から com.aliyun.emr.table.hive.HivePostHook を削除します。hive-site
    • Spark:
      1. 左側のナビゲーションペインで、[クラスターサービス] > [spark] を選択します。
      2. [構成] タブをクリックします。
      3. [サービス構成] セクションの [spark-defaults] タブをクリックします。
      4. [構成フィルター] セクションで spark.sql.queryExecutionListeners パラメーターを検索し、パラメーター値から com.aliyun.emr.table.spark.SparkSQLQueryListener を削除します。spark_default
  5. 構成を保存します。
    1. [サービス構成] セクションの右上隅にある [保存] をクリックします。
    2. [変更の確認] ダイアログボックスで、[説明] を指定し、[構成の自動更新] をオンにします。
    3. [OK] をクリックします。
  6. 関連サービスを再起動します。
    • Hive:
      1. ページの右上隅で、[アクション] > [hiveserver2 の再起動] を選択します。
      2. [クラスターアクティビティ] ダイアログボックスで、関連パラメーターを指定します。
      3. [OK] をクリックします。
      4. [確認] メッセージで、[OK] をクリックします。
    • Spark:
      1. ページの右上隅で、[アクション] > [thriftserver の再起動] を選択します。
      2. [クラスターアクティビティ] ダイアログボックスで、関連パラメーターを指定します。
      3. [OK] をクリックします。
      4. [確認] メッセージで、[OK] をクリックします。