すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:JindoFSx の透過キャッシュ機能を使用して OSS または OSS-HDFS へのアクセスを高速化する

最終更新日:Jan 11, 2025

JindoFSx ストレージアクセラレーションシステムは、透過的なキャッシュ機能を提供し、Object Storage Service(OSS)および HDFS のオブジェクトストレージ形式と互換性があります。 ファイルは OSS または OSS-HDFS バケットにオブジェクトとして保存されます。 JindoFSx を使用すると、頻繁にアクセスされるオブジェクトがローカルディスクにキャッシュされ、OSS または OSS-HDFS のデータアクセス効率が向上します。 JindoFSx を使用すると、オブジェクト形式を変換することなく、OSS または OSS-HDFS のオブジェクトにアクセスできます。 JindoFSx は、OSS および OSS-HDFS クライアントと完全に互換性があります。 これにより、ジョブが OSS または OSS-HDFS バケットに保存されているデータにアクセスする方法を変更する必要はありません。

前提条件

EMR コンソールで EMR V3.42.0 以降のマイナーバージョンのクラスタ、または EMR V5.6.0 以降のマイナーバージョンのクラスタが作成され、クラスタの作成時にオプションサービスから JindoData サービスが選択されています。 詳細については、「クラスタの作成」をご参照ください。

制限事項

この機能は、EMR V3.42.0 以降のマイナーバージョンのクラスタと EMR V5.6.0 以降のマイナーバージョンのクラスタでのみサポートされています。

手順

説明

このトピックでは、EMR V3.42.0 のクラスタを使用します。

  1. 手順 1:AccessKey ペアを設定する

  2. 手順 2:JindoSDK を設定する

  3. 手順 3:ディスク容量の使用量を制御する

手順 1:AccessKey ペアを設定する

  1. JindoData サービスの [共通] タブに移動します。

    1. 上部のナビゲーションバーで、クラスタが存在するリージョンを選択し、ビジネス要件に基づいてリソースグループを選択します

    2. [EMR On ECS] ページで、管理するクラスタを見つけ、[アクション] 列の [サービス] をクリックします。

    3. JindoData セクションで [設定] をクリックします。

    4. [共通] タブをクリックします。

  2. 設定項目を追加します。

    1. [設定項目の追加] をクリックします。

    2. [設定項目の追加] ダイアログボックスで、次の設定項目を追加します。

      設定項目を追加する方法の詳細については、「設定項目の追加」トピックの「設定項目の追加」セクションをご参照ください。 すべてのバケットに適用されるグローバル設定項目、または指定されたバケットにのみ適用されるバケット固有の設定項目を追加できます。

      • すべてのバケットのグローバル設定項目

        パラメータ

        説明

        jindofsx.oss.accessKeyId

        OSS または OSS-HDFS にアクセスするために使用される AccessKey ID。

        jindofsx.oss.accessKeySecret

        OSS または OSS-HDFS にアクセスするために使用される AccessKey シークレット。

        jindofsx.oss.endpoint

        OSS または OSS-HDFS のエンドポイント。例:

        • OSS:oss-cn-***-internal.aliyuncs.com

        • OSS-HDFS:cn-***.oss-dls.aliyuncs.com

      • バケット固有の設定項目

        パラメータ

        説明

        jindofsx.oss.bucket.XXX.accessKeyId

        XXX バケットにアクセスするために使用される AccessKey ID。

        jindofsx.oss.bucket.XXX.accessKeySecret

        XXX バケットにアクセスするために使用される AccessKey シークレット。

        jindofsx.oss.bucket.XXX.endpoint

        XXX バケットのエンドポイント。例:

        • OSS:oss-cn-***-internal.aliyuncs.com

        • OSS-HDFS:cn-***.oss-dls.aliyuncs.com

        説明

        XXX は、OSS または OSS-HDFS バケットの名前を指定します。

    3. [OK] をクリックします。

  3. JindoData サービスを再起動します。

    1. JindoData の [サービス] タブで、右上隅にある [詳細] > [再起動] を選択します。

    2. 表示されるダイアログボックスで、実行理由を指定し、その他のパラメータのデフォルト値を保持して、[OK] をクリックします。

    3. [確認] メッセージで、[OK] をクリックします。

手順 2:JindoSDK を設定する

重要

この手順では、クライアントを設定します。 この手順を完了した後、JindoData サービスを再起動する必要はありません。

  1. HADOOP-COMMON サービスの core-site.xml タブに移動します。

    1. 上部のナビゲーションバーで、クラスタが存在するリージョンを選択し、ビジネス要件に基づいてリソースグループを選択します

    2. [EMR On ECS] ページで、管理するクラスタを見つけ、サービス[アクション] 列の をクリックします。

    3. [サービス] タブで、HADOOP-COMMON セクションの [設定] をクリックします。

    4. [core-site.xml] タブをクリックします。

  2. 設定項目を変更します。

    設定項目を変更する方法の詳細については、「設定項目の変更」をご参照ください。

    項目

    必須

    パラメータ

    説明

    OSS の実装クラスを設定する

    はい

    fs.AbstractFileSystem.oss.impl

    値を com.aliyun.jindodata.oss.OSS に設定します。

    fs.oss.impl

    値を com.aliyun.jindodata.oss.JindoOssFileSystem に設定します。

    xengine タイプを設定する

    はい

    fs.xengine

    値を jindofsx に設定します。

    JindoFSx Namespace サービスのエンドポイントを設定する

    はい

    fs.jindofsx.namespace.rpc.address

    ${headerhost}:8101 の形式で値を設定します。例:master-1-1:8101。

    説明

    高可用性モードで Namespace サービスを設定および使用する方法の詳細については、「JindoFSx Namespace サービスを高可用性モードで設定および使用する」をご参照ください。

    アクセス高速化のためにデータキャッシュを有効にする

    説明

    データキャッシュを有効にすると、ホットデータがローカルディスクにキャッシュされます。 デフォルトでは、この機能は無効になっており、OSS または OSS-HDFS から直接データを読み取ることができます。

    はい

    fs.jindofsx.data.cache.enable

    データキャッシュを有効にするかどうかを指定します。有効な値:

    • false:データキャッシュを無効にします。これはデフォルト値です。

    • true:データキャッシュを有効にします。

    AccessKey ペアを設定する

    はい

    fs.oss.accessKeyId

    OSS または OSS-HDFS にアクセスするために使用される AccessKey ID。

    fs.oss.accessKeySecret

    OSS または OSS-HDFS にアクセスするために使用される AccessKey シークレット。

    fs.oss.endpoint

    OSS または OSS-HDFS のエンドポイント。例:

    • OSS:oss-cn-***-internal.aliyuncs.com

    • OSS-HDFS:cn-***.oss-dls.aliyuncs.com

    次の表は、オプションの設定項目について説明しています。

    項目

    パラメータ

    説明

    (オプション)メタデータキャッシュ機能を設定する

    fs.jindofsx.meta.cache.enable

    メタデータキャッシュを有効にするかどうかを指定します。有効な値:

    • false:メタデータキャッシュを無効にします。これはデフォルト値です。

    • true:メタデータキャッシュを有効にします。

    (オプション)小規模ファイルのキャッシュ機能を設定する

    fs.jindofsx.slice.cache.enable

    小規模ファイルのキャッシュを有効にするかどうかを指定します。有効な値:

    • false:小規模ファイルのキャッシュを無効にします。これはデフォルト値です。

    • true:小規模ファイルのキャッシュを有効にします。

    (オプション)ショートサーキット読み取り機能を設定する

    fs.jindofsx.short.circuit.enable

    ショートサーキット読み取りを有効にするかどうかを指定します。有効な値:

    • true:ショートサーキット読み取りを有効にします。これはデフォルト値です。

    • false:ショートサーキット読み取りを無効にします。

  3. 設定を保存します。

    1. 左下隅の [保存] をクリックします。

    2. 表示されるダイアログボックスで、実行理由を指定し、[設定を自動的に更新] をオンにして、[保存] をクリックします。

手順 3:ディスク容量の使用量を制御する

キャッシュ機能を有効にすると、JindoFSx はキャッシュされたデータを自動的に管理します。 JindoFSx は、キャッシュされたデータに設定したディスク容量の使用量に基づいて、キャッシュされたデータをクリアします。 JindoFSx は、バックエンドストレージとして OSS または OSS-HDFS を使用します。 OSS と OSS-HDFS は大量のデータを保存できますが、ローカルディスクの容量は限られています。 JindoFSx は、ローカルディスク上のコールドデータを自動的に削除します。 [storage.watermark.high.ratio] および [storage.watermark.low.ratio] 設定項目を変更して、ローカルディスク上のキャッシュデータの容量使用率を調整できます。有効な値:0 ~ 1。

  1. キャッシュデータのディスク容量使用量の設定項目を変更します。

    JindoData サービスの [設定] タブで、[ストレージ] タブをクリックします。 表示されるページで、次の設定項目を変更します。jindodata_radio

    設定項目

    説明

    storage.watermark.low.ratio

    ディスク容量使用量の下限。 自動データ削除がトリガーされると、JindoFSx は、キャッシュデータのディスク容量使用量が指定された値に減少するまで、キャッシュデータを削除します。 デフォルト値:0.2。

    storage.watermark.high.ratio

    ディスク容量使用量の上限。 キャッシュデータのディスク容量使用量がこの制限に達すると、JindoFSx はローカルディスク上のキャッシュデータを自動的に削除します。 デフォルト値:0.4。 キャッシュデータにより多くのディスク容量を割り当てたい場合は、このパラメータにより大きな値を設定できます。

    説明

    ビジネス要件に基づいて、適切な下限と上限を指定してください。 下限が上限よりも小さいことを確認してください。

  2. 設定を保存します。

    1. 左下隅の [保存] をクリックします。

    2. 表示されるダイアログボックスで、実行理由を指定し、[保存] をクリックします。

  3. JindoData サービスを再起動します。

    1. JindoData の [サービス] タブで、右上隅にある [詳細] > [再起動] を選択します。

    2. 表示されるダイアログボックスで、実行理由を指定し、その他のパラメータのデフォルト値を保持して、[OK] をクリックします。

    3. [確認] メッセージで、[OK] をクリックします。