全部產品
Search
文件中心

E-MapReduce:阿里雲OSS/OSS-HDFS服務透明緩衝加速

更新時間:Jul 01, 2024

JindoFSx儲存加速系統提供了透明緩衝的使用方式,相容原生OSS/OSS-HDFS儲存方式,檔案以對象的形式儲存在OSS/OSS-HDFS上,每個檔案根據實際訪問情況會在本地進行緩衝,提升訪問OSS/OSS-HDFS的效率,同時相容了原有OSS/OSS-HDFS檔案形式,資料訪問上能夠與其他OSS/OSS-HDFS用戶端完全相容,作業訪問OSS/OSS-HDFS的方式無需做任何修改。

前提條件

已在E-MapReduce上建立EMR-3.42.0及後續版本、EMR-5.6.0及後續版本的叢集,且選擇JINDODATA服務,詳情請參見建立叢集

使用限制

僅EMR-3.42.0及後續版本、EMR-5.6.0及後續版本叢集支援該功能。

操作流程

說明

本文以EMR-3.42.0版本為例介紹。

  1. 步驟一:配置AccessKey

  2. 步驟二:配置JindoSDK

  3. 步驟三:磁碟空間水位控制

步驟一:配置AccessKey

  1. 進入JindoData服務的common頁簽。

    1. 在頂部功能表列處,根據實際情況選擇地區和資源群組

    2. 叢集管理頁面,單擊目的地組群操作列的叢集服務

    3. 單擊JindoData服務地區的配置

    4. 單擊common頁簽。

  2. 新增配置。

    1. 單擊新增配置項

    2. 新增配置項對話方塊中,新增以下配置項。

      新增配置項的具體操作,請參見添加配置項。全域方式和按照Bucket方式配置任選其中一種即可。

      • 全域方式配置(所有Bucket使用同一種方式)

        Key

        描述

        jindofsx.oss.accessKeyId

        OSS/OSS-HDFS的AccessKey ID。

        jindofsx.oss.accessKeySecret

        OSS/OSS-HDFS的AccessKey Secret。

        jindofsx.oss.endpoint

        OSS/OSS-HDFS的Endpoint。例如:

        • OSS: oss-cn-***-internal.aliyuncs.com

        • OSS-HDFS: cn-***.oss-dls.aliyuncs.com

      • 按照Bucket配置

        Key

        描述

        jindofsx.oss.bucket.XXX.accessKeyId

        XXX的Bucket的AccessKey ID。

        jindofsx.oss.bucket.XXX.accessKeySecret

        XXX的Bucket的AccessKey Secret。

        jindofsx.oss.bucket.XXX.endpoint

        XXX的Bucket的Endpoint。例如:

        • OSS: oss-cn-***-internal.aliyuncs.com

        • OSS-HDFS: cn-***.oss-dls.aliyuncs.com

        說明

        XXX為OSS Bucket的名稱。

    3. 單擊確定

  3. 重啟服務。

    1. 在JindoData服務頁面,選擇右上方的更多操作 > 重啟

    2. 在彈出的對話方塊中,輸入執行原因,其他參數保持預設,單擊確定

    3. 確認對話方塊中,單擊確定

步驟二:配置JindoSDK

重要 此配置為用戶端配置,無需重啟JindoData服務。
  1. 進入配置頁面。

    1. 在頂部功能表列處,根據實際情況選擇地區和資源群組

    2. 叢集管理頁面,單擊目的地組群右側操作列的叢集服務

    3. 單擊Hadoop-Common服務地區的配置

    4. 單擊core-site.xml頁簽。

  2. 修改以下配置。

    修改配置項的具體操作,請參見修改配置項

    內容

    是否必填

    參數

    描述

    配置OSS實作類別

    fs.AbstractFileSystem.oss.impl

    固定值為com.aliyun.jindodata.oss.OSS

    fs.oss.impl

    固定值為com.aliyun.jindodata.oss.JindoOssFileSystem

    配置xengine類型

    fs.xengine

    固定值為jindofsx

    配置JindoFSx Namespace服務地址

    fs.jindofsx.namespace.rpc.address

    格式為${headerhost}:8101。例如:master-1-1:8101。

    說明

    如果使用高可用NameSpace,配置詳情請參見高可用JindoFSx Namespace配置和使用

    啟用緩衝加速功能

    說明

    啟用緩衝會利用本地磁碟對訪問的熱資料區塊進行緩衝,預設狀態為禁用,即可以直接存取OSS上的資料。

    fs.jindofsx.data.cache.enable

    資料緩衝開關:

    • false(預設值):禁用資料緩衝。

    • true:啟用資料緩衝。

    配置AccessKey

    fs.oss.accessKeyId

    OSS/OSS-HDFS的AccessKey ID。

    fs.oss.accessKeySecret

    OSS/OSS-HDFS的AccessKey Secret。

    fs.oss.endpoint

    OSS/OSS-HDFS的Endpoint。例如:

    • OSS: oss-cn-***-internal.aliyuncs.com

    • OSS-HDFS: cn-***.oss-dls.aliyuncs.com

    其他選擇性參數(選填):

    內容

    參數

    描述

    元緩衝加速功能(可選)

    fs.jindofsx.meta.cache.enable

    中繼資料快取開關:

    • false(預設值):禁用中繼資料快取。

    • true:啟用中繼資料快取。

    小檔案快取加速功能(可選)

    fs.jindofsx.slice.cache.enable

    小檔案快取最佳化開關:

    • false(預設值):禁用小檔案快取。

    • true:啟用小檔案快取。

    短路讀功能(可選)

    fs.jindofsx.short.circuit.enable

    短路讀開關:

    • true(預設值):開啟短路讀開關。

    • false:關閉短路讀開關。

  3. 儲存配置。

    1. 單擊頁面左下角的儲存

    2. 在彈出的對話方塊中,輸入執行原因,單擊儲存

步驟三:磁碟空間水位控制

緩衝啟用後,JindoFSx服務會自動管理本機快取備份,通過水位清理本機快取,請您根據需求配置一定的比例用於緩衝。JindoFSx後端基於OSS/OSS-HDFS,可以提供海量的儲存,但是本地碟的容量是有限的,因此JindoFSx會自動淘汰本地較冷的資料備份。您可以通過修改storage.watermark.high.ratiostorage.watermark.low.ratio兩個參數來調節本機存放區的使用容量,取值範圍為0~1,表示使用磁碟空間的比例。

  1. 修改磁碟水位配置。

    在JindoData服務的配置頁簽內的storage頁簽,修改以下參數。jindodata_radio

    參數

    描述

    storage.watermark.low.ratio

    表示使用量的下水位比例,觸發清理後會自動清理冷資料,將快取資料目錄佔用空間清理到下水位。預設值:0.2。

    storage.watermark.high.ratio

    表示磁碟使用量的上水位比例,每塊資料盤的快取資料目錄佔用的磁碟空間到達上水位即會觸發清理。預設值:0.4。如果需要比較高的磁碟利用率可以設定較大值。

    說明

    修改該參數時,下水位比例必須小於上水位比例,設定合理的值即可。

  2. 儲存配置。

    1. 單擊下方的儲存

    2. 在彈出的對話方塊中,輸入執行原因,單擊確定

  3. 重啟服務。

    1. 在JindoData服務頁面,選擇右上方的更多操作 > 重啟

    2. 在彈出的對話方塊中,輸入執行原因,其他參數保持預設,單擊確定

    3. 確認對話方塊中,單擊確定