使用中繼資料清單匯出功能,您可以將某個Bucket下的OSS-HDFS服務的中繼資料清單匯出到某個特定路徑,格式為JSON檔案,方便您對中繼資料進行統計分析。
前提條件
使用最新版本JindoSDK。下載地址,請參見GitHub。
配置OSS-HDFS服務下Bucket的存取金鑰。
具體操作,請參見通過Jindo CLI命令訪問OSS/OSS-HDFS。
操作步驟
匯出中繼資料清單。
登入OSS管理主控台。
單擊Bucket 列表,然後單擊目標Bucket名稱。
在左側導覽列,選擇。
在匯出中繼資料清單地區,單擊匯出。
匯出過程大約需要數分鐘乃至數小時,具體用時取決於中繼資料量的大小。輸出的清單結果檔案預設儲存在
oss://<hdfs_bucket>.<dls_endpoint>/.sysinfo/inventory/路徑下,暫不支援自訂輸出路徑。重要.sysinfo/inventory/目錄不支援刪除。該目錄下的結果檔案支援訪問和刪除。
下載檔案。
執行以下命令下載中繼資料清單結果檔案。
jindo fs -get oss://<hdfs_bucket>.<dls_endpoint>/.sysinfo/inventory/1666584461201.2ce40fba-5704-45c4-8720-d92a891d**** /tmp/通過vi或vim命令開啟中繼資料清單結果檔案。
中繼資料清單結果檔案樣本如下:
{"id":163**,"path":"/","type":"directory","size":0,"user":"admin","group":"supergroup","atime":1666581702921,"mtime":1666581702933,"permission":511} {"id":624668410678950****,"path":"/dls-1000326249","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":1666581702923,"mtime":1660889124590,"permission":511} {"id":624668410678950****,"path":"/dls-1000326249/benchmark","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":166658170293325,"mtime":1660889124590,"permission":511} {"id":624668410678950****,"path":"/dls-1000326249/benchmark/n1","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":1666581702930,"mtime":1660889124590,"permission":511} {"id":624668410678950****,"path":"/dls-1000326249/benchmark/n1/490747449","type":"directory","size":0,"user":"hadoop","group":"supergroup","atime":1666581702931,"mtime":1660895613953,"permission":511}中繼資料清單結果檔案各欄位的含義說明如下:
欄位
含義
id
檔案或目錄ID。
path
檔案或目錄路徑。
type
中繼資料類型。
directory:表示目錄。
file:表示檔案。
size
資料大小,單位為位元組。
當中繼資料類型為file時,size欄位的值為檔案大小。
當中繼資料類型為directory,size欄位的值為0。
user
檔案或目錄所屬的owner。
group
檔案或目錄所屬的使用者組。
atime
檔案或目錄的訪問時間,格式為時間戳記。
mtime
檔案或目錄的修改時間,格式為時間戳記。
permission
檔案或者目錄的許可權。
(可選)刪除中繼資料清單結果檔案。
OSS-HDFS中繼資料清單結果檔案會佔用儲存空間,進而產生儲存費用。如果您確認不再需要保留該中繼資料清單結果檔案,建議通過Hadoop命令的方式及時刪除。
重要刪除中繼資料清單結果檔案時,中繼資料清單結果檔案所在路徑必須與步驟1輸出結果中Data Location保持一致,避免誤刪除.dlsdata和.sysinfo路徑下的系統資料。
執行Jindo CLI命令刪除中繼資料清單結果檔案的樣本如下:
jindo fs -rm -skipTrash oss://<hdfs_bucket>.<dls_endpoint>/.sysinfo/inventory/1666584461201.2ce40fba-5704-45c4-8720-d92a891d****