JindoTable digunakan untuk mengimplementasikan penyimpanan bertingkat, mengoptimalkan file tabel, dan mengumpulkan statistik data berdasarkan popularitas tabel atau partisi. Topik ini menjelaskan cara menggunakan JindoTable.
Prasyarat
- Java Development Kit (JDK) 8 telah terinstal di mesin lokal Anda.
- Sebuah kluster EMR versi 3.30.0 atau yang lebih baru telah dibuat. Untuk informasi lebih lanjut tentang cara membuat kluster, lihat Buat kluster.
Gunakan JindoTable
- -accessStat
- -cache
- -archive
- -unarchive
- -uncache
- -status
- -optimize
- -showTable
- -showPartition
- -listTables
- -dumpmc
database.table. Tentukan partisi dalam format partitionCol1=1,partitionCol2=2,....-accessStat
- Sintaks
jindo table -accessStat {-d} <hari> {-n} <topNums>
- Deskripsi
Perintah ini digunakan untuk menanyakan catatan akses di mana tabel atau partisi paling sering dikunjungi dalam rentang waktu tertentu.
<hari> dan <topNums> harus bilangan bulat positif. Jika <hari> adalah 1, semua catatan akses yang dihasilkan dari 00:00 (waktu lokal) pada hari saat ini hingga waktu saat ini akan ditanyakan.
- Contoh: Menanyakan 20 catatan akses dari tabel atau partisi yang paling sering dikunjungi dalam tujuh hari terakhir.
jindo table -accessStat -d 7 -n 20
-cache
- Sintaks
jindo table -cache {-t} <dbName.tableName> [-p] <partitionSpec> [-pin]
- Deskripsi
Perintah ini digunakan untuk menyimpan data tabel atau partisi tertentu ke disk lokal.
Data tabel atau partisi harus disimpan di Object Storage Service (OSS) atau JindoFileSystem (JindoFS). Tentukan tabel dalam format
database.table. Tentukan partisi dalam formatpartitionCol1=1,partitionCol2=2,.... Saat Anda menentukan-pin, jika ruang cache tidak mencukupi, jangan hapus data terkait jika memungkinkan. - Contoh: Simpan data tabel db1.t1 yang dihasilkan pada 16 Maret 2020 ke disk lokal.
jindo table -cache -t db1.t1 -p date=2020-03-16
-uncache
- Sintaks
jindo table -uncache {-t} <dbName.tableName> [-p] <partitionSpec>
- Deskripsi
Perintah ini digunakan untuk menghapus data cache dari tabel atau partisi tertentu dari disk lokal.
Data tabel atau partisi harus disimpan di OSS atau JindoFS. Tentukan tabel dalam format
database.table. Tentukan partisi dalam formatpartitionCol1=1,partitionCol2=2,.... - Contoh:
- Hapus data cache tabel db1.t2 dari disk lokal.
jindo table -uncache -t db1.t2 - Hapus data cache tabel db1.t1 dari disk lokal.
jindo table -uncache -t db1.t1 -p date=2020-03-16,category=1
- Hapus data cache tabel db1.t2 dari disk lokal.
-archive
- Sintaks
jindo table -archive {-a|i} {-t} <dbName.tableName> [-p] <partitionSpec>
- Deskripsi
Perintah ini digunakan untuk menurunkan tingkat kebijakan yang digunakan untuk menyimpan data tabel atau partisi tertentu. Secara default, kelas penyimpanan Arsip digunakan.
Untuk menggunakan kelas penyimpanan Infrequent Access (IA), tambahkan -i ke perintah. Tentukan tabel dalam format database.table. Tentukan partisi dalam format 'partitionCol1=1,partitionCol2=2,...'.
- Contoh: Simpan data tabel db1.t1 ke disk lokal.
jindo table -archive -t db1.t1 -p date=2020-10-12
-unarchive
- Sintaks
jindo table -unarchive [-o|-i] {-t} <dbName.tableName> [-p] <partitionSpec>
- Deskripsi
Perintah ini digunakan untuk mengubah kelas penyimpanan dari Arsip menjadi Standar.
Jika
-oditambahkan ke perintah, objek yang diarsipkan sementara dipulihkan. Jika-iditambahkan ke perintah, objek yang diarsipkan diubah menjadi objek IA. - Contoh:
jindo table -unarchive -o -t db1.t1 -p date=2020-03-16,category=1jindo table -unarchive -i -t db1.t2
-status
- Sintaks
jindo table -status {-t} <dbName.tableName> [-p] <partitionSpec>
- Deskripsi
Perintah ini digunakan untuk melihat status penyimpanan data tabel atau partisi tertentu.
- Contoh:
- Lihat status penyimpanan data tabel db1.t2.
jindo table -status -t db1.t2 - Lihat status penyimpanan data tabel db1.t1 pada 16 Maret 2020.
jindo table -status -t db1.t1 -p date=2020-03-16
- Lihat status penyimpanan data tabel db1.t2.
-optimize
- Sintaks
jindo table -optimize {-t} <dbName.tableName>
- Deskripsi
Perintah ini digunakan untuk mengoptimalkan organisasi data tabel di lapisan penyimpanan.
- Contoh: Optimalkan organisasi data tabel db1.t1 di lapisan penyimpanan.
jindo table -optimize -t db1.t1
-showTable
- Sintaks
jindo table -showTable {-t} <dbName.tableName>
- Deskripsi
Perintah ini digunakan untuk menampilkan semua partisi dalam tabel terpartisi atau menampilkan penyimpanan data tabel non-partisi.
- Contoh: Tampilkan semua partisi dalam tabel terpartisi db1.t1.
jindo table -showTable -t db1.t1
-showPartition
- Sintaks
jindo table -showPartition {-t} <dbName.tableName> [-p] <partitionSpec>
- Deskripsi
Perintah ini digunakan untuk menampilkan penyimpanan data partisi.
- Contoh: Tampilkan penyimpanan data semua partisi dalam tabel terpartisi db1.t1 pada 12 Oktober 2020.
jindo table -showPartition -t db1.t1 -p date=2020-10-12
-listTables
- Sintaks
jindo table -listTables [-db] <dbName>
- Deskripsi
Perintah ini digunakan untuk menampilkan semua tabel dalam database tertentu. Jika Anda tidak menentukan
[-db], tabel dalam database default akan ditampilkan. - Contoh:
- Tampilkan tabel dalam database default.
jindo table -listTables - Tampilkan tabel dalam database db1.
jindo table -listTables -db db1
- Tampilkan tabel dalam database default.
-dumpmc
- Sintaksjindo table -dumpmc {-i} <accessId> {-k} <accessKey> {-m} <numMaps> {-t} <tunnelUrl> {-project} <projectName> {-table} <tablename> {-p} <partitionSpec> {-f} <csv|tfrecord> {-o} <outputPath>
Parameter Deskripsi Diperlukan -i ID AccessKey akun Alibaba Cloud Anda. Ya -k Rahasia AccessKey akun Alibaba Cloud Anda. Ya -m Jumlah tugas map. Ya -t Titik akhir VPC Tunnel MaxCompute. Ya -project Nama Proyek MaxCompute. Ya -table Nama tabel MaxCompute. Ya -p Informasi partisi. Contoh: pt=xxx. Pisahkan beberapa partisi dengan koma (,), sepertipt=xxx,dt=xxx.Tidak -f Format file. Nilai valid: - tfrecord
- csv
Ya -o Jalur tujuan. Ya - Deskripsi
Perintah ini digunakan untuk mengekspor tabel MaxCompute ke kluster EMR atau OSS. Format CSV dan TFRECORD didukung.
- Contoh:
- Ekspor tabel MaxCompute dalam format TFRECORD ke kluster EMR.
jindo table -dumpmc -m 10 -project mctest_project -table t1 -t http://dt.xxx.maxcompute.aliyun-inc.com -k xxxxxxxxx -i XXXXXX -o /tmp/outputtf1 -f tfrecord - Ekspor tabel MaxCompute dalam format CSV ke OSS.
jindo table -dumpmc -m 10 -project mctest_project -table t1 -t http://dt.xxx.maxcompute.aliyun-inc.com -k xxxxxxxxx -i XXXXXX -o oss://bucket1/tmp/outputcsv -f csv
- Ekspor tabel MaxCompute dalam format TFRECORD ke kluster EMR.