OSS-HDFS (juga dikenal sebagai JindoFS) adalah kemampuan penyimpanan data lake cloud-native yang dibangun di atas Object Storage Service (OSS). Layanan ini sepenuhnya kompatibel dengan antarmuka Hadoop Distributed File System (HDFS) dan menyediakan manajemen metadata terpadu untuk skenario komputasi data besar dan AI.
OSS-HDFS bukanlah layanan penyimpanan terpisah, melainkan serangkaian kemampuan yang dapat Anda aktifkan pada bucket OSS yang sudah ada. Setelah menjalani konfigurasi sederhana, Anda dapat mengelola dan mengakses data seperti pada HDFS native sekaligus memperoleh manfaat dari skalabilitas, keandalan, dan efisiensi biaya OSS.
Catatan penggunaan
Setelah OSS-HDFS diaktifkan untuk suatu bucket, data yang ditulis menggunakan OSS-HDFS akan disimpan dalam direktori .dlsdata/. Untuk memastikan ketersediaan OSS-HDFS dan mencegah kehilangan data, jangan lakukan operasi tulis pada direktori .dlsdata/ atau objek di dalamnya menggunakan metode yang tidak didukung oleh OSS-HDFS. Misalnya, hindari operasi tulis berikut: mengganti nama direktori, menghapus direktori, dan menghapus objek dalam direktori tersebut.
Penggunaan fitur OSS lainnya untuk melakukan operasi tulis pada direktori .dlsdata/ dapat menyebabkan kehilangan data, kontaminasi data, atau kegagalan akses data. Untuk informasi selengkapnya, lihat Catatan penggunaan.
Aturan penagihan
Biaya penyimpanan data
Saat menggunakan OSS-HDFS, blok data disimpan di Object Storage Service (OSS). Oleh karena itu, metode penagihan OSS berlaku untuk blok data dalam OSS-HDFS. Untuk informasi selengkapnya, lihat Ikhtisar penagihan.
Keunggulan
OSS-HDFS memberikan kemampuan utama berikut ke bucket OSS Anda:
Akses kompatibel HDFS: Gunakan API Hadoop FileSystem standar tanpa perlu memodifikasi aplikasi Hadoop dan Spark yang sudah ada.
Namespace hirarkis: Mengatur objek ke dalam hierarki direktori sejati dengan dukungan operasi direktori atomik seperti rename dan delete.
Penyimpanan terpadu: Data disimpan di bucket OSS yang mendasarinya, sehingga Anda mendapatkan kapasitas tak terbatas, skalabilitas elastis, serta keamanan, keandalan, dan ketersediaan tinggi.
Dukungan ekosistem luas: Kompatibel dengan Spark, Hive, Flink, Presto, HBase, dan framework data besar lainnya.
Keamanan enterprise: Mendukung izin file dan direktori, access control lists (ACLs), dan extended attributes (XAttrs).
Efisiensi biaya: Metode penagihan OSS berlaku untuk data yang disimpan. Tidak ada biaya layanan penyimpanan terpisah.
Namespace hirarkis
Namespace hirarkis merupakan fitur inti OSS-HDFS. Selain namespace datar pada penyimpanan objek standar, OSS-HDFS menyediakan hierarki direktori yang memungkinkan Anda mengatur objek ke dalam direktori dan subdirektori bersarang. Kemampuan manajemen metadata terpadunya memungkinkan konversi internal otomatis.
Manajemen metadata
OSS-HDFS menggunakan mekanisme redundansi multi-node active-active untuk manajemen metadata. Dibandingkan arsitektur NameNode aktif/cadangan pada HDFS tradisional, desain ini memberikan redundansi data yang lebih unggul. OSS-HDFS mampu mengelola data dalam skala exabyte dan ratusan juta file, serta menghadirkan throughput hingga terabyte.
Bagi pengguna Hadoop, hal ini berarti Anda dapat mengakses data seefisien mengakses HDFS lokal tanpa perlu replikasi atau konversi data, sehingga secara signifikan meningkatkan performa pekerjaan secara keseluruhan dan mengurangi biaya pemeliharaan.
Skenario
OSS-HDFS mendukung berbagai kasus penggunaan data besar dan AI:
Gudang data offline dengan Hive dan Spark
OSS-HDFS mendukung semantik dan operasi file serta direktori, termasuk izin direktori, atomicity direktori, operasi rename dalam milidetik, operasi setTimes, extended attributes (XAttrs), access control lists (ACLs), dan akselerasi cache baca lokal. Fitur-fitur ini menjadikannya sangat cocok untuk gudang data offline Hive dan Spark open-source. Dalam skenario ekstrak, transformasi, dan muat (ETL), OSS-HDFS memberikan keunggulan performa signifikan dibandingkan bucket OSS standar.
Pemrosesan analitik online (OLAP)
OSS-HDFS mendukung operasi file dasar seperti append, truncate, flush, sync, dan pwrite. Layanan ini sepenuhnya mendukung POSIX melalui JindoFuse. Dalam skenario OLAP seperti ClickHouse, Anda dapat mengganti disk lokal dengan OSS-HDFS untuk menerapkan solusi komputasi-penyimpanan terpisah. Sistem caching menyediakan akselerasi untuk meningkatkan efektivitas biaya.
HBase dengan komputasi-penyimpanan terpisah
OSS-HDFS mendukung semantik dan operasi file serta direktori, termasuk operasi flush. Anda dapat menggunakannya untuk menggantikan HDFS dalam solusi komputasi-penyimpanan terpisah untuk HBase. Dibandingkan solusi yang menggabungkan HBase dengan bucket OSS standar, solusi yang menggabungkan HBase dengan OSS-HDFS dapat menyimpan log write-ahead logging (WAL) menggunakan API HDFS, sehingga sangat menyederhanakan arsitektur solusi secara keseluruhan. Untuk informasi selengkapnya, lihat Gunakan OSS-HDFS sebagai penyimpanan dasar untuk HBase.
Komputasi real-time
OSS-HDFS mendukung operasi flush dan truncate, sehingga dapat menggantikan HDFS secara mulus sebagai solusi penyimpanan untuk sink dan checkpoint dalam skenario komputasi real-time Flink.
Migrasi data
Sebagai solusi penyimpanan data lake cloud-native, OSS-HDFS mengoptimalkan pengalaman pengguna HDFS dan memberikan manfaat biaya dari skalabilitas elastis serta penagihan bayar sesuai penggunaan, yang secara signifikan mengurangi biaya penyimpanan. Layanan ini mendukung migrasi lift-and-shift HDFS on-premises ke cloud. Tool JindoDistCp mendukung migrasi mulus data file HDFS dan metadata—seperti properti file—ke OSS-HDFS. Layanan ini juga menyediakan fitur perbandingan cepat berdasarkan checksum HDFS.
Engine yang didukung
Ekosistem open-source
Ekosistem Alibaba Cloud
|
Engine/Platform |
Referensi |
|
EMR (Hive/Spark) |
|
|
EMR Flink |
|
|
EMR Flume |
Gunakan Flume untuk menyinkronkan data dari kluster EMR Kafka ke OSS-HDFS |
|
EMR HBase |
Gunakan OSS-HDFS sebagai penyimpanan dasar HBase pada kluster EMR |
|
EMR Hive |
Gunakan Hive pada kluster EMR untuk memproses data di OSS-HDFS |
|
EMR Impala |
Gunakan Impala pada kluster EMR untuk mengkueri data di OSS-HDFS |
|
EMR Presto |
Gunakan Trino pada kluster EMR untuk mengkueri data di OSS-HDFS |
|
EMR Spark |
Gunakan Spark pada kluster EMR untuk memproses data di OSS-HDFS |
|
EMR Sqoop |
Gunakan Sqoop pada kluster EMR untuk membaca dan menulis data ke OSS-HDFS |
Fitur
|
Fitur |
Deskripsi |
Referensi |
|
RootPolicy |
Tetapkan awalan kustom untuk OSS-HDFS. Hal ini memungkinkan pekerjaan berjalan langsung di OSS-HDFS tanpa perlu memodifikasi awalan akses |
|
|
ProxyUser |
Otorisasi pengguna untuk melakukan operasi sistem file atas nama pengguna lain. Fitur ini berguna untuk mengakses data sensitif di mana hanya pengguna tertentu yang berwenang dapat mengoperasikan data tersebut. |
|
|
UserGroupsMapping |
Konfigurasikan pemetaan antara pengguna dan kelompok pengguna. |