OSS-HDFS (JindoFS) adalah fitur penyimpanan data lake berbasis cloud-native yang menyediakan manajemen metadata terpusat dan kompatibilitas penuh dengan API Sistem File Terdistribusi Hadoop (HDFS). Anda dapat menggunakan OSS-HDFS untuk mengelola data dalam skenario komputasi berbasis data lake di bidang big data dan AI.
Catatan penggunaan
Setelah OSS-HDFS diaktifkan untuk sebuah bucket, data yang ditulis menggunakan OSS-HDFS akan disimpan di direktori .dlsdata/. Untuk memastikan ketersediaan OSS-HDFS dan mencegah kehilangan data, hindari melakukan operasi penulisan pada direktori .dlsdata/ atau objek di dalamnya dengan metode yang tidak didukung oleh OSS-HDFS, seperti mengganti nama direktori, menghapus direktori, atau menghapus objek di dalam direktori.
Setelah mengaktifkan OSS-HDFS, risiko seperti kehilangan data, kontaminasi data, atau ketidakmampuan mengakses data dapat terjadi jika Anda menggunakan fitur Layanan Penyimpanan Objek (OSS) lainnya untuk menulis data ke direktori .dlsdata/. Untuk informasi lebih lanjut, lihat Catatan Penggunaan.
Aturan penagihan
Biaya Penyimpanan Data
Saat menggunakan OSS-HDFS, blok data disimpan di Layanan Penyimpanan Objek (OSS), sehingga metode penagihan OSS berlaku untuk blok data di OSS-HDFS. Untuk informasi lebih lanjut, lihat Gambaran Penagihan.
Manfaat
Anda dapat menggunakan OSS-HDFS tanpa perlu memodifikasi aplikasi Hadoop dan Spark yang sudah ada. Konfigurasi OSS-HDFS mudah dilakukan, memungkinkan Anda mengakses dan mengelola data dengan cara yang mirip dengan HDFS. OSS-HDFS juga memanfaatkan karakteristik OSS, seperti ruang penyimpanan tak terbatas, skalabilitas elastis, serta keamanan, keandalan, dan ketersediaan tinggi.
Data lake berbasis cloud-native dibangun di atas OSS-HDFS, memungkinkan Anda mengelola eksabyte data atau ratusan juta objek dengan throughput terabyte. OSS-HDFS menyediakan fitur namespace datar dan hierarkis untuk memenuhi kebutuhan penyimpanan big data. Fitur namespace hierarkis memungkinkan pengelolaan objek dalam struktur direktori hierarkis. OSS-HDFS secara otomatis mengonversi struktur penyimpanan antara namespace datar dan hierarkis untuk membantu Anda mengelola metadata objek secara terpusat. Dibandingkan dengan arsitektur redundansi aktif-standby untuk NameNode di HDFS tradisional, OSS-HDFS mengimplementasikan mekanisme redundansi multi-node aktif-aktif untuk manajemen metadata, meningkatkan keandalan dan skalabilitas secara signifikan. Pengguna Hadoop dapat mengakses objek di OSS-HDFS tanpa perlu menyalin atau mengonversi format objek, meningkatkan kinerja pekerjaan dan mengurangi biaya pemeliharaan.
Fitur
Fitur | Deskripsi | Referensi |
RootPolicy | Anda dapat menggunakan RootPolicy untuk mengonfigurasi awalan kustom untuk OSS-HDFS. Dengan cara ini, pekerjaan dapat berjalan di OSS-HDFS tanpa memodifikasi awalan akses asli | |
ProxyUser | Perintah ProxyUser digunakan untuk memberi otorisasi kepada pengguna untuk melakukan operasi seperti mengakses data sensitif atas nama pengguna lain. | |
UserGroupsMapping | Perintah UserGroupsMapping digunakan untuk mengelola pemetaan antara pengguna dan grup pengguna. |
Skenario
OSS-HDFS cocok untuk skenario komputasi di bidang big data dan AI. Berikut adalah beberapa contoh penggunaannya:
Gudang data offline dengan Hive dan Spark
OSS-HDFS mendukung operasi pada file dan direktori serta pengelolaan izin. OSS-HDFS juga mendukung operasi atomik pada direktori dan penggantian nama dalam milidetik, serta fitur seperti konfigurasi waktu menggunakan setTimes, atribut tambahan (XAttrs), ACL, dan akses cepat ke cache lokal. Hal ini membuat OSS-HDFS ideal untuk gudang data offline dengan Hive dan Spark. Saat menggunakan fitur ekstrak, transformasi, dan muat (ETL) untuk memproses data, OSS-HDFS memberikan performa lebih baik daripada bucket Standar OSS.
OLAP
OSS-HDFS mendukung operasi dasar terkait file, seperti append, truncate, flush, dan pwrite, serta POSIX melalui JindoFuse. Dengan cara ini, saat menggunakan ClickHouse untuk pemrosesan analitik online (OLAP), Anda dapat menggantikan disk lokal untuk memisahkan penyimpanan dari komputasi. Sistem caching OSS-HDFS membantu mengurangi waktu operasi dan meningkatkan performa dengan biaya rendah.
Pemisahan penyimpanan dari komputasi untuk HBase
OSS-HDFS mendukung operasi pada file dan direktori serta operasi flush. Anda dapat menggunakan OSS-HDFS sebagai pengganti HDFS untuk memisahkan penyimpanan dari komputasi untuk HBase. Dibandingkan dengan kombinasi HBase dan bucket Standar OSS, kombinasi HBase dan OSS-HDFS memberikan arsitektur layanan yang lebih ringkas karena yang terakhir menggunakan HDFS untuk menyimpan log Web Application Firewall (WAF). Untuk informasi lebih lanjut, lihat Gunakan OSS-HDFS sebagai Backend Penyimpanan HBase.
Komputasi real-time
OSS-HDFS mendukung operasi flush dan truncate. Anda dapat menggunakan OSS-HDFS sebagai pengganti HDFS untuk menyimpan sink dan checkpoint dalam skenario komputasi real-time Flink.
Migrasi data
Sebagai layanan penyimpanan data lake berbasis cloud-native, OSS-HDFS memungkinkan migrasi data dari HDFS di pusat data ke Alibaba Cloud, mengoptimalkan pengalaman pengguna HDFS, dan menyediakan layanan penyimpanan yang scalable dan hemat biaya. Anda dapat menggunakan Jindo DistCp untuk memigrasikan data dari HDFS ke OSS-HDFS. Selama migrasi data, checksum HDFS dapat digunakan untuk memverifikasi integritas data.