Ikhtisar OSS-HDFS – penyimpanan data lake cloud-native - Object Storage Service

OSS-HDFS (JindoFS) adalah fitur penyimpanan data lake cloud-native yang menyediakan manajemen metadata terpadu dan kompatibilitas penuh dengan API Hadoop Distributed File System (HDFS) untuk beban kerja data besar dan AI.

Catatan penggunaan

Peringatan

Setelah Anda mengaktifkan layanan OSS-HDFS untuk suatu bucket, data layanan tersebut disimpan di direktori .dlsdata/ bucket tersebut. Jangan lakukan operasi tulis, seperti mengganti nama atau menghapus, pada direktori ini dan objek-objeknya menggunakan metode non-OSS-HDFS karena dapat menyebabkan gangguan layanan atau kehilangan data.
Jika akun Anda memiliki pembayaran tertunda atau jika peran RAM yang menjadi dependensi AliyunOSSDlsDefaultRole dihapus, layanan latar belakang HDFS mungkin memasuki safe mode. Dalam safe mode, semua tugas latar belakang—seperti pencatatan log audit, penghapusan asinkron, dan tiering penyimpanan otomatis—dijeda. Layanan akan dilanjutkan secara otomatis setelah masalah terselesaikan.

Setelah Anda mengaktifkan OSS-HDFS, menulis ke direktori .dlsdata/ melalui fitur OSS lainnya dapat menyebabkan kehilangan data, korupsi, atau ketidakaksesan data, sebagaimana dijelaskan dalam Prasyarat.

Penagihan

Biaya penggunaan data

OSS-HDFS menyimpan blok data di OSS. Oleh karena itu, penagihan standar OSS berlaku untuk blok data di OSS-HDFS. Untuk informasi lebih lanjut, lihat Ikhtisar penagihan.

Keunggulan

OSS-HDFS bekerja dengan aplikasi Hadoop dan Spark yang sudah ada tanpa perlu modifikasi. Setelah konfigurasi dasar, Anda dapat mengelola dan mengakses data seperti pada HDFS native, dengan tambahan keunggulan dari OSS: kapasitas hampir tak terbatas, skalabilitas elastis, serta keamanan, keandalan, dan ketersediaan yang lebih baik.

OSS-HDFS mampu mengelola data dalam skala exabyte dan miliaran file dengan throughput tingkat terabyte. Berbeda dengan namespace datar pada penyimpanan objek standar, OSS-HDFS menyediakan namespace hierarkis untuk mengorganisasi objek ke dalam direktori, dengan konversi namespace otomatis melalui manajemen metadata terpadu. Alih-alih redundansi NameNode aktif-standby pada HDFS tradisional, OSS-HDFS menggunakan redundansi multi-node aktif-aktif untuk ketahanan data yang lebih unggul. Pengguna Hadoop dapat mengakses data seefisien akses lokal HDFS tanpa replikasi atau konversi, sehingga meningkatkan performa pekerjaan dan mengurangi biaya maintenance.

Fitur

Fitur	Deskripsi	Referensi
RootPolicy	Konfigurasikan awalan kustom untuk OSS-HDFS agar pekerjaan dapat berjalan tanpa mengubah awalan akses aslinya`hdfs://`.	Mengakses OSS-HDFS menggunakan RootPolicy
ProxyUser	Perintah ProxyUser memberi otorisasi kepada pengguna untuk melakukan operasi sistem file atas nama pengguna lain, seperti mengakses data sensitif.	ProxyUser (Mengonfigurasi pengguna proksi)
UserGroupsMapping	UserGroupsMapping mengonfigurasi pemetaan antara pengguna dan kelompok pengguna.	UserGroupsMapping (Mengelola pemetaan pengguna dan kelompok)

Kasus penggunaan

OSS-HDFS mendukung berbagai kasus penggunaan data besar dan AI:

Hive dan Spark

OSS-HDFS cocok untuk gudang data offline yang dibangun dengan Hive dan Spark. Fitur ini mendukung secara native semantik file dan direktori, izin, operasi direktori atomik, penggantian nama dalam milidetik, setTimes, atribut diperluas (XAttrs), ACL, serta akselerasi cache baca lokal. Pada beban kerja ekstrak, transformasi, dan muat (ETL), OSS-HDFS jauh lebih unggul dibandingkan Bucket OSS standar.

OLAP

OSS-HDFS mendukung operasi file seperti append, truncate, flush, sync, dan pwrite, dengan dukungan POSIX penuh melalui JindoFuse. Hal ini memungkinkan Anda menggantikan disk lokal dalam skenario online analytical processing (OLAP), seperti ClickHouse, untuk menguraikan keterkaitan penyimpanan dan komputasi. Caching bawaan lebih lanjut mempercepat performa.

Penguraian keterkaitan HBase

OSS-HDFS mendukung secara native semantik file dan direktori serta operasi flush, sehingga dapat menggantikan HDFS dalam arsitektur penyimpanan-komputasi terurai untuk HBase. Dibandingkan Bucket OSS standar, pendekatan ini menyederhanakan arsitektur dengan menyimpan Write-Ahead Log (WAL) secara langsung di OSS-HDFS. Menggunakan OSS-HDFS sebagai penyimpanan dasar untuk HBase.

Komputasi real-time

OSS-HDFS mendukung operasi flush dan truncate serta dapat menggantikan HDFS secara mulus untuk sink dan checkpoint dalam aplikasi komputasi real-time Flink.

Migrasi data

OSS-HDFS memungkinkan migrasi lancar data HDFS dari pusat data lokal ke cloud, mengurangi biaya penyimpanan melalui skalabilitas elastis dan harga bayar sesuai penggunaan. JindoDistCp memigrasikan data HDFS, termasuk atribut file dan metadata, ke OSS-HDFS serta menyediakan perbandingan data cepat berdasarkan checksum HDFS.

Mesin yang didukung

Ekosistem	Mesin/Platform	Referensi
ekosistem open source	Flink	Menggunakan Flink open source dengan JindoSDK untuk memproses data di OSS-HDFS
	Flume	Menggunakan Flume dengan JindoSDK untuk menulis data ke OSS-HDFS
	Hadoop	Menggunakan Hadoop dengan JindoSDK untuk mengakses OSS-HDFS
	HBase	Menggunakan OSS-HDFS sebagai penyimpanan dasar untuk HBase
	Hive	Menggunakan Hive dengan JindoSDK untuk memproses data di OSS-HDFS
	Impala	Menggunakan Impala dengan JindoSDK untuk mengkueri data di OSS-HDFS
	Presto	Menggunakan Trino dengan JindoSDK untuk mengkueri data di OSS-HDFS
	Spark	Menggunakan Spark dengan JindoSDK untuk mengkueri data di OSS-HDFS
ekosistem Alibaba Cloud	EMR	Mengakses OSS-HDFS dari Hive atau Spark di EMR
	Flink	Melakukan penulisan yang dapat dipulihkan dari EMR Flink ke OSS-HDFS Menggunakan Realtime Compute for Apache Flink untuk membaca dari dan menulis ke OSS atau OSS-HDFS
	Flume	Menggunakan Flume untuk menyinkronkan data dari kluster Kafka EMR ke OSS-HDFS
	HBase	Menggunakan OSS-HDFS sebagai penyimpanan dasar untuk HBase di kluster EMR
	Hive	Menggunakan Hive di kluster EMR untuk memproses data di OSS-HDFS
	Impala	Menggunakan Impala di kluster EMR untuk mengkueri data di OSS-HDFS
	Presto	Menggunakan Trino di kluster EMR untuk mengkueri data di OSS-HDFS
	Spark	Menggunakan Spark di kluster EMR untuk memproses data di OSS-HDFS
	Sqoop	Menggunakan Sqoop di kluster EMR untuk membaca dan menulis data di OSS-HDFS