All Products
Search
Document Center

Object Storage Service:Apa itu layanan OSS-HDFS?

Last Updated:Mar 01, 2026

OSS-HDFS (juga dikenal sebagai JindoFS) adalah kemampuan penyimpanan data lake cloud-native yang dibangun di atas Object Storage Service (OSS). Layanan ini sepenuhnya kompatibel dengan antarmuka Hadoop Distributed File System (HDFS) dan menyediakan manajemen metadata terpadu untuk skenario komputasi data besar dan AI.

OSS-HDFS bukanlah layanan penyimpanan terpisah, melainkan serangkaian kemampuan yang dapat Anda aktifkan pada bucket OSS yang sudah ada. Setelah menjalani konfigurasi sederhana, Anda dapat mengelola dan mengakses data seperti pada HDFS native sekaligus memperoleh manfaat dari skalabilitas, keandalan, dan efisiensi biaya OSS.

Catatan penggunaan

Peringatan

Setelah OSS-HDFS diaktifkan untuk suatu bucket, data yang ditulis menggunakan OSS-HDFS akan disimpan dalam direktori .dlsdata/. Untuk memastikan ketersediaan OSS-HDFS dan mencegah kehilangan data, jangan lakukan operasi tulis pada direktori .dlsdata/ atau objek di dalamnya menggunakan metode yang tidak didukung oleh OSS-HDFS. Misalnya, hindari operasi tulis berikut: mengganti nama direktori, menghapus direktori, dan menghapus objek dalam direktori tersebut.

Penggunaan fitur OSS lainnya untuk melakukan operasi tulis pada direktori .dlsdata/ dapat menyebabkan kehilangan data, kontaminasi data, atau kegagalan akses data. Untuk informasi selengkapnya, lihat Catatan penggunaan.

Aturan penagihan

  • Biaya penyimpanan data

    Saat menggunakan OSS-HDFS, blok data disimpan di Object Storage Service (OSS). Oleh karena itu, metode penagihan OSS berlaku untuk blok data dalam OSS-HDFS. Untuk informasi selengkapnya, lihat Ikhtisar penagihan.

Keunggulan

OSS-HDFS memberikan kemampuan utama berikut ke bucket OSS Anda:

  • Akses kompatibel HDFS: Gunakan API Hadoop FileSystem standar tanpa perlu memodifikasi aplikasi Hadoop dan Spark yang sudah ada.

  • Namespace hirarkis: Mengatur objek ke dalam hierarki direktori sejati dengan dukungan operasi direktori atomik seperti rename dan delete.

  • Penyimpanan terpadu: Data disimpan di bucket OSS yang mendasarinya, sehingga Anda mendapatkan kapasitas tak terbatas, skalabilitas elastis, serta keamanan, keandalan, dan ketersediaan tinggi.

  • Dukungan ekosistem luas: Kompatibel dengan Spark, Hive, Flink, Presto, HBase, dan framework data besar lainnya.

  • Keamanan enterprise: Mendukung izin file dan direktori, access control lists (ACLs), dan extended attributes (XAttrs).

  • Efisiensi biaya: Metode penagihan OSS berlaku untuk data yang disimpan. Tidak ada biaya layanan penyimpanan terpisah.

Namespace hirarkis

Namespace hirarkis merupakan fitur inti OSS-HDFS. Selain namespace datar pada penyimpanan objek standar, OSS-HDFS menyediakan hierarki direktori yang memungkinkan Anda mengatur objek ke dalam direktori dan subdirektori bersarang. Kemampuan manajemen metadata terpadunya memungkinkan konversi internal otomatis.

Manajemen metadata

OSS-HDFS menggunakan mekanisme redundansi multi-node active-active untuk manajemen metadata. Dibandingkan arsitektur NameNode aktif/cadangan pada HDFS tradisional, desain ini memberikan redundansi data yang lebih unggul. OSS-HDFS mampu mengelola data dalam skala exabyte dan ratusan juta file, serta menghadirkan throughput hingga terabyte.

Bagi pengguna Hadoop, hal ini berarti Anda dapat mengakses data seefisien mengakses HDFS lokal tanpa perlu replikasi atau konversi data, sehingga secara signifikan meningkatkan performa pekerjaan secara keseluruhan dan mengurangi biaya pemeliharaan.

Skenario

OSS-HDFS mendukung berbagai kasus penggunaan data besar dan AI:

Gudang data offline dengan Hive dan Spark

OSS-HDFS mendukung semantik dan operasi file serta direktori, termasuk izin direktori, atomicity direktori, operasi rename dalam milidetik, operasi setTimes, extended attributes (XAttrs), access control lists (ACLs), dan akselerasi cache baca lokal. Fitur-fitur ini menjadikannya sangat cocok untuk gudang data offline Hive dan Spark open-source. Dalam skenario ekstrak, transformasi, dan muat (ETL), OSS-HDFS memberikan keunggulan performa signifikan dibandingkan bucket OSS standar.

Pemrosesan analitik online (OLAP)

OSS-HDFS mendukung operasi file dasar seperti append, truncate, flush, sync, dan pwrite. Layanan ini sepenuhnya mendukung POSIX melalui JindoFuse. Dalam skenario OLAP seperti ClickHouse, Anda dapat mengganti disk lokal dengan OSS-HDFS untuk menerapkan solusi komputasi-penyimpanan terpisah. Sistem caching menyediakan akselerasi untuk meningkatkan efektivitas biaya.

HBase dengan komputasi-penyimpanan terpisah

OSS-HDFS mendukung semantik dan operasi file serta direktori, termasuk operasi flush. Anda dapat menggunakannya untuk menggantikan HDFS dalam solusi komputasi-penyimpanan terpisah untuk HBase. Dibandingkan solusi yang menggabungkan HBase dengan bucket OSS standar, solusi yang menggabungkan HBase dengan OSS-HDFS dapat menyimpan log write-ahead logging (WAL) menggunakan API HDFS, sehingga sangat menyederhanakan arsitektur solusi secara keseluruhan. Untuk informasi selengkapnya, lihat Gunakan OSS-HDFS sebagai penyimpanan dasar untuk HBase.

Komputasi real-time

OSS-HDFS mendukung operasi flush dan truncate, sehingga dapat menggantikan HDFS secara mulus sebagai solusi penyimpanan untuk sink dan checkpoint dalam skenario komputasi real-time Flink.

Migrasi data

Sebagai solusi penyimpanan data lake cloud-native, OSS-HDFS mengoptimalkan pengalaman pengguna HDFS dan memberikan manfaat biaya dari skalabilitas elastis serta penagihan bayar sesuai penggunaan, yang secara signifikan mengurangi biaya penyimpanan. Layanan ini mendukung migrasi lift-and-shift HDFS on-premises ke cloud. Tool JindoDistCp mendukung migrasi mulus data file HDFS dan metadata—seperti properti file—ke OSS-HDFS. Layanan ini juga menyediakan fitur perbandingan cepat berdasarkan checksum HDFS.

Engine yang didukung

Ekosistem open-source

Engine

Referensi

Flink

Gunakan Flink open source dengan JindoSDK untuk memproses data di OSS-HDFS

Flume

Gunakan JindoSDK dengan Flume untuk menulis data ke OSS-HDFS

Hadoop

Gunakan JindoSDK dengan Hadoop untuk mengakses OSS-HDFS

HBase

Gunakan OSS-HDFS sebagai penyimpanan dasar untuk HBase

Hive

Gunakan JindoSDK dengan Hive untuk memproses data di OSS-HDFS

Impala

Gunakan JindoSDK dengan Impala untuk mengkueri data di OSS-HDFS

Presto

Gunakan JindoSDK dengan Trino untuk mengkueri data di OSS-HDFS

Spark

Gunakan JindoSDK dengan Spark untuk mengkueri data di OSS-HDFS

Ekosistem Alibaba Cloud

Engine/Platform

Referensi

EMR (Hive/Spark)

Akses OSS-HDFS dari EMR Hive atau Spark

EMR Flink

EMR Flume

Gunakan Flume untuk menyinkronkan data dari kluster EMR Kafka ke OSS-HDFS

EMR HBase

Gunakan OSS-HDFS sebagai penyimpanan dasar HBase pada kluster EMR

EMR Hive

Gunakan Hive pada kluster EMR untuk memproses data di OSS-HDFS

EMR Impala

Gunakan Impala pada kluster EMR untuk mengkueri data di OSS-HDFS

EMR Presto

Gunakan Trino pada kluster EMR untuk mengkueri data di OSS-HDFS

EMR Spark

Gunakan Spark pada kluster EMR untuk memproses data di OSS-HDFS

EMR Sqoop

Gunakan Sqoop pada kluster EMR untuk membaca dan menulis data ke OSS-HDFS

Fitur

Fitur

Deskripsi

Referensi

RootPolicy

Tetapkan awalan kustom untuk OSS-HDFS. Hal ini memungkinkan pekerjaan berjalan langsung di OSS-HDFS tanpa perlu memodifikasi awalan akses hdfs:// asli.

Akses data menggunakan RootPolicy

ProxyUser

Otorisasi pengguna untuk melakukan operasi sistem file atas nama pengguna lain. Fitur ini berguna untuk mengakses data sensitif di mana hanya pengguna tertentu yang berwenang dapat mengoperasikan data tersebut.

ProxyUser (Konfigurasi pengguna proxy)

UserGroupsMapping

Konfigurasikan pemetaan antara pengguna dan kelompok pengguna.

UserGroupsMapping (Kelola pemetaan pengguna dan kelompok)