全部产品
Search
文档中心

Object Storage Service:Apa itu OSS-HDFS?

更新时间:Nov 06, 2025

OSS-HDFS (JindoFS) adalah fitur penyimpanan data lake berbasis cloud-native yang menyediakan manajemen metadata terpusat dan kompatibilitas penuh dengan API Sistem File Terdistribusi Hadoop (HDFS). Anda dapat menggunakan OSS-HDFS untuk mengelola data dalam skenario komputasi berbasis data lake di bidang big data dan AI.

Catatan penggunaan

Peringatan

Setelah OSS-HDFS diaktifkan untuk sebuah bucket, data yang ditulis menggunakan OSS-HDFS akan disimpan di direktori .dlsdata/. Untuk memastikan ketersediaan OSS-HDFS dan mencegah kehilangan data, hindari melakukan operasi penulisan pada direktori .dlsdata/ atau objek di dalamnya dengan metode yang tidak didukung oleh OSS-HDFS, seperti mengganti nama direktori, menghapus direktori, atau menghapus objek di dalam direktori.

Setelah mengaktifkan OSS-HDFS, risiko seperti kehilangan data, kontaminasi data, atau ketidakmampuan mengakses data dapat terjadi jika Anda menggunakan fitur Layanan Penyimpanan Objek (OSS) lainnya untuk menulis data ke direktori .dlsdata/. Untuk informasi lebih lanjut, lihat Catatan Penggunaan.

Aturan penagihan

  • Biaya Penyimpanan Data

    Saat menggunakan OSS-HDFS, blok data disimpan di Layanan Penyimpanan Objek (OSS), sehingga metode penagihan OSS berlaku untuk blok data di OSS-HDFS. Untuk informasi lebih lanjut, lihat Gambaran Penagihan.

Manfaat

Anda dapat menggunakan OSS-HDFS tanpa perlu memodifikasi aplikasi Hadoop dan Spark yang sudah ada. Konfigurasi OSS-HDFS mudah dilakukan, memungkinkan Anda mengakses dan mengelola data dengan cara yang mirip dengan HDFS. OSS-HDFS juga memanfaatkan karakteristik OSS, seperti ruang penyimpanan tak terbatas, skalabilitas elastis, serta keamanan, keandalan, dan ketersediaan tinggi.

Data lake berbasis cloud-native dibangun di atas OSS-HDFS, memungkinkan Anda mengelola eksabyte data atau ratusan juta objek dengan throughput terabyte. OSS-HDFS menyediakan fitur namespace datar dan hierarkis untuk memenuhi kebutuhan penyimpanan big data. Fitur namespace hierarkis memungkinkan pengelolaan objek dalam struktur direktori hierarkis. OSS-HDFS secara otomatis mengonversi struktur penyimpanan antara namespace datar dan hierarkis untuk membantu Anda mengelola metadata objek secara terpusat. Dibandingkan dengan arsitektur redundansi aktif-standby untuk NameNode di HDFS tradisional, OSS-HDFS mengimplementasikan mekanisme redundansi multi-node aktif-aktif untuk manajemen metadata, meningkatkan keandalan dan skalabilitas secara signifikan. Pengguna Hadoop dapat mengakses objek di OSS-HDFS tanpa perlu menyalin atau mengonversi format objek, meningkatkan kinerja pekerjaan dan mengurangi biaya pemeliharaan.

Fitur

Fitur

Deskripsi

Referensi

RootPolicy

Anda dapat menggunakan RootPolicy untuk mengonfigurasi awalan kustom untuk OSS-HDFS. Dengan cara ini, pekerjaan dapat berjalan di OSS-HDFS tanpa memodifikasi awalan akses asli hdfs://.

Akses OSS-HDFS menggunakan RootPolicy

ProxyUser

Perintah ProxyUser digunakan untuk memberi otorisasi kepada pengguna untuk melakukan operasi seperti mengakses data sensitif atas nama pengguna lain.

ProxyUser

UserGroupsMapping

Perintah UserGroupsMapping digunakan untuk mengelola pemetaan antara pengguna dan grup pengguna.

UserGroupsMapping

Skenario

OSS-HDFS cocok untuk skenario komputasi di bidang big data dan AI. Berikut adalah beberapa contoh penggunaannya:

Gudang data offline dengan Hive dan Spark

OSS-HDFS mendukung operasi pada file dan direktori serta pengelolaan izin. OSS-HDFS juga mendukung operasi atomik pada direktori dan penggantian nama dalam milidetik, serta fitur seperti konfigurasi waktu menggunakan setTimes, atribut tambahan (XAttrs), ACL, dan akses cepat ke cache lokal. Hal ini membuat OSS-HDFS ideal untuk gudang data offline dengan Hive dan Spark. Saat menggunakan fitur ekstrak, transformasi, dan muat (ETL) untuk memproses data, OSS-HDFS memberikan performa lebih baik daripada bucket Standar OSS.

OLAP

OSS-HDFS mendukung operasi dasar terkait file, seperti append, truncate, flush, dan pwrite, serta POSIX melalui JindoFuse. Dengan cara ini, saat menggunakan ClickHouse untuk pemrosesan analitik online (OLAP), Anda dapat menggantikan disk lokal untuk memisahkan penyimpanan dari komputasi. Sistem caching OSS-HDFS membantu mengurangi waktu operasi dan meningkatkan performa dengan biaya rendah.

Pemisahan penyimpanan dari komputasi untuk HBase

OSS-HDFS mendukung operasi pada file dan direktori serta operasi flush. Anda dapat menggunakan OSS-HDFS sebagai pengganti HDFS untuk memisahkan penyimpanan dari komputasi untuk HBase. Dibandingkan dengan kombinasi HBase dan bucket Standar OSS, kombinasi HBase dan OSS-HDFS memberikan arsitektur layanan yang lebih ringkas karena yang terakhir menggunakan HDFS untuk menyimpan log Web Application Firewall (WAF). Untuk informasi lebih lanjut, lihat Gunakan OSS-HDFS sebagai Backend Penyimpanan HBase.

Komputasi real-time

OSS-HDFS mendukung operasi flush dan truncate. Anda dapat menggunakan OSS-HDFS sebagai pengganti HDFS untuk menyimpan sink dan checkpoint dalam skenario komputasi real-time Flink.

Migrasi data

Sebagai layanan penyimpanan data lake berbasis cloud-native, OSS-HDFS memungkinkan migrasi data dari HDFS di pusat data ke Alibaba Cloud, mengoptimalkan pengalaman pengguna HDFS, dan menyediakan layanan penyimpanan yang scalable dan hemat biaya. Anda dapat menggunakan Jindo DistCp untuk memigrasikan data dari HDFS ke OSS-HDFS. Selama migrasi data, checksum HDFS dapat digunakan untuk memverifikasi integritas data.

Mesin yang didukung

Ekosistem

Mesin/Platform

Referensi

Ekosistem open source

Flink

Menulis data ke OSS-HDFS menggunakan Flink open source

Flume

Gunakan JindoSDK dengan Flume untuk menulis data ke OSS-HDFS

Hadoop

Gunakan Hadoop untuk mengakses OSS-HDFS menggunakan JindoSDK

HBase

Gunakan OSS-HDFS sebagai penyimpanan dasar untuk HBase

Hive

Gunakan JindoSDK dengan Hive untuk memproses data yang disimpan di OSS-HDFS

Impala

Gunakan JindoSDK dengan Impala untuk menanyakan data di layanan OSS-HDFS

Presto

Gunakan JindoSDK dengan Presto untuk menanyakan data yang disimpan di OSS-HDFS

Spark

Gunakan JindoSDK dengan Spark untuk menanyakan data di OSS-HDFS

Ekosistem Alibaba Cloud

EMR

Akses OSS-HDFS dari EMR Hive atau Spark

Flink

Flume

Gunakan Flume untuk menyinkronkan data dari kluster EMR Kafka ke OSS-HDFS

HBase

Gunakan OSS-HDFS sebagai penyimpanan dasar HBase pada kluster EMR

Hive

Gunakan Hive pada kluster EMR untuk memproses data yang disimpan di OSS-HDFS

Impala

Gunakan Impala pada kluster EMR untuk menanyakan data yang disimpan di OSS-HDFS

Presto

Gunakan Presto pada kluster EMR untuk menanyakan data yang disimpan di OSS-HDFS

Spark

Gunakan Spark pada kluster EMR untuk memproses data yang disimpan di OSS-HDFS

Sqoop

Gunakan Apache Sqoop pada kluster EMR untuk mengimplementasikan akses baca dan tulis ke data yang disimpan di OSS-HDFS