全部产品
Search
文档中心

Object Storage Service:Ikhtisar Danau Data

更新时间:Nov 09, 2025

Danau data adalah repositori terpusat yang menyimpan data semi-terstruktur dan tidak terstruktur dalam skala apa pun. Data disimpan dalam format mentahnya, memungkinkan Anda menggunakan berbagai mesin analitik seperti kerangka kerja pemrosesan data besar, alat analitik waktu nyata, dan pembelajaran mesin untuk mengekstraksi wawasan berharga dengan mudah.

Diagram Arsitektur

组 850@4x

Diagram arsitektur ini menggambarkan platform manajemen dan analitik data komprehensif yang mencakup alur end-to-end dari pengumpulan hingga aplikasi.

  • Mendukung unggahan data dalam berbagai format seperti Parquet, CSV, JSON, file multimedia, serta data dari database dan aplikasi.

  • Kompatibel dengan cloud publik, Apsara Stack, cloud hibrida, dan perangkat edge, memastikan sumber data yang luas dan fleksibel.

  • Menyimpan data untuk layanan data besar dan AI di BucketGroups. Anda dapat menyesuaikan bandwidth BucketGroup menggunakan Quality of Service (QoS) kolam sumber daya dan menggunakan Object Storage Service (OSS) sebagai solusi penyimpanan danau data, memastikan akses dan manajemen data yang efisien.

  • Menyediakan berbagai antarmuka pemrograman seperti kit pengembangan perangkat lunak (SDK), sistem file POSIX, dan lapisan kompatibel Sistem File Terdistribusi Hadoop (HDFS) untuk akses dan pemrosesan data yang fleksibel.

  • Memungkinkan eksplorasi data kompleks, pelatihan model pembelajaran mesin, dan komputasi aliran waktu nyata dengan mengintegrasikan fitur analitik data dan AI. Alat visualisasi membantu memahami dan menyajikan wawasan data secara lebih baik.

Mengapa Membangun Danau Data di Alibaba Cloud OSS

Alibaba Cloud OSS menyediakan penyimpanan yang hampir tak terbatas, hemat biaya, dan elastis, menjadikannya layanan penyimpanan ideal untuk membangun solusi danau data di Alibaba Cloud. OSS memiliki fitur manajemen data yang kuat untuk memproses dan mengatur sejumlah besar data secara efisien. Beragam klien yang dimilikinya memungkinkan integrasi mudah dengan mesin komputasi.

Membangun danau data di OSS memberikan keunggulan inti berikut:

  • Penyimpanan biaya rendah: Menawarkan model bayar sesuai penggunaan dan mendukung penyimpanan bertingkat berdasarkan aturan siklus hidup (Standar, Akses Jarang, Arsip, Penyimpanan Arsip Dingin, dan Deep Cold Archive) untuk kontrol biaya yang fleksibel.

  • Skalabilitas elastis: Mendukung penyimpanan data berskala exabyte dan menghilangkan kebutuhan provisioning kapasitas, sehingga mempermudah penanganan pertumbuhan data.

  • Integrasi ekosistem: Terintegrasi mulus dengan layanan komputasi Alibaba Cloud seperti MaxCompute, EMR, dan PAI, serta kerangka kerja analitik open source seperti Hadoop, Spark, RAY, dan PyTorch.

  • Keamanan dan kepatuhan: Menyediakan Enkripsi, Kontrol Akses, dan untuk memenuhi persyaratan keamanan tingkat perusahaan.

  • Ketersediaan tinggi dan pemulihan bencana: Menyediakan penyimpanan redundan lintas zona dan mendukung replikasi lintas wilayah untuk memastikan keandalan data.

Apa yang Perlu Dipertimbangkan Saat Membangun Danau Data

Saat membangun platform danau data dan analitik, beberapa aspek utama harus dipertimbangkan, termasuk yang berikut:

Pengumpulan dan Impor Data

Danau data memungkinkan impor data waktu nyata dalam jumlah berapa pun. Ini mendukung pengumpulan data dari berbagai sumber dan penyimpanan dalam format mentahnya, memungkinkan penskalaan ke jumlah data berapa pun tanpa perlu menentukan struktur data, skema, atau transformasi. OSS menyediakan metode berikut untuk mengimpor data:

Penyimpanan Data yang Aman dan Hemat Biaya

Danau data dapat menyimpan sejumlah besar data tidak terstruktur dari sumber-sumber seperti aplikasi seluler, perangkat IoT, media sosial, dan Internet kendaraan. Data ini memerlukan optimasi biaya otomatis dan harus tetap aman setiap saat. OSS menyediakan fitur-fitur berikut untuk memenuhi persyaratan ini:

  • Lima kelas penyimpanan untuk mengakomodasi data dengan frekuensi akses yang berbeda, dari panas hingga dingin.

  • Aturan siklus hidup untuk secara otomatis mentransisikan data dingin ke kelas penyimpanan biaya lebih rendah.

  • Versi untuk mencegah penghapusan data secara tidak sengaja.

Kelola Data dalam Jumlah Besar

Di dalam danau data, departemen bisnis yang berbeda mungkin menyimpan data di bawah awalan yang berbeda dalam bucket yang sama, atau di bucket terpisah. Skenario ini memerlukan kemampuan untuk mengelola data secara terpisah dalam satu bucket dan memfasilitasi aliran data antara bucket yang berbeda. OSS menyediakan berbagai fitur untuk menangani skenario kompleks ini:

  • Titik akses untuk mengonfigurasi izin akses data bagi tim bisnis yang berbeda.

  • Inventaris bucket untuk memantau penggunaan penyimpanan tim bisnis yang berbeda dalam sebuah bucket.

  • Replikasi data untuk secara otomatis menyinkronkan data antara bucket di wilayah yang sama atau di wilayah yang berbeda.

Kelola dan Optimalkan Kinerja untuk Akses Layanan Multi

  • Dalam operasi danau data yang umum, pengumpulan data bersamaan, pra-pemrosesan, pelatihan AI, dan debugging dapat menyebabkan alokasi sumber daya yang tidak merata dan konflik sumber daya antara bucket dan antara Pengguna Manajemen Akses Sumber Daya (RAM). OSS menyediakan fitur kolam sumber daya QoS, yang memungkinkan Anda menyesuaikan throttling untuk bucket dan pemintanya secara dinamis. Ini memastikan bahwa layanan utama dan tugas komputasi-intensif menerima akses prioritas ke sumber daya selama periode beban tinggi, menjaga stabilitas bisnis.

  • Untuk skenario yang memerlukan latensi rendah dan kinerja tinggi, seperti permintaan per detik (QPS) tinggi untuk gudang data, respons latensi rendah untuk data bisnis online, dan penarikan model berulang dengan latensi rendah untuk Inferensi AI, OSS menyediakan Akselerator OSS. Akselerator OSS menyimpan file panas pada SSD NVMe berkinerja tinggi untuk mengurangi latensi pembacaan data dan meningkatkan QPS, secara signifikan mengoptimalkan kinerja pekerjaan komputasi waktu nyata.

Integrasi dengan Kerangka Kerja Analitik Data dan AI

Danau data biasanya menjalankan berbagai kerangka kerja komputasi analitik dan AI, dan proses produksi lengkap di perusahaan mungkin menggunakan beberapa di antaranya. Kerangka komputasi yang berbeda memiliki antarmuka dan metode yang berbeda untuk mengakses data. Untuk memfasilitasi koneksi mudah ke ekosistem ini dan mengurangi biaya transformasi bisnis, OSS menyediakan berbagai klien, alat, dan fitur:

  • OSS menyediakan berbagai SDK untuk bahasa pemrograman utama. Jika Anda memiliki pengalaman pemrograman, Anda dapat menggunakan OSS SDK untuk mencapai akses data berkinerja tinggi. Untuk informasi tentang praktik pemrograman berkinerja tinggi untuk OSS, lihat Tingkatkan bandwidth secara signifikan menggunakan pustaka konkurensi Python untuk transformasi multi-threaded.

  • Jika Anda memiliki pengalaman menjalankan ekosistem Hadoop pada penyimpanan objek di cloud, Anda dapat menggunakan Konektor OSS untuk Hadoop untuk membaca dan menulis data OSS. Metode ini memungkinkan Anda menggunakan skalabilitas tanpa batas dan berbagai fitur tingkat perusahaan OSS secara efisien.

  • Jika Anda saat ini banyak menggunakan HDFS open source dan tidak dapat mentransformasi bisnis Anda dalam waktu singkat, Anda dapat menggunakan Layanan OSS-HDFS. Layanan ini menyediakan antarmuka standar yang sepenuhnya kompatibel dengan HDFS, memberikan kinerja yang lebih kuat dan skalabilitas elastis dibandingkan HDFS tradisional. Layanan OSS-HDFS terintegrasi mulus dengan Alibaba Cloud EMR dan komponen ekosistem open source seperti Hadoop dan Spark. Solusi ini menekankan kompatibilitas yang kuat dengan HDFS, memungkinkan perusahaan bermigrasi secara mulus layanan HDFS tradisional dari pusat data lokal ke cloud tanpa memodifikasi aplikasi big data berbasis HDFS yang ada. Namun, karena perbedaan fungsional antara HDFS open source dan penyimpanan objek, Anda mungkin tidak dapat menggunakan beberapa fitur manajemen data lanjutan asli OSS. Untuk informasi lebih lanjut, lihat Fitur Layanan OSS-HDFS. Oleh karena itu, setelah Anda bermigrasi ke cloud, kami merekomendasikan Anda secara bertahap menyesuaikan dan mengoptimalkan layanan Anda untuk menggunakan Konektor OSS, memanfaatkan sepenuhnya kinerja tinggi dan kemampuan manajemen data yang kaya dari OSS dalam skenario cloud-native.

  • Jika beberapa aplikasi bisnis Anda perlu mengakses data menggunakan metode file tradisional dan tidak dapat dimodifikasi, OSS menyediakan klien ossfs untuk memenuhi kebutuhan baca dan tulis data program-program ini:

    • Untuk aplikasi modern seperti pelatihan AI, Inferensi AI, dan simulasi mengemudi otonom, persyaratan semantik POSIX relatif longgar. Anda dapat menggunakan ossfs 2.0 untuk kinerja terbaik. Jika Anda tidak yakin tentang mode akses spesifik aplikasi Anda, Anda dapat menguji dengan ossfs 2.0 terlebih dahulu. Jika tidak berhasil, Anda dapat menurunkan spesifikasi ke ossfs 1.0.

    • Untuk aplikasi tradisional, Anda dapat menggunakan ossfs 1.0 untuk membaca dan menulis data yang disimpan di OSS. Namun, karena perbedaan semantik yang signifikan antara OSS dan NAS, dan kebutuhan beberapa aplikasi tradisional akan kompatibilitas POSIX yang lebih tinggi dan kinerja, kami tidak merekomendasikan menggunakan ossfs 1.0 dengan OSS sebagai pengganti NAS. Dalam kasus-kasus ini, untuk memastikan kompatibilitas dan kinerja terbaik, kami merekomendasikan Anda memilih Penyimpanan File NAS Alibaba Cloud.

  • Jika Anda terbiasa dengan kerangka dataset PyTorch untuk memuat dataset AI tetapi tidak terbiasa menggunakan OSS SDK, Anda dapat menggunakan Konektor OSS untuk AI/ML untuk mempercepat pelatihan model. Ini memungkinkan Anda mendapatkan kinerja pembacaan dataset OSS terbaik tanpa mempelajari cara menggunakan OSS SDK.

  • Untuk kebutuhan unggah dan unduh file sehari-hari administrator dan pengembang, OSS menyediakan alat berikut: