全部产品
Search
文档中心

:Buat pekerjaan pengiriman data OSS (versi baru)

更新时间:Nov 09, 2025

Layanan Log Sederhana dapat mengirimkan data yang dikumpulkan ke bucket Object Storage Service (OSS) untuk penyimpanan dan analisis. Topik ini menjelaskan cara membuat pekerjaan pengiriman data OSS menggunakan versi baru.

Prasyarat

Wilayah yang didukung

Layanan Log Sederhana mengirimkan data ke bucket OSS di wilayah yang sama dengan proyek Layanan Log Sederhana.

Penting

Pengiriman data ke OSS hanya didukung di wilayah berikut: China (Hangzhou), China (Shanghai), China (Qingdao), China (Beijing), China (Zhangjiakou), China (Hohhot), China (Ulanqab), China (Chengdu), China (Shenzhen), China (Heyuan), China (Guangzhou), China (Hong Kong), Singapura, Malaysia (Kuala Lumpur), Indonesia (Jakarta), Filipina (Manila), Thailand (Bangkok), Jepang (Tokyo), AS (Silicon Valley), dan AS (Virginia).

Buat pekerjaan pengiriman data

  1. Masuk ke Konsol Layanan Log Sederhana.

  2. Di bagian Proyek, klik yang Anda inginkan.

    image

  3. Pada tab Log Storage > Logstores, klik ikon > di sebelah kiri penyimpanan log tujuan dan pilih Data Processing > Export > OSS (Object Storage Service).

  4. Arahkan pointer ke OSS (Object Storage Service) dan klik +.

  5. Di panel OSS Data Shipping, konfigurasikan parameter berikut dan klik OK.

    Atur Shipping Version ke New Version. Tabel berikut menjelaskan parameter utama.

    Penting
    • Setelah Anda membuat pekerjaan pengiriman data OSS, frekuensi pengiriman untuk setiap shard ditentukan oleh ukuran pengiriman dan interval pengiriman. Tugas pengiriman dipicu ketika salah satu kondisi terpenuhi.

    • Setelah Anda membuat pekerjaan, Anda dapat memeriksa statusnya dan data yang dikirimkan ke OSS untuk memastikan bahwa pekerjaan berjalan sesuai harapan.

    Parameter

    Deskripsi

    Job Name

    Nama unik dari pekerjaan pengiriman data.

    Display Name

    Nama tampilan dari pekerjaan pengiriman data.

    Job Description

    Deskripsi pekerjaan OSS.

    OSS Bucket

    Nama bucket OSS.

    Penting
    • Bucket harus sudah ada, memiliki fitur Write-Once-Read-Many (WORM) dinonaktifkan, dan berada di wilayah yang sama dengan proyek Layanan Log Sederhana. Untuk informasi lebih lanjut tentang WORM, lihat Kebijakan Retensi (WORM).

    • Anda dapat mengirimkan data ke bucket kelas penyimpanan Standar, Akses Jarang, Arsip, Penyimpanan Arsip Dingin, atau Deep Cold Archive. Setelah pengiriman, kelas penyimpanan objek OSS yang dihasilkan secara default sama dengan kelas penyimpanan bucket. Untuk informasi lebih lanjut, lihat Kelas penyimpanan.

    • Bucket kelas penyimpanan non-Standar memiliki batasan pada durasi penyimpanan minimum dan ukuran tagihan minimum. Atur kelas penyimpanan untuk bucket tujuan sesuai kebutuhan. Untuk informasi lebih lanjut, lihat Perbandingan kelas penyimpanan.

    File Shipping Directory

    Direktori di bucket OSS. Nama direktori tidak boleh dimulai dengan garis miring (/) atau backslash (\).

    Setelah Anda membuat pekerjaan pengiriman data OSS, data dari penyimpanan log dikirimkan ke direktori ini di bucket OSS tujuan.

    File Suffix

    Jika Anda tidak menyetel akhiran file, Layanan Log Sederhana secara otomatis menghasilkan akhiran berdasarkan format penyimpanan dan jenis kompresi. Contohnya: .suffix.

    Partition Format

    Format untuk pembuatan dinamis direktori di bucket OSS berdasarkan waktu pengiriman. Format tidak boleh dimulai dengan garis miring (/). Nilai default adalah %Y/%m/%d/%H/%M. Untuk contoh, lihat Format partisi. Untuk informasi lebih lanjut tentang parameter, lihat API strptime.

    Write OSS RAM Role

    Izin yang memberikan pekerjaan pengiriman data OSS untuk menulis data ke bucket OSS.

    Read Logstore RAM Role

    Izin yang memberikan pekerjaan pengiriman data OSS untuk membaca data dari penyimpanan log.

    Storage Format

    Setelah data dikirimkan ke OSS, data tersebut dapat disimpan dalam format file yang berbeda. Untuk informasi lebih lanjut, lihat Format CSV, Format JSON, Format Parquet, dan Format ORC.

    Compress Data

    Metode kompresi untuk data yang disimpan di OSS.

    • Tidak ada (tanpa kompresi): Data tidak dikompresi.

    • snappy: Mengompresi data menggunakan algoritma snappy untuk mengurangi ruang penyimpanan di bucket OSS. Untuk informasi lebih lanjut, lihat snappy.

    • zstd: Mengompresi data menggunakan algoritma zstd untuk mengurangi ruang penyimpanan di bucket OSS.

    • gzip: Mengompresi data menggunakan algoritma gzip untuk mengurangi ruang penyimpanan di bucket OSS.

    Delivery Tag

    Bidang tag adalah bidang cadangan di Layanan Log Sederhana. Untuk informasi lebih lanjut, lihat Bidang cadangan.

    Batch Size

    Pekerjaan mulai mengirimkan data setelah ukuran log di sebuah shard mencapai nilai ini. Parameter ini mengontrol ukuran setiap objek OSS (tidak dikompresi). Rentang nilai: 5 MB hingga 256 MB.

    Catatan

    Ukuran batch mengacu pada ukuran data setelah dibaca, bukan ukuran data yang sudah ditulis ke Layanan Log Sederhana. Data dibaca dan dikirimkan hanya setelah kondisi untuk interval batch terpenuhi.

    Batch Interval

    Interval untuk mengirimkan log dari sebuah shard. Pekerjaan mulai mengirimkan data ketika waktu yang berlalu sejak log pertama tiba lebih besar dari atau sama dengan nilai ini. Default: 300 detik. Rentang nilai: 300 detik hingga 900 detik.

    Shipping Latency

    Penundaan sebelum data dikirimkan. Misalnya, jika Anda menyetel ini ke 3600, data dikirimkan dengan penundaan 1 jam. Data dari 10:00:00 pada 5 Juni 2023 tidak ditulis ke bucket OSS yang ditentukan sebelum 11:00:00 pada 5 Juni 2023. Untuk informasi tentang batasan, lihat Batas item konfigurasi.

    Start Time Range

    Rentang waktu data yang akan dikirimkan. Rentang ini didasarkan pada waktu penerimaan log. Detailnya adalah sebagai berikut:

    • Semua: Pekerjaan mengirimkan data mulai dari waktu log pertama diterima oleh penyimpanan log hingga pekerjaan dihentikan secara manual.

    • Dari Waktu Tertentu: Pekerjaan mengirimkan data mulai dari waktu tertentu hingga pekerjaan dihentikan secara manual.

    • Rentang Waktu Tertentu: Pekerjaan berjalan dalam rentang waktu mulai dan akhir yang ditentukan dan berhenti secara otomatis setelah waktu berakhir.

    Catatan

    Rentang waktu ditentukan oleh bidang __tag__:__receive_time__. Untuk informasi lebih lanjut, lihat Bidang cadangan.

    Time Zone

    Zona waktu yang digunakan untuk memformat waktu.

    Jika Anda menyetel Time Zone dan Partition Format, sistem menghasilkan direktori di bucket OSS berdasarkan pengaturan Anda.

Lihat data OSS

Setelah data berhasil dikirimkan ke OSS, Anda dapat mengakses data tersebut menggunakan konsol OSS, API, SDK, atau metode lainnya. Untuk informasi lebih lanjut, lihat Kelola File.

Path objek OSS menggunakan format berikut:

oss://OSS-BUCKET/OSS-PREFIX/PARTITION-FORMAT_RANDOM-ID

Dalam format ini, OSS-BUCKET adalah nama bucket OSS, OSS-PREFIX adalah awalan direktori, PARTITION-FORMAT adalah format partisi yang dihitung dari waktu pengiriman menggunakan API strptime, dan RANDOM-ID adalah ID unik dari tugas pengiriman.

Catatan

Pengiriman data OSS dilakukan dalam batch. Setiap batch ditulis ke satu file. Path file ditentukan oleh receive_time (waktu data tiba di Layanan Log Sederhana) paling awal dalam batch tersebut. Perhatikan dua situasi berikut:

  • Saat mengirimkan data real-time (misalnya, setiap 5 menit), tugas pengiriman pada 00:00:00 pada 22 Januari 2022 mengirimkan data yang ditulis ke shard setelah 23:55:00 pada 21 Januari 2022. Oleh karena itu, untuk menganalisis semua data untuk 22 Januari 2022, Anda harus memeriksa semua objek di direktori 2022/01/22 di bucket OSS. Anda juga harus memeriksa apakah beberapa objek terakhir di direktori 2022/01/21 berisi data dari 22 Januari 2022.

  • Saat mengirimkan data historis, jika penyimpanan log berisi sejumlah kecil data, satu tugas pengiriman mungkin menarik data yang mencakup beberapa hari. Hal ini dapat menyebabkan file ditempatkan di direktori 2022/01/22 yang berisi semua data untuk 23 Januari 2022. Akibatnya, direktori 2022/01/23 mungkin kosong.

Format partisi

Setiap tugas pengiriman sesuai dengan path objek OSS dalam format oss://OSS-BUCKET/OSS-PREFIX/PARTITION-FORMAT_RANDOM-ID. Tabel berikut memberikan contoh format partisi untuk tugas pengiriman yang dibuat pada 19:50:43 pada 20 Januari 2022.

OSS Bucket

OSS Prefix

Format Partisi

Akhiran File

Path File OSS

test-bucket

test-table

%Y/%m/%d/%H/%M

.suffix

oss://test-bucket/test-table/2022/01/20/19/50_1484913043351525351_2850008.suffix

test-bucket

log_ship_oss_example

year=%Y/mon=%m/day=%d/log_%H%M

.suffix

oss://test-bucket/log_ship_oss_example/year=2022/mon=01/day=20/log_1950_1484913043351525351_2850008.suffix

test-bucket

log_ship_oss_example

ds=%Y%m%d/%H

.suffix

oss://test-bucket/log_ship_oss_example/ds=20220120/19_1484913043351525351_2850008.suffix

test-bucket

log_ship_oss_example

%Y%m%d/

.suffix

oss://test-bucket/log_ship_oss_example/20220120/_1484913043351525351_2850008.suffix

Catatan

Platform seperti Hive tidak dapat mengurai konten OSS yang sesuai dalam format ini. Jangan gunakan format ini.

test-bucket

log_ship_oss_example

%Y%m%d%H

.suffix

oss://test-bucket/log_ship_oss_example/2022012019_1484913043351525351_2850008.suffix

Saat Anda menggunakan platform data besar seperti Hive dan MaxCompute atau Alibaba Cloud Data Lake Analytics (DLA) untuk menganalisis data OSS, Anda dapat menggunakan informasi partisi dengan menyetel PARTITION-FORMAT dalam format key=value. Misalnya, di path oss://test-bucket/log_ship_oss_example/year=2022/mon=01/day=20/log_195043_1484913043351525351_2850008.parquet, kunci partisi disetel ke tiga level: year, mon, dan day.

Contoh SDK

export_oss_sink_demo.py