All Products
Search
Document Center

:Impor Data OSS

Last Updated:Mar 07, 2026

Anda dapat mengimpor file log dari bucket OSS ke Simple Log Service menggunakan fitur impor data untuk kueri, analisis, pemrosesan, dan operasi lainnya. Simple Log Service mendukung file hingga 5 GB; untuk file terkompresi, batas ini berlaku pada ukuran terkompresinya.

Penagihan

SLS tidak membebankan biaya untuk fitur impor data. Namun, karena fitur ini memanggil API OSS, biaya lalu lintas dan permintaan OSS akan dikenakan. Untuk detail harga item yang dapat ditagih terkait, lihat Harga OSS. Biaya harian OSS yang dihasilkan saat Anda mengimpor data dari OSS dihitung menggunakan rumus berikut:

image..png

Parameter penagihan

field

Deskripsi

N

Jumlah file yang diimpor per hari.

T

Menunjukkan total volume data yang diimpor per hari, dalam satuan GB.

p_read

Biaya lalu lintas per GB data.

  • Jika Anda mengimpor data dari OSS ke Simple Log Service dalam wilayah yang sama, lalu lintas outbound melalui jaringan internal akan dihasilkan. Lalu lintas ini gratis.

  • Jika Anda mengimpor data lintas wilayah, lalu lintas outbound melalui Internet akan dihasilkan.

p_put

Biaya per 10.000 permintaan PUT.

Simple Log Service menggunakan operasi ListObjects untuk mencantumkan objek dalam bucket. OSS mengenakan biaya ini sebagai permintaan PUT. Setiap panggilan mengembalikan hingga 1.000 entri. Jika Anda memiliki 1 juta objek baru, diperlukan 1.000 panggilan.

p_get

Biaya per 10.000 permintaan GET.

M

Interval pemeriksaan file baru. Satuan: menit.

Anda dapat mengatur parameter New File Check Cycle saat membuat konfigurasi impor data.

Prasyarat

  • File log telah diunggah ke bucket OSS. Untuk informasi selengkapnya, lihat Upload objects.

  • Proyek dan Logstore telah dibuat. Untuk informasi selengkapnya, lihat Manage projects dan Create a Logstore.

  • Anda telah menyelesaikan Cloud Resource Access Authorization. Ini memberikan izin kepada Simple Log Service untuk mengasumsikan role AliyunLogImportOSSRole guna mengakses resource OSS Anda.

  • Akun Anda memiliki izin oss:ListBuckets untuk mengakses bucket OSS. Untuk informasi selengkapnya, lihat Attach a custom policy to a RAM user.

    Jika Anda menggunakan RAM user, berikan izin PassRole kepada RAM user tersebut. Gunakan kebijakan berikut. Untuk informasi selengkapnya, lihat Create custom policies dan Grant permissions to a RAM user.

    {
      "Statement": [
        {
          "Effect": "Allow",
          "Action": ["ram:PassRole", "ram:GetRole"],
          "Resource": "acs:ram:*:*:role/aliyunlogimportossrole"
        },
        {
          "Effect": "Allow",
          "Action": "oss:GetBucketWebsite",
          "Resource": "*"
        },
        {
          "Effect": "Allow",
          "Action": "oss:ListBuckets",
          "Resource": "*"
        }
      ],
      "Version": "1"
    }    

Buat konfigurasi impor data

Penting

Jika objek OSS diperbarui setelah diimpor, tugas impor data akan mengimpor ulang seluruh data dari objek tersebut. Misalnya, jika data baru ditambahkan ke objek yang sudah diimpor, seluruh objek akan diimpor ulang.

  1. Masuk ke Konsol Simple Log Service.

  2. Di bagian Data Ingestion, klik tab Data Import. Lalu, klik OSS - Data Import.

  3. Pilih proyek dan Logstore tujuan, lalu klik Next.

  4. Konfigurasikan pengaturan impor.

    1. Pada langkah Import Configuration, konfigurasikan parameter berikut.

      Parameter

      Parameter

      Deskripsi

      Task name

      Nama unik tugas SLS.

      Display name

      Nama tampilan tugas.

      Task description

      Deskripsi tugas impor.

      OSS region

      Wilayah tempat bucket yang berisi file OSS yang akan diimpor berada.

      Menempatkan bucket OSS dan proyek Simple Log Service dalam wilayah yang sama menghemat lalu lintas Internet dan memberikan transfer data yang lebih cepat.

      Bucket

      Bucket yang berisi file OSS yang akan diimpor.

      Filter by file path prefix

      Memfilter file OSS berdasarkan awalan path file untuk menemukan file yang akan diimpor. Misalnya, jika semua file yang akan diimpor berada di folder csv/, tentukan awalan sebagai csv/.

      Jika parameter ini tidak diatur, seluruh bucket OSS akan ditraversed.

      Catatan

      Atur parameter ini. Jika bucket berisi banyak file, traversal penuh secara signifikan mengurangi efisiensi impor data.

      Filter by file path regular expression

      Memfilter file OSS berdasarkan ekspresi reguler untuk menemukan file yang akan diimpor. Hanya file yang namanya, termasuk path file, sesuai dengan ekspresi reguler yang akan diimpor. Nilai default kosong, artinya tidak ada filter yang diterapkan.

      Untuk file OSS bernama testdata/csv/bill.csv, atur ekspresi reguler menjadi (testdata/csv/)(.*).

      Untuk informasi selengkapnya tentang cara menguji ekspresi reguler, lihat How to test a regular expression.

      Filter by file modification time

      Memfilter file OSS berdasarkan waktu modifikasi untuk menemukan file yang akan diimpor.

      • All: Pilih opsi ini untuk mengimpor semua file yang sesuai.

      • From a specific time: Pilih opsi ini untuk mengimpor file yang dimodifikasi setelah titik waktu tertentu.

      • Specific time range: Pilih opsi ini untuk mengimpor file yang dimodifikasi dalam rentang waktu tertentu.

      Data format

      Format yang digunakan untuk mengurai file. Opsi-opsinya sebagai berikut.

      • CSV: File teks yang menggunakan pemisah. Baris pertama file dapat digunakan sebagai nama field, atau Anda dapat menentukan nama field secara manual. Setiap baris berikutnya diurai sebagai nilai untuk field log.

      • Single-line JSON: Membaca file OSS baris demi baris dan mengurai setiap baris sebagai objek JSON. Setelah diurai, setiap field dalam objek JSON sesuai dengan field log.

      • JSON array: Membaca seluruh file OSS sekaligus. Kontennya harus berupa array yang berisi satu atau lebih objek JSON.

      • CloudTrail: Membaca seluruh file OSS sekaligus. Kontennya harus dalam format struktur data CloudTrail standar.

      • Single-line text log: Mengurai setiap baris dalam file OSS sebagai satu entri log.

      • Multi-line text log: Pola multi-baris yang mendukung penggunaan ekspresi reguler untuk mengurai log berdasarkan baris pertama atau terakhir.

      • ORC: Format file ORC. Tidak diperlukan konfigurasi. File secara otomatis diurai ke dalam format log.

      • Parquet: Format Parquet. Tidak diperlukan konfigurasi. File secara otomatis diurai ke dalam format log.

      • Alibaba Cloud OSS access log: Format untuk log akses Alibaba Cloud OSS. Untuk informasi selengkapnya, lihat Log storage.

      • Alibaba Cloud CDN download log: Format untuk log unduhan Alibaba Cloud CDN. Untuk informasi selengkapnya, lihat Quick Start.

      Compression format

      Format kompresi file OSS yang akan diimpor. Simple Log Service mendekompresi dan membaca data berdasarkan format yang ditentukan.

      Encoding format

      Format encoding file OSS yang akan diimpor. Saat ini, hanya UTF-8 dan GBK yang didukung.

      Check for new files period

      Jika file baru terus-menerus dihasilkan di path file OSS target, atur Check for new files period sesuai kebutuhan. Setelah periode diatur, tugas impor berjalan terus-menerus di latar belakang untuk secara otomatis menemukan dan membaca file baru. Sistem memastikan bahwa data dari file OSS yang sama tidak ditulis ke Simple Log Service lebih dari sekali. Misalnya, jika tugas dibuat pada pukul 12:00 dengan periode pemeriksaan 30 menit, tugas impor pertama kali berjalan pada pukul 12:00. Jika file baru dihasilkan kemudian, tugas berjalan lagi pada pukul 12:30.

      Jika tidak ada lagi file baru yang dihasilkan di path file OSS target, ubah pengaturan menjadi Never check. Tugas impor secara otomatis keluar setelah membaca semua file yang sesuai.

      Import archived objects

      Jika file OSS yang akan diimpor termasuk dalam kelas penyimpanan Archive Storage atau Cold Archive, file tersebut harus dipulihkan terlebih dahulu sebelum dapat dibaca. Jika Anda mengaktifkan fitur ini, objek arsip akan dipulihkan secara otomatis. Deep Cold Archive tidak didukung.

      Catatan
      • Memulihkan objek arsip standar membutuhkan waktu sekitar 1 menit dan dapat menyebabkan timeout pada pratinjau pertama. Jika terjadi timeout, tunggu beberapa saat lalu coba lagi.

      • Memulihkan objek Cold Archive membutuhkan waktu sekitar 1 jam. Jika pratinjau timeout, lewati pratinjau atau tunggu 1 jam sebelum mencoba pratinjau lagi.

        Saat objek Cold Archive dipulihkan, periode validitas pemulihan 7 hari digunakan secara default untuk memastikan tersedia cukup waktu untuk mengimpor objek tersebut.

      Log time configuration

      Time field

      Jika Anda mengatur Data format ke CSV, Single-line JSON, JSON array, CloudTrail, ORC, Parquet, Alibaba Cloud OSS access log, atau Alibaba Cloud CDN download log, atur field waktu. Field ini adalah nama kolom dalam file OSS yang merepresentasikan waktu dan digunakan untuk menentukan waktu saat log diimpor ke Simple Log Service.

      Extract time with regular expression

      Jika Anda mengatur Data format ke Single-line text log atau Multi-line text log, gunakan ekspresi reguler untuk mengekstrak waktu dari log.

      Untuk entri log seperti 127.0.0.1 - - [10/Sep/2018:12:36:49 +0800] "GET /index.html HTTP/1.1", atur Extract time with regular expression ke [0-9]{0,2}\/[0-9a-zA-Z]+\/[0-9\: +]+.

      Catatan

      Untuk format data lain, gunakan ekspresi reguler hanya untuk mengekstrak sebagian dari field waktu.

      Time field format

      Menentukan format waktu yang digunakan untuk mengurai nilai field waktu.

      • Format waktu yang mengikuti sintaks Java SimpleDateFormat didukung, seperti yyyy-MM-dd HH:mm:ss. Untuk informasi selengkapnya tentang sintaks tersebut, lihat Class SimpleDateFormat. Untuk format waktu umum, lihat Time formats.

      • Format epoch juga didukung, termasuk epoch, epochMillis, epochMicro, dan epochNano.

      Time field time zone

      Pilih zona waktu untuk field waktu. Zona waktu tidak diperlukan jika field waktu menggunakan format epoch.

      Jika waktu daylight saving (DST) perlu dipertimbangkan saat waktu log diurai, pilih format UTC. Jika tidak, pilih format GMT.

      Advanced configuration

      Use OSS metadata index

      Jika jumlah file OSS melebihi satu juta, aktifkan fitur ini. Jika tidak, efisiensi penemuan file baru rendah. Setelah Anda mengaktifkan indeks metadata OSS, file baru dalam bucket OSS ditemukan dalam hitungan detik. Hal ini memungkinkan impor data hampir real-time dari file yang baru ditulis.

      Sebelum menggunakan indeks metadata OSS, aktifkan fitur manajemen indeks metadata OSS di Konsol OSS. Untuk informasi selengkapnya, lihat Scalar retrieval.

      Jika Anda memilih Data Format sebagai CSV atau Multi-line Text Logs, konfigurasikan parameter tambahan seperti dijelaskan berikut.

      CSV

      Parameter

      Deskripsi

      Delimiter

      Pemisah untuk log. Default: koma (,).

      Quote

      Karakter quote yang digunakan dalam string CSV.

      Escape Character

      Karakter escape untuk log. Default: backslash (\).

      Maximum Lines

      Jumlah maksimum baris yang diizinkan untuk log yang mencakup beberapa baris. Default: 1.

      First Line as Field Name

      Aktifkan First Line as Field Name untuk menggunakan baris pertama dalam file CSV sebagai nama field. Misalnya, baris pertama pada gambar di bawah menjadi nama field.首行

      Custom Fields

      Jika Anda menonaktifkan First Line as Field Name, definisikan nama field kustom. Pisahkan nama dengan koma (,).

      Lines to Skip

      Jumlah baris yang dilewati. Misalnya, jika Anda mengatur ini ke 1, pengumpulan dimulai dari baris kedua file CSV.

      Cross-text log

      Parameter

      Deskripsi

      Position to Match Regular Expression

      Atur posisi untuk pencocokan ekspresi reguler. Posisi-posisinya dijelaskan sebagai berikut:

      • First-line Regular Expression: Gunakan ekspresi reguler untuk mencocokkan baris pertama entri log. Baris yang tidak cocok dianggap sebagai bagian dari entri log yang sama hingga jumlah maksimum baris tercapai.

      • End Line Regular Expression: Gunakan ekspresi reguler untuk mencocokkan akhir entri log. Baris yang tidak cocok dengan ekspresi reguler digabungkan dengan baris berikutnya hingga jumlah maksimum baris tercapai.

      Regular Expression

      Atur ekspresi reguler yang benar berdasarkan konten log.

      Untuk informasi selengkapnya tentang debugging ekspresi reguler, lihat How do I debug a regular expression?.

      Maximum Lines

      Jumlah maksimum baris yang diizinkan untuk log.

    2. Klik Preview untuk melihat pratinjau hasil impor.

    3. Setelah Anda mengonfirmasi hasilnya, klik Next.

  5. Buat indeks dan pratinjau data. Lalu, klik Next. Secara default, indeks teks penuh diaktifkan di Simple Log Service. Anda juga dapat membuat indeks bidang secara manual untuk log yang dikumpulkan atau klik Automatic Index Generation. Dengan demikian, Simple Log Service akan menghasilkan indeks bidang. Untuk informasi selengkapnya, lihat Create indexes.

    Penting

    Jika Anda ingin mengkueri semua field dalam log, kami sarankan menggunakan indeks teks penuh. Jika Anda hanya ingin mengkueri field tertentu, kami sarankan menggunakan indeks bidang untuk mengurangi trafik indeks. Jika Anda ingin menganalisis field, Anda harus membuat indeks bidang dan menyertakan pernyataan SELECT dalam kueri Anda.

  6. Klik Query Log. Di halaman kueri dan analisis, verifikasi bahwa data OSS telah diimpor.

    Tunggu sekitar 1 menit. Jika data OSS yang diharapkan muncul, impor berhasil.

Operasi terkait

Setelah membuat konfigurasi impor data, Anda dapat melihat konfigurasi dan laporan statistiknya di konsol.

  1. Di bagian Projects, klik proyek tersebut.

  2. Di tab Log Storage > Logstores, buka Data Collection > Data Import. Lalu klik nama konfigurasi.

  3. View Task

    Di halaman Import Configuration Overview, Anda dapat melihat informasi dasar dan laporan statistik.

    导入任务概览

    Modify Job

    Untuk memodifikasi konfigurasi, klik Edit Configurations. Untuk informasi selengkapnya, lihat Create a data import configuration.

    Delete a Job

    Untuk menghapus konfigurasi, klik Delete Configuration.

    Peringatan

    Konfigurasi tidak dapat dipulihkan setelah dihapus. Lakukan dengan hati-hati.

    Stop a Job

    Untuk menghentikan tugas, klik Stop.

    Start the data import job

    Untuk memulai tugas, klik Start.

FAQ

Masalah

Kemungkinan penyebab

Solusi

Pratinjau data tidak tersedia untuk file yang diimpor dari direktori Hadoop Distributed File System (HDFS) bucket.

Mengimpor file dari direktori HDFS tidak didukung.

Aktifkan fitur OSS-HDFS untuk bucket tersebut. Secara default, direktori .dlsdata dibuat di direktori OSS. Anda dapat mengimpor file dari direktori .dlsdata.

Tidak ada data yang ditampilkan selama pratinjau.

Bucket OSS tidak berisi objek, objek tidak berisi data, atau tidak ada objek yang memenuhi kondisi filter.

  • Periksa apakah bucket OSS berisi objek yang tidak kosong. Misalnya, pastikan file CSV Anda tidak hanya berisi baris header. Jika tidak ada objek yang berisi data, tunggu hingga data tersedia sebelum mengimpor objek tersebut.

  • Sesuaikan File Path Prefix Filter, File Path Regex Filter, dan File Modification Time Filter.

Terdapat karakter acak (garbled).

Format data, format kompresi, atau format encoding salah konfigurasi.

Verifikasi format aktual objek OSS. Lalu sesuaikan Data Format, Compression Format, atau Encoding Format.

Untuk memperbaiki data garbled yang sudah ada, Anda harus membuat Logstore baru dan konfigurasi impor baru.

Waktu log yang ditampilkan di Simple Log Service berbeda dari waktu log sebenarnya.

Tidak ada field waktu yang ditentukan dalam konfigurasi impor, atau format waktu atau zona waktunya tidak valid.

Tentukan field waktu serta format waktu dan zona waktu yang valid. Untuk informasi selengkapnya, lihat Create a data import configuration.

Data tidak dapat dikueri atau dianalisis setelah diimpor.

  • Data berada di luar rentang waktu kueri.

  • Tidak ada indeks yang dikonfigurasi.

  • Indeks yang dikonfigurasi belum aktif.

  • Periksa apakah waktu log yang ingin Anda kueri berada dalam rentang waktu kueri yang ditentukan.

    Jika tidak, sesuaikan rentang waktu kueri dan jalankan kueri lagi.

  • Periksa apakah indeks telah dikonfigurasi untuk Logstore tersebut.

    Jika belum, konfigurasikan indeks. Untuk informasi selengkapnya, lihat Create indexes dan Reindex logs for a Logstore.

  • Jika indeks telah dikonfigurasi dan Dasbor Data Processing Insight menunjukkan volume data yang diimpor sesuai ekspektasi, kemungkinan indeks belum aktif. Anda dapat mencoba melakukan pengindeksan ulang. Untuk informasi selengkapnya, lihat Reindex logs for a Logstore.

Jumlah entri data yang diimpor lebih sedikit dari yang diharapkan.

Beberapa file berisi baris yang lebih besar dari 3 MB. Baris-baris ini dibuang selama proses impor. Untuk informasi selengkapnya, lihat Collection limits.

Saat menulis data ke objek OSS, pastikan tidak ada baris yang melebihi 3 MB.

Kecepatan impor lebih lambat dari yang diharapkan (biasanya hingga 80 MB/detik) meskipun jumlah file dan volume data total besar.

Logstore memiliki terlalu sedikit shard. Untuk informasi selengkapnya, lihat Performance limits.

Jika Logstore hanya memiliki beberapa shard, Anda dapat menambah jumlah shard menjadi 10 atau lebih lalu memantau latensi. Untuk informasi selengkapnya, lihat Manage shards.

Anda tidak dapat memilih bucket OSS saat membuat konfigurasi impor data.

Otorisasi untuk role AliyunLogImportOSSRole tidak lengkap.

Lengkapi otorisasi seperti yang dijelaskan di bagian Prasyarat.

Beberapa file tidak diimpor.

Kondisi filter salah konfigurasi, atau beberapa file melebihi 5 GB. Untuk informasi selengkapnya, lihat Collection limits.

  • Periksa apakah file yang ingin Anda impor memenuhi kondisi filter. Jika tidak, sesuaikan kondisi filter tersebut.

  • Pastikan setiap file yang ingin Anda impor berukuran kurang dari 5 GB.

    Jika file melebihi 5 GB, Anda harus mengurangi ukurannya.

Objek arsip tidak diimpor.

Sakelar Import Archive Files dimatikan. Untuk informasi selengkapnya, lihat Collection limits.

  • Metode 1: Modifikasi konfigurasi impor dan aktifkan Import Archive Files.

  • Metode 2: Buat konfigurasi impor baru dan aktifkan Import Archive Files.

Terjadi error saat mengurai log teks multi-baris.

Ekspresi reguler untuk mencocokkan baris pertama atau terakhir tidak valid.

Verifikasi bahwa ekspresi reguler yang digunakan untuk mencocokkan baris pertama atau terakhir sudah benar.

File baru memerlukan waktu lebih lama dari yang diharapkan untuk diimpor.

Terlalu banyak file yang sesuai dengan kondisi filter awalan path file, dan OSS Metadata Indexing dinonaktifkan dalam konfigurasi impor.

Jika lebih dari satu juta file sesuai dengan kondisi filter awalan path file, aktifkan OSS Metadata Indexing dalam konfigurasi impor. Jika tidak, penemuan file baru tidak efisien.

Terjadi error izin terkait STS saat membuat konfigurasi.

RAM user tidak memiliki izin yang diperlukan.

  1. Periksa apakah Pasangan Kunci Akses RAM user valid. Verifikasi bahwa Pasangan Kunci Akses tersebut benar dan diaktifkan. Untuk informasi selengkapnya, lihat AccessKey pair.

  2. Periksa apakah token Layanan Keamanan (STS) RAM user telah kedaluwarsa. Jika token telah kedaluwarsa, perpanjang periode validitasnya. Untuk informasi selengkapnya, lihat Use temporary credentials provided by STS to access OSS.

  3. Verifikasi bahwa Anda telah menyelesaikan Cloud Resource Access Authorization. Ini memberikan izin kepada Simple Log Service untuk mengasumsikan role AliyunLogImportOSSRole guna mengakses resource OSS Anda.

Penanganan error

Error

Deskripsi

File read failure

Jika file gagal dibaca sepenuhnya karena pengecualian jaringan atau kerusakan, tugas impor akan mencoba ulang secara otomatis. Jika gagal setelah tiga kali percobaan, file tersebut dilewati.

Interval percobaan ulang sesuai dengan New File Check Cycle. Jika New File Check Cycle diatur ke Never Check, interval percobaan ulang adalah 5 menit.

Compression format parsing error

Jika file memiliki format kompresi yang tidak valid, tugas impor akan melewatkannya selama dekompresi.

Data format parsing error

  • Jika penguraian file format biner (seperti ORC atau Parquet) gagal, tugas impor akan melewatkan file tersebut.

  • Jika penguraian format lain gagal, tugas impor akan menyimpan teks asli dalam field content log.

Bucket OSS yang ditentukan tidak ada.

Tugas impor mencoba ulang secara berkala. Setelah bucket dibuat ulang, tugas akan dilanjutkan secara otomatis.

Permission error

Jika terjadi error izin saat membaca dari bucket OSS atau menulis ke Logstore Simple Log Service, tugas impor akan mencoba ulang secara berkala. Setelah error diperbaiki, tugas akan dilanjutkan secara otomatis.

Jika terjadi error izin, tugas tidak melewatkan file apa pun. Setelah error diperbaiki, tugas akan mengimpor data dari file yang belum diproses di bucket ke Logstore.

Operasi API OSS untuk impor data

Action

API

Create an OSS data import job

CreateOSSIngestion

Modify an OSS data import job

UpdateOSSIngestion

Query an OSS data import job

GetOSSIngestion

Delete an OSS data import job

DeleteOSSIngestion

Start an OSS data import job

StartOSSIngestion

Stop an OSS data import job

StopOSSIngestion