全部产品
Search
文档中心

:Impor data OSS

更新时间:Jan 29, 2026

Anda dapat mengimpor file log dari bucket OSS ke Simple Log Service untuk kueri, analisis, dan pemrosesan. Simple Log Service mendukung pengimporan file OSS hingga ukuran 5 GB. Ukuran file terkompresi mengacu pada ukuran setelah dikompresi.

Deskripsi penagihan

Simple Log Service tidak membebankan biaya untuk fitur impor data. Namun, fitur ini mengakses API OSS sehingga menimbulkan biaya trafik dan permintaan OSS. Untuk informasi lebih lanjut mengenai harga item yang dapat ditagih, lihat Harga OSS. Rumus untuk menghitung biaya harian OSS saat mengimpor data OSS adalah sebagai berikut:

image..png

Deskripsi parameter biaya

Field

Deskripsi

N

Jumlah file yang diimpor per hari.

T

Total volume data yang diimpor per hari, dalam GB.

p_read

Biaya trafik per GB data.

  • Saat Anda mengimpor data dalam wilayah yang sama, trafik outbound melalui jaringan internal dihasilkan dari OSS. Trafik ini tidak dikenai biaya.

  • Saat Anda mengimpor data lintas wilayah, trafik outbound melalui Internet dihasilkan dari OSS.

p_put

Biaya per 10.000 permintaan PUT.

Simple Log Service menggunakan operasi API ListObjects untuk mendapatkan daftar file di bucket tujuan. OSS menagih operasi ini sebagai permintaan PUT. Operasi ini mengembalikan maksimal 1.000 entri data sekaligus. Oleh karena itu, jika Anda memiliki 1.000.000 file baru, Anda perlu melakukan 1.000.000 / 1.000 = 1.000 permintaan.

p_get

Biaya per 10.000 permintaan GET.

M

Interval pemeriksaan file baru, dalam menit.

Anda dapat mengatur parameter Check for New Files Interval saat membuat konfigurasi impor data.

Prasyarat

  • File log telah diunggah ke bucket OSS. Untuk informasi selengkapnya, lihat Unggah file di konsol.

  • Proyek dan Logstore telah dibuat. Untuk informasi selengkapnya, lihat Kelola proyek dan Buat Logstore dasar.

  • Anda telah menyelesaikan otorisasi akses sumber daya cloud. Otorisasi ini memungkinkan Simple Log Service mengakses sumber daya OSS Anda menggunakan role AliyunLogImportOSSRole.

  • Akun Anda memiliki izin oss:ListBuckets untuk mengakses bucket OSS. Untuk informasi selengkapnya, lihat Berikan kebijakan kustom kepada pengguna RAM.

    Jika Anda menggunakan pengguna Resource Access Management (RAM), Anda juga harus memberikan izin PassRole kepada pengguna RAM tersebut. Berikut adalah contoh kebijakan otorisasi. Untuk informasi selengkapnya, lihat Buat kebijakan kustom dan Kelola izin pengguna RAM.

    {
      "Statement": [
        {
          "Effect": "Allow",
          "Action": "ram:PassRole",
          "Resource": "acs:ram:*:*:role/aliyunlogimportossrole"
        },
        {
          "Effect": "Allow",
          "Action": "oss:GetBucketWebsite",
          "Resource": "*"
        },
        {
          "Effect": "Allow",
          "Action": "oss:ListBuckets",
          "Resource": "*"
        }
      ],
      "Version": "1"
    }    

Buat konfigurasi impor data

Penting

Jika file OSS yang sudah diimpor diperbarui—misalnya dengan menambahkan konten baru—tugas impor data akan mengimpor ulang seluruh file tersebut.

  1. Masuk ke konsol Simple Log Service.

  2. Di area Data Ingestion, pada tab Data Import, pilih OSS-Data Import.

  3. Pilih proyek dan Logstore tujuan, lalu klik Next.

  4. Atur konfigurasi impor.

    1. Pada langkah Import Configuration, atur parameter berikut.

      Pengaturan parameter

      Parameter

      Deskripsi

      Task Name

      Nama unik tugas SLS.

      Display Name

      Nama tampilan tugas.

      Task Description

      Deskripsi tugas impor.

      OSS Region

      Wilayah tempat bucket yang menyimpan file OSS yang akan diimpor berada.

      Jika bucket OSS dan proyek Simple Log Service berada dalam wilayah yang sama, Anda dapat menghemat trafik Internet dan mendapatkan transfer data yang lebih cepat.

      Bucket

      Bucket yang menyimpan file OSS yang akan diimpor.

      Filter by File Path Prefix

      Filter file OSS berdasarkan awalan path file untuk menemukan file yang akan diimpor. Misalnya, jika semua file yang akan diimpor berada di direktori csv/, Anda dapat menentukan awalan sebagai csv/.

      Jika Anda tidak mengatur parameter ini, seluruh bucket OSS akan ditraversed.

      Catatan

      Atur parameter ini. Jika bucket berisi banyak file, traversing seluruh bucket secara signifikan mengurangi efisiensi impor data.

      Filter by File Path Regular Expression

      Filter file OSS berdasarkan ekspresi reguler untuk path file guna menemukan file yang akan diimpor. Hanya file yang namanya (termasuk path file) sesuai dengan ekspresi reguler yang akan diimpor. Secara default, parameter ini kosong, artinya tidak ada penyaringan.

      Misalnya, jika file OSS adalah testdata/csv/bill.csv, Anda dapat mengatur ekspresi reguler menjadi (testdata/csv/)(.*).

      Untuk informasi selengkapnya tentang cara men-debug ekspresi reguler, lihat Bagaimana cara menguji ekspresi reguler?.

      Filter by File Modification Time

      Filter file OSS berdasarkan waktu modifikasi file untuk menemukan file yang akan diimpor.

      • All: Pilih opsi ini jika Anda ingin mengimpor semua file yang memenuhi syarat.

      • From a Specific Time: Pilih opsi ini jika Anda ingin mengimpor file yang dimodifikasi setelah titik waktu tertentu.

      • Specific Time Range: Pilih opsi ini jika Anda ingin mengimpor file yang dimodifikasi dalam rentang waktu tertentu.

      Data Format

      File diurai dalam format berikut.

      • CSV: File teks yang menggunakan pemisah. Anda dapat menentukan baris pertama file sebagai nama field atau menentukan nama field secara manual. Setiap baris kecuali nama field diurai sebagai nilai field log.

      • Single-line JSON: Membaca file OSS baris per baris dan mengurai setiap baris sebagai objek JSON. Setelah diurai, field dalam objek JSON sesuai dengan field dalam log.

      • JSON array: Membaca seluruh file OSS sekaligus. Isinya adalah array yang berisi satu atau beberapa objek JSON.

      • Cloudtrail: Membaca seluruh file OSS sekaligus. Isinya dalam format struktur data standar CloudTrail.

      • Single-line Text Log: Mengurai setiap baris dalam file OSS sebagai entri log.

      • Multi-line Text Log: Mode multi-baris. Anda dapat menentukan ekspresi reguler untuk baris pertama atau terakhir guna mengurai log.

      • ORC: Format file ORC. Tidak diperlukan konfigurasi. File secara otomatis diurai ke dalam format log.

      • Parquet: Format Parquet. Tidak diperlukan konfigurasi. File secara otomatis diurai ke dalam format log.

      • Alibaba Cloud OSS Access Log: Format log akses Alibaba Cloud OSS. Untuk informasi selengkapnya, lihat Penyimpanan log.

      • Alibaba Cloud CDN Download Log: Format log unduhan Alibaba Cloud CDN. Untuk informasi selengkapnya, lihat Quick Start.

      Compression Format

      Format kompresi file OSS yang akan diimpor. Simple Log Service mendekompresi dan membaca data berdasarkan format yang sesuai.

      Encoding Format

      Format encoding file OSS yang akan diimpor. Hanya UTF-8 dan GBK yang didukung.

      Check for New Files Interval

      Jika file baru terus dihasilkan di path file OSS tujuan, Anda dapat mengatur Check for New Files Interval sesuai kebutuhan. Setelah interval diatur, tugas impor berjalan di latar belakang dan secara berkala menemukan serta membaca file baru. Proses latar belakang memastikan bahwa data dari file OSS yang sama tidak ditulis berulang ke Simple Log Service. Misalnya, jika Anda membuat tugas pada pukul 12:00 dengan interval pemeriksaan file baru 30 menit, tugas impor berjalan pertama kali pada pukul 12:00. Jika file baru dihasilkan kemudian, tugas berjalan untuk kedua kalinya pada pukul 12:30.

      Jika tidak ada file baru yang dihasilkan di path file OSS tujuan, ubah interval menjadi Never. Tugas impor akan keluar secara otomatis setelah membaca semua file yang memenuhi syarat.

      Import Archived Objects

      Jika file OSS yang akan diimpor berada dalam kelas penyimpanan Archive Storage standar atau Cold Archive, file tersebut harus dipulihkan terlebih dahulu sebelum dapat dibaca. Jika Anda mengaktifkan fitur ini, objek arsip akan dipulihkan secara otomatis. Deep Cold Archive tidak didukung.

      Catatan
      • Memulihkan objek arsip standar memerlukan waktu sekitar 1 menit. Hal ini dapat menyebabkan pratinjau pertama mengalami timeout. Jika terjadi timeout, tunggu beberapa saat lalu coba lagi.

      • Memulihkan objek Cold Archive memerlukan waktu sekitar 1 jam. Jika pratinjau mengalami timeout, Anda dapat melewati pratinjau atau menunggu 1 jam lalu mencoba lagi.

        Saat objek Cold Archive dipulihkan, pemulihan berlaku selama 7 hari secara default untuk memastikan Anda memiliki cukup waktu mengimpor objek Cold Archive tersebut.

      Log Time Configuration

      Time Field

      Saat Anda mengatur Data Format ke CSV, Single-line JSON, JSON array, Cloudtrail, ORC, Parquet, Alibaba Cloud OSS Access Log, atau Alibaba Cloud CDN Download Log, atur field waktu. Ini adalah nama kolom dalam file OSS yang merepresentasikan waktu, digunakan untuk menentukan waktu saat log diimpor ke Simple Log Service.

      Time Extraction Regex

      Saat Anda mengatur Data Format ke Single-line Text Log atau Multi-line Text Log, Anda perlu menggunakan ekspresi reguler untuk mengekstraksi waktu dari log.

      Misalnya, jika contoh log adalah 127.0.0.1 - - [10/Sep/2018:12:36:49 +0800] "GET /index.html HTTP/1.1", Anda dapat mengatur Time Extraction Regex menjadi [0-9]{0,2}\/[0-9a-zA-Z]+\/[0-9\: +]+.

      Catatan

      Untuk format data lain, Anda juga dapat menggunakan ekspresi reguler untuk mengekstraksi hanya bagian tertentu dari field waktu.

      Time Field Format

      Tentukan format waktu untuk mengurai nilai field waktu.

      • Format waktu yang mengikuti sintaks Java SimpleDateFormat didukung, seperti yyyy-MM-dd HH:mm:ss. Untuk informasi selengkapnya tentang sintaks format waktu, lihat Class SimpleDateFormat. Untuk format waktu umum, lihat Format waktu.

      • Format epoch didukung, termasuk epoch, epochMillis, epochMicro, dan epochNano.

      Time Field Time Zone

      Pilih zona waktu yang sesuai dengan field waktu. Saat format field waktu bertipe epoch, Anda tidak perlu mengatur zona waktu.

      Untuk mempertimbangkan waktu daylight saving saat mengurai waktu log, pilih format UTC. Jika tidak, pilih format GMT.

      Advanced Configuration

      Use OSS Metadata Index

      Jika jumlah file OSS melebihi satu juta, aktifkan fitur ini. Jika tidak, efisiensi penemuan file baru akan sangat rendah. Setelah Anda menggunakan indeks metadata OSS, file baru di bucket OSS dapat ditemukan dalam hitungan detik, memungkinkan impor data hampir real-time dari file yang baru ditulis di bucket.

      Sebelum menggunakan indeks metadata OSS, Anda harus terlebih dahulu mengaktifkan fitur manajemen indeks metadata OSS di OSS. Untuk informasi selengkapnya, lihat Scalar retrieval.

      Anda harus mengatur parameter tambahan saat mengatur Data Format ke CSV atau Multi-line Text Log. Tabel berikut menjelaskan parameter tersebut.

      CSV

      Parameter

      Deskripsi

      Separator

      Atur pemisah untuk log. Nilai default adalah koma (,).

      Quote Character

      Karakter kutip yang digunakan untuk string CSV.

      Escape Character

      Konfigurasikan karakter escape untuk log. Nilai default adalah backslash (\).

      Maximum Lines per Log

      Saat entri log mencakup beberapa baris, Anda perlu menentukan jumlah maksimum baris. Nilai default adalah 1.

      Use First Line as Field Names

      Setelah Anda mengaktifkan sakelar Use First Line as Field Names, baris pertama file CSV digunakan sebagai nama field. Misalnya, baris pertama pada gambar berikut diekstraksi sebagai nama field log.首行

      Custom Field List

      Setelah Anda menonaktifkan sakelar Use First Line as Field Names, sesuaikan nama field log sesuai kebutuhan. Pisahkan beberapa nama field dengan koma (,).

      Lines to Skip

      Tentukan jumlah baris log yang dilewati. Misalnya, jika Anda mengatur nilai ini menjadi 1, pengumpulan log dimulai dari baris kedua file CSV.

      Cross-text logs

      Parameter

      Deskripsi

      Regex Match Position

      Atur posisi pencocokan ekspresi reguler. Opsi berikut tersedia:

      • First Line Regex: Gunakan ekspresi reguler untuk mencocokkan baris pertama entri log. Bagian yang tidak cocok dianggap sebagai bagian dari entri log tersebut, hingga jumlah maksimum baris.

      • Last Line Regex: Gunakan ekspresi reguler untuk mencocokkan baris terakhir entri log. Bagian yang tidak cocok dianggap sebagai bagian dari entri log berikutnya, hingga jumlah maksimum baris.

      Regular Expression

      Atur ekspresi reguler yang benar berdasarkan isi log.

      Untuk informasi selengkapnya tentang cara men-debug ekspresi reguler, lihat Bagaimana cara menguji ekspresi reguler?.

      Maximum Lines

      Jumlah maksimum baris untuk satu entri log.

    2. Klik Preview untuk melihat hasil impor.

    3. Setelah mengonfirmasi pengaturan, klik Next.

  5. Buat indeks dan pratinjau data. Lalu, klik Next. Secara default, indeks teks penuh diaktifkan di Simple Log Service. Anda juga dapat membuat indeks bidang secara manual untuk log yang dikumpulkan atau klik Automatic Index Generation. Kemudian, Simple Log Service akan menghasilkan indeks bidang. Untuk informasi selengkapnya, lihat Buat indeks.

    Penting

    Jika Anda ingin mengkueri semua field dalam log, kami menyarankan menggunakan indeks teks penuh. Jika Anda hanya ingin mengkueri field tertentu, kami menyarankan menggunakan indeks bidang. Hal ini membantu mengurangi trafik indeks. Jika Anda ingin menganalisis field, Anda harus membuat indeks bidang. Anda harus menyertakan pernyataan SELECT dalam pernyataan kueri Anda untuk analisis.

  6. Klik Query Logs untuk membuka halaman kueri dan analisis serta mengonfirmasi bahwa data OSS berhasil diimpor.

    Tunggu sekitar 1 menit. Impor berhasil jika data tersedia di lokasi OSS tujuan.

Operasi terkait

Setelah membuat konfigurasi impor, Anda dapat melihat konfigurasi dan laporan statistiknya di konsol.

  1. Di bagian Projects, klik proyek tujuan.

  2. Di panel navigasi, pilih Log Storage > Logstores. Untuk Logstore tujuan, pilih Data Access > Data Import, lalu klik nama konfigurasi.

  3. Lihat tugas

    Di halaman Import Configuration Overview, Anda dapat melihat informasi dasar dan laporan statistik.

    导入任务概览

    Ubah tugas

    Klik Modify Configuration untuk mengubah konfigurasi impor. Untuk informasi selengkapnya, lihat Atur konfigurasi impor.

    Hapus tugas

    Untuk menghapus konfigurasi impor, klik Delete Configuration.

    Peringatan

    Operasi ini tidak dapat dibatalkan. Lakukan dengan hati-hati.

    Hentikan tugas

    Untuk menghentikan tugas impor, klik Stop.

    Jalankan tugas

    Klik Start untuk memulai tugas impor.

FAQ

Masalah

Kemungkinan penyebab

Solusi

Tidak ada data yang ditampilkan dalam pratinjau saat saya mengimpor file dari direktori HDFS bucket.

Mengimpor file dari direktori HDFS tidak didukung.

Jika layanan HDFS diaktifkan untuk bucket, direktori .dlsdata dibuat secara default di direktori OSS yang dapat Anda gunakan untuk mengimpor file.

Tidak ada data yang ditampilkan dalam pratinjau.

Tidak ada file di bucket OSS, file tidak berisi data, atau tidak ada file yang sesuai dengan kondisi filter.

  • Periksa apakah ada file non-kosong di bucket. Misalnya, file CSV mungkin hanya berisi baris header. Jika tidak ada file berisi data, tunggu hingga data tersedia sebelum mengimpor file.

  • Anda dapat menyesuaikan item konfigurasi seperti Filter by File Path Prefix, Filter by File Path Regular Expression, dan Filter by File Modification Time.

Data berisi teks acak (garbled).

Format data, format kompresi, atau format encoding tidak dikonfigurasi dengan benar.

Periksa format aktual file OSS dan sesuaikan item konfigurasi terkait, seperti Data Format, Compression Format, atau Encoding Format.

Untuk memperbaiki data garbled yang sudah ada, Anda harus membuat Logstore baru dan konfigurasi impor baru.

Waktu data yang ditampilkan di Simple Log Service tidak sesuai dengan waktu aktual data.

Field waktu log tidak ditentukan, atau format waktu atau zona waktu diatur salah dalam konfigurasi impor.

Tentukan field waktu log dan atur format waktu serta zona waktu yang benar. Untuk informasi selengkapnya, lihat Buat konfigurasi impor data.

Setelah mengimpor data, saya tidak dapat mengkueri dan menganalisis data.

  • Data berada di luar rentang kueri.

  • Indeks tidak dikonfigurasi.

  • Indeks belum berlaku.

  • Periksa apakah data yang ingin Anda kueri berada dalam rentang waktu yang ditentukan.

    Jika tidak, sesuaikan rentang waktu lalu coba kueri lagi.

  • Periksa apakah indeks dikonfigurasi untuk Logstore.

    Jika tidak, Anda harus mengonfigurasi indeks. Untuk informasi selengkapnya, lihat Buat indeks dan Reindex.

  • Jika indeks telah diatur dan volume data yang berhasil diimpor di dasbor Data Processing Traffic Monitor sesuai ekspektasi, indeks mungkin belum berlaku. Anda dapat mencoba reindex. Untuk informasi selengkapnya, lihat Reindex.

Jumlah entri data yang diimpor lebih sedikit dari yang diharapkan.

Beberapa file berisi satu baris data yang melebihi 3 MB. Data ini dibuang selama proses impor. Untuk informasi selengkapnya, lihat Batas pengumpulan.

Saat menulis data ke file OSS, pastikan tidak ada satu baris data yang melebihi 3 MB.

Kecepatan impor data lebih lambat dari kecepatan yang diharapkan 80 MB/detik, meskipun jumlah file dan total volume data besar.

Jumlah shard Logstore terlalu sedikit. Untuk informasi selengkapnya, lihat Batas kinerja.

Jika jumlah shard Logstore kecil, tingkatkan jumlah shard menjadi 10 atau lebih dan pantau latensi. Untuk informasi selengkapnya, lihat Kelola shard.

Saat membuat konfigurasi impor, saya tidak dapat memilih bucket OSS.

Otorisasi untuk role AliyunLogImportOSSRole tidak lengkap.

Lengkapi otorisasi seperti yang dijelaskan di bagian prasyarat topik ini.

Beberapa file tidak diimpor.

Kondisi filter diatur salah, atau beberapa file berukuran lebih dari 5 GB. Untuk informasi selengkapnya, lihat Batas pengumpulan.

  • Periksa apakah file yang ingin Anda impor memenuhi kondisi filter. Jika tidak, ubah kondisi filter.

  • Pastikan ukuran setiap file yang akan diimpor kurang dari 5 GB.

    Jika file berukuran lebih dari 5 GB, Anda harus mengurangi ukurannya.

Objek arsip tidak diimpor.

Sakelar Import Archived Objects dimatikan. Untuk informasi selengkapnya, lihat Batas pengumpulan.

  • Metode 1: Ubah konfigurasi impor dengan mengaktifkan sakelar Import Archived Objects.

  • Metode 2: Buat ulang konfigurasi impor dan aktifkan sakelar Import Archived Objects.

Log teks multi-baris diurai salah.

Ekspresi reguler baris pertama atau ekspresi reguler baris terakhir diatur salah.

Verifikasi bahwa ekspresi reguler baris pertama atau ekspresi reguler baris terakhir benar.

Latensi pengimporan file baru tinggi.

Jumlah file yang ada dan sesuai dengan filter awalan path file terlalu besar, dan sakelar Use OSS Metadata Index dinonaktifkan dalam konfigurasi impor.

Jika lebih dari 1 juta file sesuai dengan awalan path file, aktifkan sakelar Use OSS Metadata Index dalam konfigurasi impor. Jika tidak, proses penemuan file akan sangat tidak efisien.

Terjadi error izin terkait STS saat pembuatan.

Pengguna RAM tidak memiliki izin yang cukup.

  1. Periksa apakah Pasangan Kunci Akses pengguna RAM valid. Pastikan Pasangan Kunci Akses benar dan diaktifkan. Untuk informasi selengkapnya, lihat Pasangan Kunci Akses.

  2. Periksa apakah Token Layanan Keamanan (STS) yang dikonfigurasi untuk pengguna RAM telah kedaluwarsa. Jika kredensial akses temporary telah kedaluwarsa, perpanjang periode validitasnya. Untuk informasi selengkapnya, lihat Gunakan token STS untuk mengakses OSS.

  3. Pastikan Anda telah menyelesaikan otorisasi akses sumber daya cloud. Otorisasi ini memungkinkan Simple Log Service mengakses sumber daya OSS Anda menggunakan role AliyunLogImportOSSRole.

Mekanisme penanganan error

Error

Deskripsi

Gagal membaca file

Saat membaca file, jika terjadi error file tidak lengkap (karena pengecualian jaringan, kerusakan file, dll.), tugas impor secara otomatis mencoba ulang. Jika operasi baca gagal setelah tiga kali percobaan, tugas akan melewati file tersebut.

Interval percobaan ulang sama dengan interval pemeriksaan file baru. Jika interval pemeriksaan file baru diatur ke Never, interval percobaan ulang adalah 5 menit.

Error parsing format kompresi

Saat mendekompresi file, jika terjadi error format kompresi tidak valid, tugas impor akan melewati file tersebut.

Error parsing format data

  • Jika parsing data dalam format biner (ORC, Parquet) gagal, tugas impor akan melewati file tersebut.

  • Jika parsing data dalam format lain gagal, tugas impor menyimpan konten teks asli dalam field content log.

Bucket OSS tidak ada

Tugas impor mencoba ulang secara berkala. Artinya, setelah bucket dibuat ulang, tugas impor secara otomatis melanjutkan impor.

Error izin

Jika terjadi error izin saat membaca data dari bucket OSS atau menulis data ke Logstore Simple Log Service, tugas impor mencoba ulang secara berkala. Artinya, setelah masalah izin diperbaiki, tugas secara otomatis melanjutkan.

Saat terjadi error izin, tugas impor tidak melewati file apa pun. Oleh karena itu, setelah masalah izin diperbaiki, tugas secara otomatis mengimpor data dari file yang belum diproses di bucket ke Logstore Simple Log Service.

Operasi API pengiriman OSS

Operasi

Antarmuka

Create an OSS import task

CreateOSSIngestion

Modify an OSS import task

UpdateOSSIngestion

Obtain an OSS import task

GetOSSIngestion

Delete an OSS import task

DeleteOSSIngestion

Start an OSS import task

StartOSSIngestion

Stop an OSS import task

StopOSSIngestion