Ringkasan DataScan: Penemuan File Data Lake Cerdas - MaxCompute

Penting

Fitur ini tersedia dalam pratinjau undangan. Untuk mengaktifkannya, kirimkan Tiket.

Data Discovery secara otomatis memindai bucket Object Storage Service (OSS), mendeteksi format file dan skema, lalu mendaftarkan data tersebut sebagai tabel eksternal di MaxCompute. Setelah terdaftar, Anda dapat langsung melakukan kueri terhadap data tersebut menggunakan SQL atau MaxFrame—tanpa perlu menulis DDL secara manual. MaxCompute menerapkan kontrol akses tingkat enterprise, penyamaran data, dan izin tingkat baris pada seluruh data yang ditemukan.

Cara kerja

Setiap eksekusi task discovery melakukan langkah-langkah berikut:

Memindai path OSS yang Anda tentukan sesuai frekuensi yang dikonfigurasi (setiap 5 menit hingga setiap 7 hari).
Mendeteksi format file dan melakukan inferensi skema dari setiap file data.
Memetakan hierarki folder ke nama tabel dan kolom partisi berdasarkan aturan discovery.
Mendaftarkan tabel, partisi, dan skema yang sesuai sebagai tabel eksternal di Proyek dan skema MaxCompute target.

Setelah setiap eksekusi, Anda dapat segera melakukan kueri terhadap tabel eksternal yang terdaftar dengan SQL.

Kasus penggunaan

Analisis log otomatis: Log aplikasi yang terus-menerus ditulis ke OSS dalam format JSON atau CSV, dipartisi berdasarkan tanggal, secara otomatis terdeteksi dan didaftarkan sebagai tabel eksternal. Analis dapat melakukan kueri terhadap partisi baru dengan SQL segera setelah partisi tersebut muncul—tanpa perlu pipeline ingestion manual.

Spesifikasi

Dimensi	Detail
Sumber data yang didukung	OSS
Format file yang didukung	Parquet (tidak terkompresi, SNAPPY, ZSTD, GZIP); ORC (tidak terkompresi, SNAPPY, ZLIB); JSON (tidak terkompresi, BZIP2, GZIP, LZ4, DEFLATE); CSV (tidak terkompresi, SNAPPY, GZIP)
Frekuensi discovery	5 menit / 15 menit / 60 menit / 1 hari / 7 hari
Aturan pemetaan path ke tabel	`oss://<LOCATION path>/<foreign table>/<partition (optional)>/<file>`
Batas task	100 per Akun Alibaba Cloud
Wilayah yang tersedia	Tiongkok (Beijing), Tiongkok (Shenzhen)

Batasan

Wilayah: Data Discovery hanya tersedia di wilayah Tiongkok (Beijing) dan Tiongkok (Shenzhen).
Izin: Hanya Pemilik Akun Alibaba Cloud atau pengguna dengan role Datascan_Admin tingkat penyewa yang dapat membuat dan mengelola task discovery.
Role Izin
Datascan_Admin Menampilkan daftar, melihat, membuat, memperbarui, dan menghapus task discovery data.
Konflik skema: Jika tabel eksternal yang baru ditemukan memiliki nama yang sama dengan tabel yang telah dibuat pengguna di skema target, task akan melewatkan pembuatan tabel eksternal tersebut.
Penghapusan task: Menghapus task tidak menghapus tabel eksternal yang sudah terdaftar. Namun, skemanya tidak lagi diperbarui berdasarkan perubahan di data lake.

Role	Izin
Datascan_Admin	Menampilkan daftar, melihat, membuat, memperbarui, dan menghapus task discovery data.

Prasyarat

Sebelum memulai, pastikan Anda telah memiliki:

Bucket OSS di wilayah yang sama dan dalam Akun Alibaba Cloud yang sama dengan Proyek MaxCompute Anda
Koneksi data lake yang dikonfigurasi sebagai kredensial akses untuk bucket OSS
Proyek MaxCompute dengan sintaks tingkat skema yang diaktifkan
Role tingkat penyewa Datascan_Admin (untuk pengguna Resource Access Management (RAM))

Berikan role Datascan_Admin

Pemilik Akun Alibaba Cloud atau pengguna dengan role tingkat penyewa Super_Administrator atau Admin dapat memberikan role Datascan_Admin.

Login ke Konsol MaxCompute dan pilih wilayah di pojok kiri atas.Konsol MaxCompute
Di panel navigasi kiri, pilih Manage Configurations > Tenants.
Di halaman Tenants, klik tab Roles.
Pilih Datascan_Admin, lalu klik New Authorization di kolom Actions.
Di kotak dialog Newly Added Authorization, tambahkan pengguna yang akan diberi otorisasi, lalu klik OK.

Untuk informasi lebih lanjut tentang role tingkat penyewa, lihat Grant permissions to a tenant-level role.

Buat task discovery

Login ke Konsol MaxCompute dan pilih wilayah di pojok kiri atas.Konsol MaxCompute
Di panel navigasi kiri, pilih MaxLake > Data Discovery.
Di halaman Data Discovery, klik Create a data discovery task.

Pada kotak dialog Create Task, konfigurasikan parameter berikut, lalu klik Create. How the path-to-table mapping rule works: Tugas ini memetakan hirarki folder di bawah jalur Lokasi ke tabel eksternal dan kolom partisi.

Baris pertama file CSV digunakan sebagai nama kolom. Task secara otomatis mengatur skip.header.line.count=1 pada tabel eksternal untuk melewati header saat membaca.
Karakter quote default adalah tanda kutip ganda ("). Field yang berisi line break, tanda kutip ganda (di-escape sebagai ""), atau koma harus diapit oleh tanda kutip ganda.

Konfigurasi dasar

Parameter	Deskripsi
Task Name	Nama unik untuk task dalam satu penyewa.
Task Description	Deskripsi opsional untuk task.
Task cycle	Frekuensi pemindaian data baru: 5 menit / 15 menit / 60 menit / 1 hari / 7 hari.

Konfigurasi Data Lake

Parameter	Deskripsi
Connection	Pilih koneksi data lake sebagai kredensial akses untuk OSS.
Location	Path OSS yang akan dipindai. Format: `oss://<Bucket name>/<OSS path>/`. Bucket harus berada di wilayah yang sama dan dalam Akun Alibaba Cloud yang sama dengan task discovery.
Discovery Format	Format file yang akan dideteksi: Parquet, ORC, JSON, atau CSV.

Hasil	Nilai
Tabel eksternal	`ods_vehicle_gps_raw`
Kolom partisi	`dt`, `hh`
Skema	Diinferensi dari `vin1_2025-09-16_01.parquet`

Catalog Configuration

Parameter	Deskripsi
Project	Pilih Proyek MaxCompute dengan sintaks tingkat skema yang diaktifkan.
Schema	Pilih skema. Jika tabel eksternal yang baru ditemukan memiliki nama yang sama dengan tabel yang telah dibuat pengguna di skema tersebut, task tidak akan membuat tabel eksternal tersebut.

oss://<LOCATION path>/<foreign table>/<partition (optional)>/<file>

Contoh: Jika Location diatur ke oss://maxlake/ dan terdapat file di:

oss://maxlake/ods_vehicle_gps_raw/dt=2025-09-16/hh=01/vin1_2025-09-16_01.parquet

Task akan membuat hal berikut: Catatan format CSV

Lihat hasil discovery

Login ke Konsol MaxCompute dan pilih wilayah di pojok kiri atas.Konsol MaxCompute
Di panel navigasi kiri, pilih MaxLake > Data Discovery.
Temukan task target dan klik Browse Results di kolom Operation.
Di halaman detail, tinjau bagian-bagian berikut:
- Informasi Dasar: Nama discovery, Konfigurasi Discovery, dan Waktu Penemuan Terbaru.
- Hasil yang baru ditemukan: Tabel eksternal yang ditemukan, termasuk Nama Tabel dan Partisi Tabel. Klik tabel untuk melakukan kueri terhadap skema dan datanya menggunakan SQL.
- Riwayat Discovery: Riwayat eksekusi yang menampilkan waktu discovery dan jumlah tabel yang ditemukan per eksekusi. Log task untuk 2.000 eksekusi terbaru atau 180 hari terakhir disimpan. Log task yang tidak memenuhi kondisi ini akan dihapus.

Kelola task discovery

Login ke Konsol MaxCompute dan pilih wilayah di pojok kiri atas.Konsol MaxCompute
Di panel navigasi kiri, pilih MaxLake > Data Discovery.

Di halaman Data Discovery, gunakan kontrol berikut di daftar task:

Aksi	Cara
Jeda atau lanjutkan task	Klik sakelar Scheduling di kolom Status.
Jalankan segera	Klik Trigger once immediately di kolom Operation.
Edit nama, deskripsi, atau jadwal task	Klik Edit di kolom Operation.
Hapus task	Klik Delete di kolom Operation. Tabel eksternal yang terdaftar tidak dihapus, tetapi skemanya tidak lagi diperbarui.

MaxCompute:Data Discovery (DataScan)