Fitur ini tersedia dalam pratinjau undangan. Untuk mengaktifkannya, kirimkan Tiket.
Data Discovery secara otomatis memindai bucket Object Storage Service (OSS), mendeteksi format file dan skema, lalu mendaftarkan data tersebut sebagai tabel eksternal di MaxCompute. Setelah terdaftar, Anda dapat langsung melakukan kueri terhadap data tersebut menggunakan SQL atau MaxFrame—tanpa perlu menulis DDL secara manual. MaxCompute menerapkan kontrol akses tingkat enterprise, penyamaran data, dan izin tingkat baris pada seluruh data yang ditemukan.
Cara kerja
Setiap eksekusi task discovery melakukan langkah-langkah berikut:
Memindai path OSS yang Anda tentukan sesuai frekuensi yang dikonfigurasi (setiap 5 menit hingga setiap 7 hari).
Mendeteksi format file dan melakukan inferensi skema dari setiap file data.
Memetakan hierarki folder ke nama tabel dan kolom partisi berdasarkan aturan discovery.
Mendaftarkan tabel, partisi, dan skema yang sesuai sebagai tabel eksternal di Proyek dan skema MaxCompute target.
Setelah setiap eksekusi, Anda dapat segera melakukan kueri terhadap tabel eksternal yang terdaftar dengan SQL.
Kasus penggunaan
Analisis log otomatis: Log aplikasi yang terus-menerus ditulis ke OSS dalam format JSON atau CSV, dipartisi berdasarkan tanggal, secara otomatis terdeteksi dan didaftarkan sebagai tabel eksternal. Analis dapat melakukan kueri terhadap partisi baru dengan SQL segera setelah partisi tersebut muncul—tanpa perlu pipeline ingestion manual.
Spesifikasi
| Dimensi | Detail |
|---|---|
| Sumber data yang didukung | OSS |
| Format file yang didukung | Parquet (tidak terkompresi, SNAPPY, ZSTD, GZIP); ORC (tidak terkompresi, SNAPPY, ZLIB); JSON (tidak terkompresi, BZIP2, GZIP, LZ4, DEFLATE); CSV (tidak terkompresi, SNAPPY, GZIP) |
| Frekuensi discovery | 5 menit / 15 menit / 60 menit / 1 hari / 7 hari |
| Aturan pemetaan path ke tabel | oss://<LOCATION path>/<foreign table>/<partition (optional)>/<file> |
| Batas task | 100 per Akun Alibaba Cloud |
| Wilayah yang tersedia | Tiongkok (Beijing), Tiongkok (Shenzhen) |
Batasan
Wilayah: Data Discovery hanya tersedia di wilayah Tiongkok (Beijing) dan Tiongkok (Shenzhen).
Izin: Hanya Pemilik Akun Alibaba Cloud atau pengguna dengan role Datascan_Admin tingkat penyewa yang dapat membuat dan mengelola task discovery.
Role Izin Datascan_Admin Menampilkan daftar, melihat, membuat, memperbarui, dan menghapus task discovery data. Konflik skema: Jika tabel eksternal yang baru ditemukan memiliki nama yang sama dengan tabel yang telah dibuat pengguna di skema target, task akan melewatkan pembuatan tabel eksternal tersebut.
Penghapusan task: Menghapus task tidak menghapus tabel eksternal yang sudah terdaftar. Namun, skemanya tidak lagi diperbarui berdasarkan perubahan di data lake.
Prasyarat
Sebelum memulai, pastikan Anda telah memiliki:
Bucket OSS di wilayah yang sama dan dalam Akun Alibaba Cloud yang sama dengan Proyek MaxCompute Anda
Koneksi data lake yang dikonfigurasi sebagai kredensial akses untuk bucket OSS
Proyek MaxCompute dengan sintaks tingkat skema yang diaktifkan
Role tingkat penyewa Datascan_Admin (untuk pengguna Resource Access Management (RAM))
Berikan role Datascan_Admin
Pemilik Akun Alibaba Cloud atau pengguna dengan role tingkat penyewa Super_Administrator atau Admin dapat memberikan role Datascan_Admin.
Login ke Konsol MaxCompute dan pilih wilayah di pojok kiri atas.Konsol MaxCompute
Di panel navigasi kiri, pilih Manage Configurations > Tenants.
Di halaman Tenants, klik tab Roles.
Pilih Datascan_Admin, lalu klik New Authorization di kolom Actions.
Di kotak dialog Newly Added Authorization, tambahkan pengguna yang akan diberi otorisasi, lalu klik OK.
Untuk informasi lebih lanjut tentang role tingkat penyewa, lihat Grant permissions to a tenant-level role.
Buat task discovery
Login ke Konsol MaxCompute dan pilih wilayah di pojok kiri atas.Konsol MaxCompute
Di panel navigasi kiri, pilih MaxLake > Data Discovery.
Di halaman Data Discovery, klik Create a data discovery task.
Pada kotak dialog Create Task, konfigurasikan parameter berikut, lalu klik Create. How the path-to-table mapping rule works: Tugas ini memetakan hirarki folder di bawah jalur Lokasi ke tabel eksternal dan kolom partisi.
Baris pertama file CSV digunakan sebagai nama kolom. Task secara otomatis mengatur
skip.header.line.count=1pada tabel eksternal untuk melewati header saat membaca.Karakter quote default adalah tanda kutip ganda (
"). Field yang berisi line break, tanda kutip ganda (di-escape sebagai""), atau koma harus diapit oleh tanda kutip ganda.
Konfigurasi dasar
Parameter Deskripsi Task Name Nama unik untuk task dalam satu penyewa. Task Description Deskripsi opsional untuk task. Task cycle Frekuensi pemindaian data baru: 5 menit / 15 menit / 60 menit / 1 hari / 7 hari. Konfigurasi Data Lake
Parameter Deskripsi Connection Pilih koneksi data lake sebagai kredensial akses untuk OSS. Location Path OSS yang akan dipindai. Format: oss://<Bucket name>/<OSS path>/. Bucket harus berada di wilayah yang sama dan dalam Akun Alibaba Cloud yang sama dengan task discovery.Discovery Format Format file yang akan dideteksi: Parquet, ORC, JSON, atau CSV. Hasil Nilai Tabel eksternal ods_vehicle_gps_rawKolom partisi dt,hhSkema Diinferensi dari vin1_2025-09-16_01.parquetCatalog Configuration
Parameter Deskripsi Project Pilih Proyek MaxCompute dengan sintaks tingkat skema yang diaktifkan. Schema Pilih skema. Jika tabel eksternal yang baru ditemukan memiliki nama yang sama dengan tabel yang telah dibuat pengguna di skema tersebut, task tidak akan membuat tabel eksternal tersebut. oss://<LOCATION path>/<foreign table>/<partition (optional)>/<file>Contoh: Jika Location diatur ke
oss://maxlake/dan terdapat file di:oss://maxlake/ods_vehicle_gps_raw/dt=2025-09-16/hh=01/vin1_2025-09-16_01.parquetTask akan membuat hal berikut: Catatan format CSV
Lihat hasil discovery
Login ke Konsol MaxCompute dan pilih wilayah di pojok kiri atas.Konsol MaxCompute
Di panel navigasi kiri, pilih MaxLake > Data Discovery.
Temukan task target dan klik Browse Results di kolom Operation.
Di halaman detail, tinjau bagian-bagian berikut:
Informasi Dasar: Nama discovery, Konfigurasi Discovery, dan Waktu Penemuan Terbaru.
Hasil yang baru ditemukan: Tabel eksternal yang ditemukan, termasuk Nama Tabel dan Partisi Tabel. Klik tabel untuk melakukan kueri terhadap skema dan datanya menggunakan SQL.
Riwayat Discovery: Riwayat eksekusi yang menampilkan waktu discovery dan jumlah tabel yang ditemukan per eksekusi. Log task untuk 2.000 eksekusi terbaru atau 180 hari terakhir disimpan. Log task yang tidak memenuhi kondisi ini akan dihapus.
Kelola task discovery
Login ke Konsol MaxCompute dan pilih wilayah di pojok kiri atas.Konsol MaxCompute
Di panel navigasi kiri, pilih MaxLake > Data Discovery.
Di halaman Data Discovery, gunakan kontrol berikut di daftar task:
Aksi Cara Jeda atau lanjutkan task Klik sakelar Scheduling di kolom Status. Jalankan segera Klik Trigger once immediately di kolom Operation. Edit nama, deskripsi, atau jadwal task Klik Edit di kolom Operation. Hapus task Klik Delete di kolom Operation. Tabel eksternal yang terdaftar tidak dihapus, tetapi skemanya tidak lagi diperbarui.