Fitur Unggah Data di DataWorks memungkinkan Anda mengimpor data dari berbagai sumber, seperti file lokal, Buku kerja Analisis Data, file Object Storage Service (OSS), atau file HTTP. Data tersebut dapat dimuat ke mesin seperti MaxCompute, EMR Hive, Hologres, dan StarRocks untuk analisis dan manajemen. Topik ini menjelaskan cara menggunakan fitur tersebut untuk mengunggah data.
Sebelum memulai
Jika tugas Anda melibatkan operasi data lintas batas (misalnya, mentransfer data dari Tiongkok daratan ke lokasi di luar Tiongkok daratan, atau antar negara atau wilayah yang berbeda), Anda harus membaca dan memahami pernyataan kepatuhan. Kegagalan untuk melakukannya dapat menyebabkan kegagalan unggah dan tanggung jawab hukum.
Gunakan header kolom berbahasa Inggris dalam file sumber Anda. Header berbahasa Tionghoa dapat menyebabkan kegagalan penguraian dan kesalahan unggah.
Batasan
Batasan kelompok sumber daya: Fitur Unggah Data mengharuskan Anda menentukan kelompok sumber daya untuk penjadwalan dan kelompok sumber daya untuk Integrasi Data.
Anda hanya dapat menggunakan kelompok sumber daya Serverless (disarankan), grup sumber daya eksklusif untuk penjadwalan, atau grup sumber daya eksklusif untuk Integrasi Data. Anda harus mengonfigurasi kelompok sumber daya ini untuk mesin yang sesuai dengan memilih .
Anda harus mengikat kelompok sumber daya yang dipilih ke ruang kerja DataWorks tempat tabel tujuan berada. Pastikan pula bahwa kelompok sumber daya tersebut dapat terhubung ke sumber data untuk tugas unggah tersebut.
CatatanUntuk mengonfigurasi kelompok sumber daya yang digunakan oleh mesin di Analisis Data, lihat Manajemen sistem.
Untuk menetapkan konektivitas jaringan antara sumber data dan kelompok sumber daya, lihat Solusi koneksi jaringan.
Untuk mengikat grup sumber daya eksklusif ke ruang kerja, lihat Menggunakan grup sumber daya eksklusif untuk penjadwalan dan Menggunakan grup sumber daya eksklusif untuk Integrasi Data.
Izin tabel yang diperlukan untuk unggah data:
Tabel MaxCompute (tabel ODPS): Anda harus menjadi Pemilik tabel tersebut. Tidak diperlukan peran tertentu di ruang kerja DataWorks.
Tabel non-MaxCompute (seperti Hologres, EMR Hive, dan StarRocks): Anda harus menjadi Pemilik tabel dan memiliki peran tertentu di ruang kerja DataWorks.
Tabel di lingkungan pengembangan: Anda harus memiliki peran Developer.
Tabel di lingkungan produksi: Anda harus memiliki peran O&M.
Batasan jenis tabel: Anda hanya dapat mengunggah data ke Tabel internal atau tabel di default catalog (untuk StarRocks).
Penagihan
Pengunggahan data dapat menimbulkan biaya berikut:
Biaya transfer data.
Jika Anda membuat tabel baru, biaya komputasi dan penyimpanan akan dikenakan.
Biaya-biaya ini dikenakan oleh mesin komputasi masing-masing. Untuk informasi harga selengkapnya, lihat dokumentasi penagihan setiap mesin: Penagihan MaxCompute, Penagihan Hologres, Penagihan E-MapReduce, dan Penagihan produk EMR Serverless StarRocks.
Buka halaman Unggah Data
Buka Unggah dan Unduh Data.
Masuk ke Konsol DataWorks. Di bilah navigasi atas, pilih wilayah yang diinginkan. Di panel navigasi sebelah kiri, pilih . Di halaman yang muncul, klik Go to Data Upload and Download.
Di panel navigasi sebelah kiri, klik ikon
untuk membuka halaman Upload Data.Klik Upload Data dan ikuti petunjuk untuk mengunggah data Anda.
Pilih file sumber
Anda dapat mengunggah data dari file lokal, Buku kerja, Object Storage Service (OSS), atau file HTTP. Pilih sumber data sesuai kebutuhan bisnis Anda.
Saat mengunggah file, Anda dapat memilih apakah akan menyaring data kotor atau tidak.
Ya: Jika ditemukan data kotor, platform secara otomatis mengabaikannya dan melanjutkan proses unggah.
Tidak: Jika ditemukan data kotor, proses unggah akan dihentikan.
File lokal
Gunakan opsi ini untuk data yang disimpan dalam file lokal.
Atur Data Source ke Local File.
Di bawah Specify Data to Be Uploaded, seret file lokal Anda ke area Select File.
CatatanFormat yang didukung mencakup
CSV,XLS,XLSX, danJSON. Ukuran maksimum file adalah5 GBuntuk fileCSVdan100 MBuntuk jenis file lainnya.Secara default, hanya lembar pertama file yang diunggah. Untuk mengunggah beberapa lembar, Anda harus membuat tabel terpisah untuk setiap lembar dan menjadikan lembar tersebut sebagai lembar pertama dalam file.
Pengunggahan file
SQLsaat ini tidak didukung.
Buku kerja
Pilih opsi ini jika data yang ingin Anda unggah berada di Buku kerja Analisis Data DataWorks.
Atur Data Source ke Workbook.
Di bawah Specify Data to Be Uploaded:
Dari daftar dropdown di samping Select File, pilih Buku kerja yang ingin Anda unggah.
Jika Buku kerja belum ada, klik tombol Create untuk membuatnya. Anda juga dapat membuat Buku kerja dan mengimpor data di modul Analisis Data.
OSS
Pilih opsi ini jika data yang ingin Anda unggah disimpan di Object Storage Service (OSS).
Prasyarat:
Anda telah membuat bucket OSS dan menyimpan file data yang akan diunggah di bucket tersebut. Anda kemudian dapat mengunggah data OSS ke sumber data yang sesuai.
Untuk menghindari masalah izin, pastikan Akun Alibaba Cloud yang digunakan untuk unggah memiliki akses ke bucket tujuan. Untuk informasi selengkapnya, lihat Ikhtisar izin dan kontrol akses.
Langkah-langkah:
Atur Data Source ke OSS.
Di bawah Specify Data to Be Uploaded:
Dari daftar dropdown Select Bucket, pilih bucket OSS yang berisi data yang akan diunggah.
CatatanAnda hanya dapat mengunggah data dari bucket yang berada di wilayah yang sama dengan ruang kerja DataWorks Anda.
Di area Select File, pilih file data yang ingin Anda unggah.
CatatanHanya format file
CSV,XLS,XLSX, danJSONyang didukung.
File HTTP
Pilih opsi ini jika data yang ingin Anda unggah berupa file HTTP.
Atur Data Source ke HTTP File.
Konfigurasikan parameter di bawah Specify Data to Be Uploaded:
Parameter
Deskripsi
File URL
URL file data.
CatatanURL HTTP dan HTTPS didukung.
File Type
Sistem secara otomatis mendeteksi jenis file.
Jenis file yang didukung adalah
CSV,XLS, danXLSX. Ukuran maksimum file adalah 5 GB untuk fileCSVdan 50 MB untuk jenis file lainnya.Request Method
Metode yang didukung adalah GET, POST, dan PUT. Meskipun GET direkomendasikan untuk mengambil data, metode yang diperlukan bergantung pada konfigurasi server Anda.
Advanced parameters
Anda juga dapat mengatur Request Header dan Request Body di bagian Advanced Parameters sesuai kebutuhan.
Konfigurasikan tabel tujuan
Di bagian Configure Destination Table, pilih Target Engine untuk unggah data dan konfigurasikan parameter yang relevan.
Saat mengonfigurasi tabel tujuan, Anda harus membedakan antara lingkungan produksi (PROD) dan pengembangan (DEV) untuk sumber data. Jika Anda memilih lingkungan yang salah, data akan diunggah ke lokasi yang tidak diinginkan.
MaxCompute
Jika Anda perlu mengunggah data ke Tabel internal di MaxCompute, konfigurasikan parameter seperti dijelaskan dalam tabel berikut.
Parameter | Deskripsi | |
Nama proyek MaxCompute | Pilih sumber data MaxCompute yang terikat ke wilayah saat ini. Jika sumber data yang diperlukan tidak ditemukan, Anda dapat mengikat sumber daya komputasi MaxCompute ke ruang kerja saat ini untuk menghasilkan sumber data dengan nama yang sama. | |
Tabel tujuan | Anda dapat memilih Existing Table atau Create Table. | |
Pilih tabel tujuan | Tabel tempat data yang diunggah akan disimpan. Anda dapat mencari tabel berdasarkan kata kunci. Catatan Anda hanya dapat mengunggah data ke tabel yang Anda miliki. Untuk informasi selengkapnya, lihat Batasan. | |
Mode unggah | Pilih cara menambahkan data ke tabel tujuan.
| |
Nama tabel | Masukkan nama kustom untuk tabel baru. Catatan Saat membuat tabel di mesin MaxCompute, sistem menggunakan informasi akun MaxCompute yang dikonfigurasi dari sumber daya komputasi DataWorks untuk membuat tabel di proyek MaxCompute yang sesuai. | |
Jenis tabel | Pilih Non-partitioned Table atau Partitioned Table sesuai kebutuhan. Jika Anda memilih tabel partisi, Anda harus menentukan kolom partisi dan nilainya. | |
Lifecycle | Tentukan periode retensi tabel. Tabel akan dihapus ketika periode ini berakhir. Untuk informasi selengkapnya tentang siklus hidup tabel, lihat lifecycle dan lifecycle operations. | |
EMR Hive
Jika Anda perlu mengunggah data ke Tabel internal di EMR Hive, konfigurasikan parameter seperti dijelaskan dalam tabel berikut.
Parameter | Deskripsi |
Sumber data | Pilih sumber data EMR Hive (mode instans Alibaba Cloud) di wilayah Anda yang terikat ke ruang kerja saat ini. |
Tabel tujuan | Anda hanya dapat mengunggah data ke Existing Table. |
Pilih tabel tujuan | Tabel tempat data yang diunggah akan disimpan. Anda dapat mencari tabel berdasarkan kata kunci. Catatan
|
Mode unggah | Pilih cara menambahkan data ke tabel tujuan.
|
Hologres
Jika Anda perlu mengunggah data ke Tabel internal di Hologres, konfigurasikan parameter seperti dijelaskan dalam tabel berikut.
Parameter | Deskripsi |
Sumber data | Pilih sumber data Hologres di wilayah Anda yang terikat ke ruang kerja saat ini. Jika sumber data yang diperlukan tidak ditemukan, Anda dapat mengikat sumber daya komputasi Hologres ke ruang kerja saat ini untuk menghasilkan sumber data dengan nama yang sama. |
Tabel tujuan | Anda hanya dapat mengunggah data ke Existing Table. |
Pilih tabel tujuan | Tabel tempat data yang diunggah akan disimpan. Anda dapat mencari tabel berdasarkan kata kunci. Catatan
|
Mode unggah | Pilih cara menambahkan data ke tabel tujuan.
|
Strategi penanganan konflik primary key | Pilih strategi untuk menangani konflik primary key di tabel tujuan.
|
StarRocks
Jika Anda perlu mengunggah data ke tabel di default catalog StarRocks, konfigurasikan parameter seperti dijelaskan dalam tabel berikut.
Parameter | Deskripsi |
Sumber data | Pilih sumber data StarRocks di wilayah Anda yang terikat ke ruang kerja saat ini. |
Tabel tujuan | Anda hanya dapat mengunggah data ke Existing Table. |
Pilih tabel tujuan | Tabel tempat data yang diunggah akan disimpan. Anda dapat mencari tabel berdasarkan kata kunci. Catatan
|
Mode unggah | Pilih cara menambahkan data ke tabel tujuan.
|
Parameter lanjutan | Konfigurasikan parameter permintaan Stream Load. |
Pratinjau data dan konfigurasikan pemetaan
Setelah mengonfigurasi tabel tujuan, Anda dapat mempratinjau data dan menyesuaikan encoding file serta pemetaan data sesuai kebutuhan.
Saat ini, Anda hanya dapat mempratinjau 20 baris data pertama.
File Encoding Format: Jika pratinjau menampilkan karakter acak, ganti encoding-nya. Format yang didukung mencakup
UTF-8,GB18030,Big5,UTF-16LE, danUTF-16BE.Pratinjau data dan konfigurasikan kolom tabel tujuan:
Unggah data ke tabel yang sudah ada: Anda harus mengonfigurasi pemetaan antara kolom di file sumber dan kolom di tabel tujuan. Metode pemetaan yang didukung meliputi Mapping by Column Name dan Mapping by Order. Setelah pemetaan, Anda dapat menyesuaikan nama kolom tabel tujuan.
CatatanJika kolom sumber tidak dipetakan, datanya akan diberi warna abu-abu dan tidak akan diunggah.
Pemetaan ganda antara kolom sumber dan tujuan tidak diizinkan.
Nama kolom dan tipe kolom tidak boleh kosong. Jika kosong, unggah data akan gagal.
Unggah data ke tabel baru: Anda dapat menggunakan Intelligent Field Generation untuk mengisi informasi kolom secara otomatis, atau Anda dapat memodifikasi informasi kolom secara manual.
CatatanNama kolom dan tipe kolom tidak boleh kosong. Jika kosong, unggah data akan gagal.
Mesin EMR Hive, Hologres, dan StarRocks tidak mendukung pembuatan tabel baru selama proses unggah data.
Ignore First Row: Tentukan apakah baris pertama file data (biasanya berisi nama kolom) akan diunggah ke tabel tujuan atau tidak.
Dipilih: Jika baris pertama berisi nama kolom, baris tersebut tidak diunggah ke tabel tujuan.
Cleared: Jika baris pertama berisi data, data tersebut diunggah ke tabel tujuan.
Unggah data
Setelah mengonfigurasi pengaturan, klik Upload Data di pojok kiri bawah untuk memulai unggah.
Langkah selanjutnya
Setelah unggah berhasil, Anda dapat mengklik ikon
di panel navigasi sebelah kiri untuk membuka halaman Upload Data. Temukan tugas Unggah Data yang telah Anda buat dan lakukan operasi berikut sesuai kebutuhan:
Lanjutkan Unggah: Di kolom Actions, klik Continue Upload untuk mengunggah data lagi.
Query Data: Di kolom Actions, klik Query Data untuk mengkueri dan menganalisis data.
Lihat detail data yang diunggah: Klik Table Name tujuan untuk membuka Peta Data dan melihat detail tabel tersebut. Untuk informasi selengkapnya, lihat Pengambilan metadata.
Lampiran: Pernyataan kepatuhan untuk unggah lintas batas
Jika tugas Anda melibatkan operasi data lintas batas, seperti mentransfer data dari Tiongkok daratan ke lokasi di luar Tiongkok daratan, atau antar negara atau wilayah yang berbeda, Anda harus membaca dan memahami pernyataan kepatuhan ini terlebih dahulu. Kegagalan untuk melakukannya dapat menyebabkan unggah gagal dan menimbulkan tanggung jawab hukum.
Operasi data lintas batas mentransfer data bisnis cloud Anda ke wilayah atau area penerapan produk yang Anda pilih. Anda harus memastikan bahwa operasi tersebut mematuhi persyaratan berikut:
Anda memiliki izin yang diperlukan untuk memproses data bisnis cloud terkait.
Anda telah menerapkan teknologi dan kebijakan perlindungan keamanan data yang memadai.
Transfer data mematuhi semua hukum dan peraturan yang berlaku. Misalnya, data yang ditransfer tidak boleh mengandung konten apa pun yang dibatasi atau dilarang untuk ditransfer atau diungkapkan menurut hukum yang berlaku.
Jika unggah data Anda melibatkan operasi data lintas batas, konsultasikan dengan profesional hukum atau kepatuhan sebelum melanjutkan. Anda harus memastikan bahwa transfer data lintas batas mematuhi semua hukum, peraturan, dan kebijakan pengawasan yang berlaku. Ini termasuk, namun tidak terbatas pada, memperoleh persetujuan valid dari subjek informasi pribadi, menyelesaikan penandatanganan dan pengarsipan ketentuan kontrak terkait, serta menyelesaikan penilaian keamanan dan kewajiban hukum lainnya.
Anda bertanggung jawab secara hukum atas segala operasi data lintas batas yang melanggar pernyataan kepatuhan ini. Selain itu, Anda akan bertanggung jawab atas segala kerugian yang dialami oleh Alibaba Cloud dan afiliasinya.
Dokumen terkait
DataStudio (Pengembangan Data) juga mendukung pengunggahan file CSV atau teks lokal ke tabel MaxCompute. Untuk informasi selengkapnya, lihat Unggah data.
Untuk informasi selengkapnya tentang operasi tabel MaxCompute, lihat Buat dan gunakan tabel MaxCompute.
Untuk informasi selengkapnya tentang operasi tabel Hologres, lihat Buat tabel Hologres.
Untuk informasi selengkapnya tentang operasi tabel EMR, lihat Buat tabel EMR.
FAQ
Masalah konfigurasi kelompok sumber daya.
Pesan error: Kelompok sumber daya harus dikonfigurasi untuk file sumber atau mesin tujuan. Hubungi administrator ruang kerja untuk mengonfigurasinya.
Solusi: Untuk mengonfigurasi kelompok sumber daya yang digunakan oleh mesin di Analisis Data, lihat Manajemen sistem.
Masalah pengikatan kelompok sumber daya.
Pesan error: Kelompok sumber daya unggah data global yang dikonfigurasi di ruang kerja Anda saat ini tidak terikat ke ruang kerja tempat tabel tujuan berada. Silakan hubungi administrator ruang kerja untuk mengikatnya.
Solusi: Anda dapat mengikat kelompok sumber daya yang telah Anda konfigurasi di Manajemen Sistem ke ruang kerja tersebut.