Muat Data CSV dari OSS, HDFS & HTTP dengan Komponen Baca CSV - Platform for AI

Komponen Baca File CSV memungkinkan Anda membaca file CSV dari Object Storage Service (OSS), HTTP, dan Hadoop Distributed File System (HDFS). Topik ini menjelaskan cara mengonfigurasi komponen tersebut.

Batasan

Jika Anda mengonfigurasi komponen Baca File CSV di konsol Platform for AI (PAI), hanya sumber daya komputasi MaxCompute, Realtime Compute for Apache Flink, atau Deep Learning Containers (DLC) yang didukung.
Jika Anda mengonfigurasi komponen Baca File CSV menggunakan komponen PyAlink Script, Anda harus menggunakan komponen PyAlink Script untuk memanggil kode. Untuk informasi lebih lanjut, lihat PyAlink Script.

Prasyarat

(Opsional) PAI diberi otorisasi untuk mengakses OSS. Untuk informasi lebih lanjut, lihat Berikan izin yang diperlukan untuk menggunakan Machine Learning Designer.
null
Anda harus melakukan otorisasi jika Anda memilih OSS untuk fileSource.
Parameter Default Resource Preferred by Alink or FlinkML pada tab Pipeline Attributes telah dikonfigurasi. Saat Anda menjalankan komponen berikutnya, sistem secara otomatis menggunakan tipe sumber daya yang Anda konfigurasikan untuk parameter ini.

Konfigurasikan komponen Baca File CSV

Anda dapat mengonfigurasi komponen Baca File CSV dengan menggunakan salah satu metode berikut:

Metode 1: Konsol PAI

Tabel berikut menjelaskan parameter yang harus Anda konfigurasikan di halaman Visualized Modeling (Designer).

Tab	Parameter	Deskripsi
Parameter Setting	fileSource	Sumber file CSV. Nilai valid: OSS dan OTHERS.
	ossFilePath atau filePath	Path file CSV. Jika Anda memilih OSS untuk fileSource, Anda dapat memasukkan atau memilih path OSS. Jika Anda ingin membaca file tunggal dengan ukuran kurang dari 1 GB, Anda dapat langsung mengunggah file CSV ke path OSS yang ditentukan di halaman Pilih direktori atau file OSS. Jika Anda memilih OTHERS untuk fileSource, Anda dapat memasukkan path file di server HTTP atau dalam sistem file HDFS.
	Schema	Tipe data untuk setiap kolom. Tentukan parameter ini dalam format `colname0 coltype0, colname1 coltype1,colname2 coltype2...`. Contoh: `f0 string,f1 bigint,f2 double`. null Tipe data yang dikonfigurasi untuk setiap kolom harus sama dengan tipe data file CSV yang ingin Anda baca. Jika tidak, sistem gagal membaca data di kolom tertentu dari file CSV. Jangan gunakan titik (.) di bidang. Jika tidak, komponen akan gagal.
	fieldDelimiter	Pemisah bidang. Secara default, koma (,) digunakan.
	handleInvalidMethod	Metode yang digunakan untuk menangani data tidak valid dari tipe Tensor, Vector, atau MTable jika data dari tipe tersebut gagal diuraikan. Tipe data ini didefinisikan oleh kerangka algoritma Alink dan memiliki format penguraian tetap. Nilai valid: ERROR: Sistem berhenti membaca file CSV. SKIP: Sistem melewati data tidak valid.
	ignoreFirstLine	Menentukan apakah akan melewati data di baris pertama. Anda harus mengaktifkan sakelar ini jika baris pertama file CSV yang ingin Anda baca adalah header tabel.
	lenient	Metode yang digunakan untuk menangani ketidaksesuaian ketika skema catatan data masukan tidak sesuai dengan informasi yang ditentukan oleh parameter Schema. Masalah ketidaksesuaian mungkin terletak pada tipe data atau jumlah kolom. Jika lenient diaktifkan dan data di baris gagal diuraikan, data di baris tersebut dibuang. Jika lenient dimatikan dan data di baris gagal diuraikan, sistem berhenti membaca file CSV dan menampilkan baris kesalahan.
	quoteString	Karakter kutipan. Secara default, tanda kutip ganda (") digunakan.
	rowDelimiter	Pemisah baris. Secara default, line feed (\n) digunakan.
	skipBlankLine	Menentukan apakah akan melewati baris kosong.
Execution Tuning	Number of Workers	Jumlah node. Nilainya harus bilangan bulat positif. Parameter ini harus digunakan bersama dengan parameter Memory per worker. Nilai valid: 1 hingga 9999.
Execution Tuning	Memory per worker	Ukuran memori setiap node. Unit: MB. Nilainya harus bilangan bulat positif. Nilai valid: 1024 hingga 65536.

Metode 2: Komponen PyAlink Script

Tabel berikut menjelaskan parameter yang harus Anda konfigurasikan saat menggunakan komponen PyAlink Script untuk mengonfigurasi komponen Baca File CSV. Untuk informasi lebih lanjut tentang komponen PyAlink Script, lihat PyAlink Script.

Parameter	Diperlukan	Deskripsi	Nilai default
schemaStr	Ya	Tipe data file CSV. Tentukan parameter ini dalam format colname0 coltype0[, colname1 coltype1[, ...]]. Contoh: f0 string,f1 bigint,f2 double.	Tidak ada
filePath	Tidak	Path file CSV.	Tidak ada
fieldDelimiter	Tidak	Pemisah bidang.	Koma (,)
handleInvalidMethod	Tidak	Metode yang digunakan untuk menangani data tidak valid dari tipe Tensor, Vector, atau MTable. Data dari tipe ini gagal diuraikan. Tipe data ini didefinisikan oleh kerangka algoritma Alink dan memiliki format penguraian tetap. Nilai valid: ERROR: Sistem berhenti membaca file CSV. SKIP: Sistem melewati data tidak valid.	ERROR
ignoreFirstLine	Tidak	Menentukan apakah akan melewati data di baris pertama. Anda harus menetapkan parameter ini ke True jika baris pertama file CSV yang ingin Anda baca adalah header tabel.	False
lenient	Tidak	Metode yang digunakan untuk menangani ketidaksesuaian ketika skema catatan data masukan tidak sesuai dengan informasi yang ditentukan oleh parameter Schema. Masalah ketidaksesuaian mungkin terletak pada tipe data atau jumlah kolom. true: Data di baris dibuang. false: Pesan kesalahan dikembalikan.	False
quoteString	Tidak	Karakter kutipan.	Tanda kutip ganda (")
rowDelimiter	Tidak	Pemisah baris.	Line feed (\n)
skipBlankLine	Tidak	Menentukan apakah akan melewati baris kosong.	True

Contoh skrip PyAlink:

filePath = 'https://alink-test-data.oss-cn-hangzhou.aliyuncs.com/iris.csv'
schema = 'sepal_length double, sepal_width double, petal_length double, petal_width double, category string'
csvSource = CsvSourceBatchOp()\
    .setFilePath(filePath)\
    .setSchemaStr(schema)\
    .setFieldDelimiter(",")
BatchOperator.collectToDataframe(csvSource)