Komponen Baca File CSV memungkinkan Anda membaca file CSV dari Object Storage Service (OSS), HTTP, dan Hadoop Distributed File System (HDFS). Topik ini menjelaskan cara mengonfigurasi komponen tersebut.
Batasan
Jika Anda mengonfigurasi komponen Baca File CSV di konsol Platform for AI (PAI), hanya sumber daya komputasi MaxCompute, Realtime Compute for Apache Flink, atau Deep Learning Containers (DLC) yang didukung.
Jika Anda mengonfigurasi komponen Baca File CSV menggunakan komponen PyAlink Script, Anda harus menggunakan komponen PyAlink Script untuk memanggil kode. Untuk informasi lebih lanjut, lihat PyAlink Script.
Prasyarat
(Opsional) PAI diberi otorisasi untuk mengakses OSS. Untuk informasi lebih lanjut, lihat Berikan izin yang diperlukan untuk menggunakan Machine Learning Designer.
nullAnda harus melakukan otorisasi jika Anda memilih OSS untuk fileSource.
Parameter Default Resource Preferred by Alink or FlinkML pada tab Pipeline Attributes telah dikonfigurasi. Saat Anda menjalankan komponen berikutnya, sistem secara otomatis menggunakan tipe sumber daya yang Anda konfigurasikan untuk parameter ini.
Konfigurasikan komponen Baca File CSV
Anda dapat mengonfigurasi komponen Baca File CSV dengan menggunakan salah satu metode berikut:
Metode 1: Konsol PAI
Tabel berikut menjelaskan parameter yang harus Anda konfigurasikan di halaman Visualized Modeling (Designer).
Tab | Parameter | Deskripsi |
Parameter Setting | fileSource | Sumber file CSV. Nilai valid: OSS dan OTHERS. |
ossFilePath atau filePath | Path file CSV.
| |
Schema | Tipe data untuk setiap kolom. Tentukan parameter ini dalam format null
| |
fieldDelimiter | Pemisah bidang. Secara default, koma (,) digunakan. | |
handleInvalidMethod | Metode yang digunakan untuk menangani data tidak valid dari tipe Tensor, Vector, atau MTable jika data dari tipe tersebut gagal diuraikan. Tipe data ini didefinisikan oleh kerangka algoritma Alink dan memiliki format penguraian tetap. Nilai valid:
| |
ignoreFirstLine | Menentukan apakah akan melewati data di baris pertama. Anda harus mengaktifkan sakelar ini jika baris pertama file CSV yang ingin Anda baca adalah header tabel. | |
lenient | Metode yang digunakan untuk menangani ketidaksesuaian ketika skema catatan data masukan tidak sesuai dengan informasi yang ditentukan oleh parameter Schema. Masalah ketidaksesuaian mungkin terletak pada tipe data atau jumlah kolom.
| |
quoteString | Karakter kutipan. Secara default, tanda kutip ganda (") digunakan. | |
rowDelimiter | Pemisah baris. Secara default, line feed (\n) digunakan. | |
skipBlankLine | Menentukan apakah akan melewati baris kosong. | |
Execution Tuning | Number of Workers | Jumlah node. Nilainya harus bilangan bulat positif. Parameter ini harus digunakan bersama dengan parameter Memory per worker. Nilai valid: 1 hingga 9999. |
Memory per worker | Ukuran memori setiap node. Unit: MB. Nilainya harus bilangan bulat positif. Nilai valid: 1024 hingga 65536. |
Metode 2: Komponen PyAlink Script
Tabel berikut menjelaskan parameter yang harus Anda konfigurasikan saat menggunakan komponen PyAlink Script untuk mengonfigurasi komponen Baca File CSV. Untuk informasi lebih lanjut tentang komponen PyAlink Script, lihat PyAlink Script.
Parameter | Diperlukan | Deskripsi | Nilai default |
schemaStr | Ya | Tipe data file CSV. Tentukan parameter ini dalam format colname0 coltype0[, colname1 coltype1[, ...]]. Contoh: f0 string,f1 bigint,f2 double. | Tidak ada |
filePath | Tidak | Path file CSV. | Tidak ada |
fieldDelimiter | Tidak | Pemisah bidang. | Koma (,) |
handleInvalidMethod | Tidak | Metode yang digunakan untuk menangani data tidak valid dari tipe Tensor, Vector, atau MTable. Data dari tipe ini gagal diuraikan. Tipe data ini didefinisikan oleh kerangka algoritma Alink dan memiliki format penguraian tetap. Nilai valid:
| ERROR |
ignoreFirstLine | Tidak | Menentukan apakah akan melewati data di baris pertama. Anda harus menetapkan parameter ini ke True jika baris pertama file CSV yang ingin Anda baca adalah header tabel. | False |
lenient | Tidak | Metode yang digunakan untuk menangani ketidaksesuaian ketika skema catatan data masukan tidak sesuai dengan informasi yang ditentukan oleh parameter Schema. Masalah ketidaksesuaian mungkin terletak pada tipe data atau jumlah kolom.
| False |
quoteString | Tidak | Karakter kutipan. | Tanda kutip ganda (") |
rowDelimiter | Tidak | Pemisah baris. | Line feed (\n) |
skipBlankLine | Tidak | Menentukan apakah akan melewati baris kosong. | True |
Contoh skrip PyAlink:
filePath = 'https://alink-test-data.oss-cn-hangzhou.aliyuncs.com/iris.csv'
schema = 'sepal_length double, sepal_width double, petal_length double, petal_width double, category string'
csvSource = CsvSourceBatchOp()\
.setFilePath(filePath)\
.setSchemaStr(schema)\
.setFieldDelimiter(",")
BatchOperator.collectToDataframe(csvSource)