全部产品
Search
文档中心

Platform For AI:Baca File CSV

更新时间:Jun 22, 2025

Komponen Baca File CSV memungkinkan Anda membaca file CSV dari Object Storage Service (OSS), HTTP, dan Hadoop Distributed File System (HDFS). Topik ini menjelaskan cara mengonfigurasi komponen tersebut.

Batasan

  • Jika Anda mengonfigurasi komponen Baca File CSV di konsol Platform for AI (PAI), hanya sumber daya komputasi MaxCompute, Realtime Compute for Apache Flink, atau Deep Learning Containers (DLC) yang didukung.

  • Jika Anda mengonfigurasi komponen Baca File CSV menggunakan komponen PyAlink Script, Anda harus menggunakan komponen PyAlink Script untuk memanggil kode. Untuk informasi lebih lanjut, lihat PyAlink Script.

Prasyarat

  • (Opsional) PAI diberi otorisasi untuk mengakses OSS. Untuk informasi lebih lanjut, lihat Berikan izin yang diperlukan untuk menggunakan Machine Learning Designer.

    null

    Anda harus melakukan otorisasi jika Anda memilih OSS untuk fileSource.

  • Parameter Default Resource Preferred by Alink or FlinkML pada tab Pipeline Attributes telah dikonfigurasi. Saat Anda menjalankan komponen berikutnya, sistem secara otomatis menggunakan tipe sumber daya yang Anda konfigurasikan untuk parameter ini.

Konfigurasikan komponen Baca File CSV

Anda dapat mengonfigurasi komponen Baca File CSV dengan menggunakan salah satu metode berikut:

Metode 1: Konsol PAI

Tabel berikut menjelaskan parameter yang harus Anda konfigurasikan di halaman Visualized Modeling (Designer).

Tab

Parameter

Deskripsi

Parameter Setting

fileSource

Sumber file CSV. Nilai valid: OSS dan OTHERS.

ossFilePath atau filePath

Path file CSV.

  • Jika Anda memilih OSS untuk fileSource, Anda dapat memasukkan atau memilih path OSS. Jika Anda ingin membaca file tunggal dengan ukuran kurang dari 1 GB, Anda dapat langsung mengunggah file CSV ke path OSS yang ditentukan di halaman Pilih direktori atau file OSS.

  • Jika Anda memilih OTHERS untuk fileSource, Anda dapat memasukkan path file di server HTTP atau dalam sistem file HDFS.

Schema

Tipe data untuk setiap kolom. Tentukan parameter ini dalam format colname0 coltype0, colname1 coltype1,colname2 coltype2.... Contoh: f0 string,f1 bigint,f2 double.

null
  • Tipe data yang dikonfigurasi untuk setiap kolom harus sama dengan tipe data file CSV yang ingin Anda baca. Jika tidak, sistem gagal membaca data di kolom tertentu dari file CSV.

  • Jangan gunakan titik (.) di bidang. Jika tidak, komponen akan gagal.

fieldDelimiter

Pemisah bidang. Secara default, koma (,) digunakan.

handleInvalidMethod

Metode yang digunakan untuk menangani data tidak valid dari tipe Tensor, Vector, atau MTable jika data dari tipe tersebut gagal diuraikan. Tipe data ini didefinisikan oleh kerangka algoritma Alink dan memiliki format penguraian tetap. Nilai valid:

  • ERROR: Sistem berhenti membaca file CSV.

  • SKIP: Sistem melewati data tidak valid.

ignoreFirstLine

Menentukan apakah akan melewati data di baris pertama. Anda harus mengaktifkan sakelar ini jika baris pertama file CSV yang ingin Anda baca adalah header tabel.

lenient

Metode yang digunakan untuk menangani ketidaksesuaian ketika skema catatan data masukan tidak sesuai dengan informasi yang ditentukan oleh parameter Schema. Masalah ketidaksesuaian mungkin terletak pada tipe data atau jumlah kolom.

  • Jika lenient diaktifkan dan data di baris gagal diuraikan, data di baris tersebut dibuang.

  • Jika lenient dimatikan dan data di baris gagal diuraikan, sistem berhenti membaca file CSV dan menampilkan baris kesalahan.

quoteString

Karakter kutipan. Secara default, tanda kutip ganda (") digunakan.

rowDelimiter

Pemisah baris. Secara default, line feed (\n) digunakan.

skipBlankLine

Menentukan apakah akan melewati baris kosong.

Execution Tuning

Number of Workers

Jumlah node. Nilainya harus bilangan bulat positif. Parameter ini harus digunakan bersama dengan parameter Memory per worker. Nilai valid: 1 hingga 9999.

Memory per worker

Ukuran memori setiap node. Unit: MB. Nilainya harus bilangan bulat positif. Nilai valid: 1024 hingga 65536.

Metode 2: Komponen PyAlink Script

Tabel berikut menjelaskan parameter yang harus Anda konfigurasikan saat menggunakan komponen PyAlink Script untuk mengonfigurasi komponen Baca File CSV. Untuk informasi lebih lanjut tentang komponen PyAlink Script, lihat PyAlink Script.

Parameter

Diperlukan

Deskripsi

Nilai default

schemaStr

Ya

Tipe data file CSV. Tentukan parameter ini dalam format colname0 coltype0[, colname1 coltype1[, ...]]. Contoh: f0 string,f1 bigint,f2 double.

Tidak ada

filePath

Tidak

Path file CSV.

Tidak ada

fieldDelimiter

Tidak

Pemisah bidang.

Koma (,)

handleInvalidMethod

Tidak

Metode yang digunakan untuk menangani data tidak valid dari tipe Tensor, Vector, atau MTable. Data dari tipe ini gagal diuraikan. Tipe data ini didefinisikan oleh kerangka algoritma Alink dan memiliki format penguraian tetap. Nilai valid:

  • ERROR: Sistem berhenti membaca file CSV.

  • SKIP: Sistem melewati data tidak valid.

ERROR

ignoreFirstLine

Tidak

Menentukan apakah akan melewati data di baris pertama. Anda harus menetapkan parameter ini ke True jika baris pertama file CSV yang ingin Anda baca adalah header tabel.

False

lenient

Tidak

Metode yang digunakan untuk menangani ketidaksesuaian ketika skema catatan data masukan tidak sesuai dengan informasi yang ditentukan oleh parameter Schema. Masalah ketidaksesuaian mungkin terletak pada tipe data atau jumlah kolom.

  • true: Data di baris dibuang.

  • false: Pesan kesalahan dikembalikan.

False

quoteString

Tidak

Karakter kutipan.

Tanda kutip ganda (")

rowDelimiter

Tidak

Pemisah baris.

Line feed (\n)

skipBlankLine

Tidak

Menentukan apakah akan melewati baris kosong.

True

Contoh skrip PyAlink:

filePath = 'https://alink-test-data.oss-cn-hangzhou.aliyuncs.com/iris.csv'
schema = 'sepal_length double, sepal_width double, petal_length double, petal_width double, category string'
csvSource = CsvSourceBatchOp()\
    .setFilePath(filePath)\
    .setSchemaStr(schema)\
    .setFieldDelimiter(",")
BatchOperator.collectToDataframe(csvSource)