Gunakan MTable Expander untuk memperluas MTable menjadi tabel, sehingga mempermudah pemrosesan dan demonstrasi data.
Sumber daya komputasi yang didukung
MaxCompute
Apache Flink
Deep Learning Containers (DLC)
Konfigurasikan komponen di konsol Machine Learning Platform for AI (PAI)
Port Input
Port input (kiri ke kanan)
Tipe data
Komponen hulu yang direkomendasikan
Diperlukan
data
Tidak ada
Ya
Parameter Komponen
Kategori | Parameter | Nilai yang diperlukan | |
Field Setting | selectedCol | Nama kolom yang dihitung. Nilai parameter ini adalah STRING dalam format MTABLE. | |
reservedCols | Kolom yang akan disimpan oleh algoritma. | ||
Parameters Setting | Schema | Nama dan tipe kolom yang diperluas. Formatnya adalah colname coltype[, colname2, coltype2[, ...]], seperti f0 string, f1 bigint, f2 double. | |
handleInvalidMethod | Metode yang digunakan untuk menangani nilai tidak valid. Nilai yang valid:
| ||
Execution Tuning | Choose Running Mode | MaxCompute | Gunakan sumber daya komputasi MaxCompute atau Flink. Informasi lebih lanjut tentang cara mengonfigurasi jumlah pekerja dan memori mereka, lihat Lampiran: Cara memperkirakan penggunaan sumber daya. |
Flink | |||
DLC | Gunakan sumber daya komputasi DLC. Konfigurasikan spesifikasi berdasarkan prompt. | ||
Konfigurasikan komponen dengan coding
Salin kode berikut ke editor kode komponen PyAlink Script untuk mengaktifkan fungsi komponen PyAlink Script seperti MTable Expander.
import numpy as np
import pandas as pd
from pyalink.alink import *
df_data = pd.DataFrame([
["a1", "11L", 2.2],
["a1", "12L", 2.0],
["a2", "11L", 2.0],
["a2", "12L", 2.0],
["a3", "12L", 2.0],
["a3", "13L", 2.0],
["a4", "13L", 2.0],
["a4", "14L", 2.0],
["a5", "14L", 2.0],
["a5", "15L", 2.0],
["a6", "15L", 2.0],
["a6", "16L", 2.0]
])
input = BatchOperator.fromDataframe(df_data, schemaStr='id string, f0 string, f1 double')
zip = GroupByBatchOp()\
.setGroupByPredicate("id")\
.setSelectClause("id, mtable_agg(f0, f1) as m_table_col")
flatten = FlattenMTableBatchOp()\
.setReservedCols(["id"])\
.setSelectedCol("m_table_col")\
.setSchemaStr('f0 string, f1 int')
zip.linkFrom(input).link(flatten).print()