將多列資料轉換為向量,最終產生的資料只包含一列。
使用限制
支援的計算引擎為MaxCompute和Flink。
演算法簡介
將資料格式從列資料轉成Vector,資料格式必須為數實值型別。
可視化配置參數
【輸入樁配置】
輸入樁(從左至右) | 限制資料類型 | 建議上遊組件 | 是否必選 |
資料 | 數實值型別 | 是 |
【右側參數表單】
頁簽 | 參數 | 描述 |
欄位設定 | 演算法保留列名 | 組件輸出中需要保留的列名,預設保留所有列。 |
選中的列名數組 | 需要轉換為向量的資料列名,只支援數實值型別。 | |
參數設定 | 向量列名 | 新產生向量列的列名。 |
解析異常處理策略 | 取值如下:
| |
向量長度 | 向量長度,預設-1。 | |
執行調優 | 節點個數 | 與單個節點記憶體大小參數配對使用。取值為[1, 9999]的正整數。 |
單個節點記憶體大小,單位M | 取值範圍為1024 MB~64*1024 MB。 |
【輸出樁說明】
輸出樁(從左至右) | 儲存位置 | 下遊建議組件 | 模型類型 |
輸出結果 | 不需要配置 | 無 | 無 |
具體樣本
您可以將以下代碼複製到PyAlink指令碼組件中,使PyAlink指令碼組件實現與該組件相同的功能。
from pyalink.alink import *
def main(sources, sinks, parameter):
data = sources[0]
op = ColumnsToVectorBatchOp()\
.setSelectedCols(["f0", "f1"])\
.setReservedCols(["row"])\
.setVectorCol("vec")\
.linkFrom(data)
result = op.linkFrom(data)
result.link(sinks[0])
BatchOperator.execute()