配置增加序號列組件為資料表添加序號列-人工智慧平台 PAI-阿里雲

增加序號列是一種用於資料表處理的演算法組件，旨在為資料表添加一個序號列。該組件在資料表的第一列插入一個唯一的ID列，為每一行分配一個序號，以便於資料的標識和管理。

演算法說明

支援1000000000*1023的演算法規模。

配置組件

方式一：可視化方式

在Designer工作流程頁面添加增加序號列組件，並在介面右側配置相關參數：

參數類型	參數	描述
參數設定	預設全選	預設全選，多餘列不影響預測結果。
參數設定	序號	預設為append_id。
執行調優	計算核心數	核心數量。
執行調優	每個核記憶體數	單個核心使用的記憶體數，單位為MB，取值範圍為(1, 65536)。

方式二：PAI命令方式

使用PAI命令配置增加序號列組件參數。您可以使用SQL指令碼組件進行PAI命令調用，詳情請參見SQL指令碼。

PAI -name AppendId
    -project algo_public
    -DinputTableName=maple_test_appendid_basic_input
    -DoutputTableName=maple_test_appendid_basic_output;

參數	是否必選	預設值	參數描述
inputTableName	是	無	輸入表的表名。
selectedColNames	否	所有列	輸入表中，參與訓練的列。列名以英文逗號（,）分隔，支援INT和DOUBLE類型。如果輸入為稀疏格式，則支援STRING類型的列。
inputTablePartitions	否	所有分區	輸入表中，參與訓練的分區。支援以下格式： Partition_name=value name1=value1/name2=value2：多級格式說明如果指定多個分區，則使用英文逗號（,）分隔。
outputTableName	是	無	輸出結果表。
IDColName	否	append_id	ID列列名。
lifecycle	否	無	輸出表生命週期。
coreNum	否	系統自動分配	核心數量。
memSizePerCore	否	系統自動分配	單個核心使用的記憶體數，單位為MB，取值範圍為(1, 65536)。

樣本

PAI -name AppendId
    -project algo_public
    -DinputTableName=maple_test_appendid_basic_input
    -DoutputTableName=maple_test_appendid_basic_output;

資料產生

col0	col1	col2	col3	col4
10	0.0	aaaa	Thu Oct 01 00:00:00 CST 2015	true
11	1.0	aaaa	Thu Oct 01 00:00:00 CST 2015	false
12	2.0	aaaa	Thu Oct 01 00:00:00 CST 2015	true
13	3.0	aaaa	Thu Oct 01 00:00:00 CST 2015	true
14	4.0	aaaa	Thu Oct 01 00:00:00 CST 2015	true

輸出表

append_id	col0	col1	col2	col3	col4
0	10	0.0	aaaa	Thu Oct 01 00:00:00 CST 2015	true
1	11	1.0	aaaa	Thu Oct 01 00:00:00 CST 2015	false
2	12	2.0	aaaa	Thu Oct 01 00:00:00 CST 2015	true
3	13	3.0	aaaa	Thu Oct 01 00:00:00 CST 2015	true
4	14	4.0	aaaa	Thu Oct 01 00:00:00 CST 2015	true