增加序號列是一種用於資料表處理的演算法組件,旨在為資料表添加一個序號列。該組件在資料表的第一列插入一個唯一的ID列,為每一行分配一個序號,以便於資料的標識和管理。
演算法說明
支援1000000000*1023的演算法規模。
配置組件
方式一:可視化方式
在Designer工作流程頁面添加增加序號列組件,並在介面右側配置相關參數:
參數類型 | 參數 | 描述 |
參數設定 | 預設全選 | 預設全選,多餘列不影響預測結果。 |
序號 | 預設為append_id。 | |
執行調優 | 計算核心數 | 核心數量。 |
每個核記憶體數 | 單個核心使用的記憶體數,單位為MB,取值範圍為(1, 65536)。 |
方式二:PAI命令方式
使用PAI命令配置增加序號列組件參數。您可以使用SQL指令碼組件進行PAI命令調用,詳情請參見SQL指令碼。
PAI -name AppendId
-project algo_public
-DinputTableName=maple_test_appendid_basic_input
-DoutputTableName=maple_test_appendid_basic_output;參數 | 是否必選 | 預設值 | 參數描述 |
inputTableName | 是 | 無 | 輸入表的表名。 |
selectedColNames | 否 | 所有列 | 輸入表中,參與訓練的列。列名以英文逗號(,)分隔,支援INT和DOUBLE類型。如果輸入為稀疏格式,則支援STRING類型的列。 |
inputTablePartitions | 否 | 所有分區 | 輸入表中,參與訓練的分區。支援以下格式:
說明 如果指定多個分區,則使用英文逗號(,)分隔。 |
outputTableName | 是 | 無 | 輸出結果表。 |
IDColName | 否 | append_id | ID列列名。 |
lifecycle | 否 | 無 | 輸出表生命週期。 |
coreNum | 否 | 系統自動分配 | 核心數量。 |
memSizePerCore | 否 | 系統自動分配 | 單個核心使用的記憶體數,單位為MB,取值範圍為(1, 65536)。 |
樣本
PAI -name AppendId
-project algo_public
-DinputTableName=maple_test_appendid_basic_input
-DoutputTableName=maple_test_appendid_basic_output;資料產生
col0
col1
col2
col3
col4
10
0.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
11
1.0
aaaa
Thu Oct 01 00:00:00 CST 2015
false
12
2.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
13
3.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
14
4.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
輸出表
append_id
col0
col1
col2
col3
col4
0
10
0.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
1
11
1.0
aaaa
Thu Oct 01 00:00:00 CST 2015
false
2
12
2.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
3
13
3.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
4
14
4.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true