AutofeExperimentConfiguration - Platform For AI

名稱	類型	描述	樣本值
	object	AutoFE 實驗配置資訊
oss_config	object	oss 配置
oss_bucket	string	oss_bucket 名稱	autofe-service
oss_access_id	string	oss access id	Ltx***yw
oss_access_key	string	oss access key	Tc***Mu
oss_role_arn	string	PAIAutoML 服務關聯角色。填寫該值後，可不提供 ak/sk。	acs:ram::xxx:role/aliyunserviceroleforpaiautoml
oss_endpoint	string	oss endpoint	oss-cn-beijing.aliyuncs.com
odps_config	object	MaxCompute 配置
odps_region_id	string	odps 地區 id	cn-beijing
odps_project_name	string	odps 專案名稱	pai_rec
odps_endpoint	string	odps endpoint	http://service.cn-beijing.maxcompute.aliyun.com/api
odps_access_id	string	odps access id	Ltx***yw
odps_access_key	string	odps access key	Tc***Mu
odps_role_arn	string	PAIAutoML 服務關聯角色。填寫該值後，可不提供 ak/sk。	acs:ram::xxx:role/aliyunserviceroleforpaiautoml
yml_config	object	AutoFE 運行時配置
workspace_name	string	工作空間名稱	my_workspace_1
output_config_oss_dir	string	運行任務時動態配置的輸出路徑	oss://bucket_name/folder/
label	string	輸入資料的 label 列名稱	label列名稱，如is_click
data_source	string	資料來源名稱	MaxCompute表名，如ad_click_table_name
data_type	string	資料類型	odps / oss
aggregate_only	string	是否只進行統計類的特徵加工及選擇。如選擇 False，則同時會進行四則運算類的特徵加工及選擇。	true / false
reuse_results	string	是否重用中間結果	false
workers	string	自動特徵工程中需要使用的 worker 數量	10
memory	string	特徵工程中每個 Worker 記憶體使用量量	4000
cpu	string	特徵工程中每個 Worker cpu 使用量	2
debug_mode	string	是否啟用 debug 模式	false
action	string	實驗進行的操作，可選值包括：`fs_train`，`train`， `analyze`， `pipeline`， `selection`， `transform`。	fs_train
sample_size	string	當輸入資料量過大時，需要提供採樣資料量	e.g., 5000000，表示對資料採樣5000000行，作為自動特徵工程的輸入。
analyze_exp_id	string	特徵分析實驗的 id。該 id 僅在已經進行過資料分析的情境下使用，如果是首次進行自動特徵工程，不需要提供該參數。	特徵分析實驗id，如sRudaBC
data_partition	string	資料分區	ds=20230720
exclude_columns	string	需要忽略的列名稱。有某些 id 列，某些不需要參與特徵工程的列。	c1,c2,c3
feature_selection	string	是否利用特徵選取結果做特徵分析	true
selection_exp_id	string	特徵選取實驗 id	特徵選取實驗id，如sRudaBC
pipeline_exp_id	string	pipeline 訓練實驗 id	pipeline訓練實驗id，如sRudaBC
sample_ratio	string	當輸入資料量過大時，可以提供採樣比例。	0~1之間的小數，採樣比例。sample_size / sample_ratio 提供一個即可。
filter_thresh	string	低頻特徵過濾閾值	10
skip_select	string	輸出特徵是否包含全部原始特徵	true
iv_thresh	string	在特徵選取過程中使用了 Information value 作為，特徵過濾依據。iv_thresh 為 information value 的閾值，低於該值，則特徵會標過濾掉。推薦使用 0.02。	0.02

object

AutoFE 實驗配置資訊

oss_config

object

oss 配置

oss_bucket

string

oss_bucket 名稱

autofe-service

oss_access_id

string

oss access id

Ltx***yw

oss_access_key

string

oss access key

Tc***Mu

oss_role_arn

string

PAIAutoML 服務關聯角色。填寫該值後，可不提供 ak/sk。

acs:ram::xxx:role/aliyunserviceroleforpaiautoml

oss_endpoint

string

oss endpoint

oss-cn-beijing.aliyuncs.com

odps_config

object

MaxCompute 配置

odps_region_id

string

odps 地區 id

cn-beijing

odps_project_name

string

odps 專案名稱

pai_rec

odps_endpoint

string

odps endpoint

http://service.cn-beijing.maxcompute.aliyun.com/api

odps_access_id

string

odps access id

Ltx***yw

odps_access_key

string

odps access key

Tc***Mu

odps_role_arn

string

PAIAutoML 服務關聯角色。填寫該值後，可不提供 ak/sk。

acs:ram::xxx:role/aliyunserviceroleforpaiautoml

yml_config

object

AutoFE 運行時配置

workspace_name

string

工作空間名稱

my_workspace_1

output_config_oss_dir

string

運行任務時動態配置的輸出路徑

oss://bucket_name/folder/

label

string

輸入資料的 label 列名稱

label列名稱，如is_click

data_source

string

資料來源名稱

MaxCompute表名，如ad_click_table_name

data_type

string

資料類型

odps / oss

aggregate_only

string

是否只進行統計類的特徵加工及選擇。如選擇 False，則同時會進行四則運算類的特徵加工及選擇。

true / false

reuse_results

string

是否重用中間結果

false

workers

string

自動特徵工程中需要使用的 worker 數量

10

memory

string

特徵工程中每個 Worker 記憶體使用量量

4000

cpu

string

特徵工程中每個 Worker cpu 使用量

2

debug_mode

string

是否啟用 debug 模式

false

action

string

實驗進行的操作，可選值包括：fs_train，train， analyze， pipeline， selection， transform。

fs_train

sample_size

string

當輸入資料量過大時，需要提供採樣資料量

e.g., 5000000，表示對資料採樣5000000行，作為自動特徵工程的輸入。

analyze_exp_id

string

特徵分析實驗的 id。該 id 僅在已經進行過資料分析的情境下使用，如果是首次進行自動特徵工程，不需要提供該參數。

特徵分析實驗id，如sRudaBC

data_partition

string

資料分區

ds=20230720

exclude_columns

string

需要忽略的列名稱。有某些 id 列，某些不需要參與特徵工程的列。

c1,c2,c3

feature_selection

string

是否利用特徵選取結果做特徵分析

true

selection_exp_id

string

特徵選取實驗 id

特徵選取實驗id，如sRudaBC

pipeline_exp_id

string

pipeline 訓練實驗 id

pipeline訓練實驗id，如sRudaBC

sample_ratio

string

當輸入資料量過大時，可以提供採樣比例。

0~1之間的小數，採樣比例。sample_size / sample_ratio 提供一個即可。

filter_thresh

string

低頻特徵過濾閾值

10

skip_select

string

輸出特徵是否包含全部原始特徵

true

iv_thresh

string

在特徵選取過程中使用了 Information value 作為，特徵過濾依據。iv_thresh 為 information value 的閾值，低於該值，則特徵會標過濾掉。推薦使用 0.02。

0.02