パーセンタイルは、データのパーセンタイルを計算するために統計で使用されるメジャーです。 データセットが最小から最大に順序付けられ、100 個のグループに分割されている場合、パーセンタイルは、指定された割合のデータがその値未満になる値を示します。
背景情報
システムは、BIGINT、DOUBLE、または DATETIME 型のデータのパーセンタイルのみを計算できます。
パーセンタイルの計算時には、空の列はスキップされます。 すべての列が空の場合、エラーが返されます。
colName パラメーターには、複数のデータ列を指定できます。
コンポーネントの設定
次のいずれかの方法を使用して、Percentile コンポーネントを設定できます。
方法 1:パイプラインページでコンポーネントを設定する
PAI(AI 向け機械学習プラットフォーム)の Machine Learning Designer のパイプラインページで、Percentile コンポーネントのパラメーターを設定できます。 Machine Learning Designer は、以前は Machine Learning Studio と呼ばれていました。次の表にパラメーターを示します。
タブ | パラメーター | 説明 |
パラメーター設定 | 入力列 | [列の選択] をクリックして入力列を選択します。 |
チューニング | コア数 | コア数。 |
コアあたりのメモリサイズ | 各コアのメモリサイズ。 |
方法 2:PAI コマンドを使用する
PAI コマンドを使用して、コンポーネントパラメーターを設定します。 SQL スクリプト コンポーネントを使用して、PAI コマンドを呼び出すことができます。 詳細については、「SQL スクリプト」をご参照ください。
PAI -name Percentile
-project algo_public
-DinputTableName=maple_test_percentile_3col_input
-DcolName=col0,col1,col2 -DoutputTableName=maple_test_percentile_3col_output;パラメーター | 説明 | 必須 |
inputTableName | 入力テーブルの名前。 | はい |
outputTableName | 出力テーブルの名前。 | はい |
colName | 計算対象の列の名前。 デフォルトでは、すべての列が選択されます。 説明 複数の列の名前はカンマ (,) で区切ります。 | いいえ |
inputPartitions | 入力テーブルのパーティション。 デフォルトでは、すべてのパーティションが選択されます。
| いいえ |
predictInputTableName | 予測テーブルの名前。 このパラメーターを設定すると、予測結果を生成できます。 | いいえ |
predictInputTablePartitions | 入力予測テーブルのパーティション。 | いいえ |
predictSelectedColNames | 予測テーブルから選択された列の名前。 デフォルトでは、予測テーブルのすべての列が選択されます。 列名は、トレーニングテーブルの列名と同じでなければなりません。 | いいえ |
predictSelectedOriginalColNames | データを保持する列の名前。 デフォルトでは、すべての列が選択されます。 複数の列の名前はカンマ (,) で区切ります。 | いいえ |
predictOutputTableName | 出力予測テーブルの名前。 このパラメーターは、predictInputTableName パラメーターと共に使用されます。 | いいえ |
lifecycle | 出力テーブルのライフサイクル。 デフォルトでは、出力テーブルにはライフサイクルがありません。 説明 値は正の整数でなければなりません。 | いいえ |
coreNum | コア数。 有効な値:[1,9999]。 このパラメーターは、memSizePerCore パラメーターと共に使用されます。 説明 値は正の整数でなければなりません。 | いいえ |
memSizePerCore | 各コアのメモリサイズ。 単位:MB。 有効な値:[1024,64 × 1024]。 説明 値は正の整数でなければなりません。 | いいえ |
例
入力テーブル
col0:double (1000 行)
col1:bigint (100 行)
col2:bigint (300 行)
962
88
1974年 10月 15日 00:26:40 CST
218
99
1973年 1月 4日 20:53:20 CST
565
44
1974年 3月 9日 02:40:00 CST
314
68
1975年 8月 11日 22:40:00 CST
583
13
1975年 8月 23日 12:26:40 CST
615
87
1971年 5月 25日 14:13:20 CST
70
53
1979年 3月 23日 09:20:00 CST
929
63
1972年 7月 3日 16:26:40 CST
249
48
1973年 3月 15日 07:33:20 CST
428
62
1971年 3月 17日 03:33:20 CST
119
1
1975年 6月 26日 15:33:20 CST
756
27
1978年 1月 30日 17:20:00 CST
490
75
1974年 12月 11日 21:20:00 CST
957
12
1970年 7月 5日 12:26:40 CST
80
22
1972年 10月 4日 06:40:00 CST
681
57
1971年 11月 3日 15:06:40 CST
13
95
1970年 9月 12日 23:06:40 CST
PAI コマンド
PAI -name Percentile -project algo_public -DinputTableName=maple_test_percentile_3col_input -DcolName=col0,col1,col2 -DoutputTableName=maple_test_percentile_3col_output;出力テーブル
quantile:bigint
col0:double
col1:bigint
col2:datetime
0
0.0
0
1970年 1月 1日 木曜日 午前 8時 00分 00秒 (CST)
1
9.0
0
1970年 1月 24日土曜日 11:33:20 CST
2
19.0
1
1970年 2月 28日 土曜日 04:53:20 CST
3
29.0
2
1970年 4月 3日 金曜日 22:13:20 CST
4
39.0
3
1970年5月8日金曜日 15:33:20 CST
5
49.0
4
1970年 6月 12日 金曜日 午前 8時 53分 20秒 (CST)
6
59.0
5
1970年 7月 17日 金曜日 02:13:20 CST
7
69.0
6
1970年 8月 20日 木曜日 19:33:20 CST
8
79.0
7
1970年 9月 24日 木曜日 12:53:20 CST
9
89.0
8
1970年 10月 29日 木曜日 06:13:20 CST
10
99.0
9
1970年 12月 2日 水曜日 23:33:20 CST
11
109.0
10
1971年 1月 6日 水曜日 16:53:20 CST
12
119.0
11
1971年 2月 10日 水曜日 10:13:20 CST
13
129.0
12
1971年 3月 17日 水曜日 03:33:20 CST
14
139.0
13
1971年 4月 20日 火曜日 20:53:20 CST
15
149.0
14
1971年 5月 25日 火曜日 14:13:20 CST
16
159.0
15
1971年6月29日 火曜日 07:33:20 CST
...
...
...
...
84
839.0
83
1977年 12月 15日(木) 10:13:20 CST
85
849.0
84
1978年1月19日(木)午前3時33分20秒(中国標準時)
86
859.0
85
1978年 2月 22日 水曜日 20:53:20 CST
87
869.0
86
1978年3月29日 水曜日 14:13:20 CST
88
879.0
87
1978年 5月 3日 水曜日 7時33分20秒 CST
89
889.0
88
1978年6月7日水曜日 00:53:20 CST
90
899.0
89
1978年 7月 11日 火曜日 18:13:20 CST
91
909.0
90
1978年 8月 15日 火曜日 11:33:20 CST
92
919.0
91
1978年9月19日 火曜日 04:53:20 CST
93
929.0
92
1978年 10月 23日 月曜日 22:13:20 CST
94
939.0
93
1978年 11月 27日 15:33:20 CST
95
949.0
94
1979年1月1日 月曜日 午前8時53分20秒 (中国標準時)
96
959.0
95
1979年 2月 5日 月曜日 02:13:20 CST
97
969.0
96
1979年 3月 11日 日曜日 19:33:20 CST
98
979.0
97
1979年 4月 15日 日曜日 12:53:20 CST
99
989.0
98
1979年 5月 20日 日曜日 06:13:20 CST
100
999.0
99
1979年 6月 23日 23:33:20 CST