すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:パーセンタイル

最終更新日:Jun 12, 2025

パーセンタイルは、データのパーセンタイルを計算するために統計で使用されるメジャーです。 データセットが最小から最大に順序付けられ、100 個のグループに分割されている場合、パーセンタイルは、指定された割合のデータがその値未満になる値を示します。

背景情報

  • システムは、BIGINT、DOUBLE、または DATETIME 型のデータのパーセンタイルのみを計算できます。

  • パーセンタイルの計算時には、空の列はスキップされます。 すべての列が空の場合、エラーが返されます。

  • colName パラメーターには、複数のデータ列を指定できます。

コンポーネントの設定

次のいずれかの方法を使用して、Percentile コンポーネントを設定できます。

方法 1:パイプラインページでコンポーネントを設定する

PAI(AI 向け機械学習プラットフォーム)の Machine Learning Designer のパイプラインページで、Percentile コンポーネントのパラメーターを設定できます。 Machine Learning Designer は、以前は Machine Learning Studio と呼ばれていました。次の表にパラメーターを示します。

タブ

パラメーター

説明

パラメーター設定

入力列

[列の選択] をクリックして入力列を選択します。

チューニング

コア数

コア数。

コアあたりのメモリサイズ

各コアのメモリサイズ。

方法 2:PAI コマンドを使用する

PAI コマンドを使用して、コンポーネントパラメーターを設定します。 SQL スクリプト コンポーネントを使用して、PAI コマンドを呼び出すことができます。 詳細については、「SQL スクリプト」をご参照ください。

PAI -name Percentile
     -project algo_public
     -DinputTableName=maple_test_percentile_3col_input
     -DcolName=col0,col1,col2 -DoutputTableName=maple_test_percentile_3col_output;

パラメーター

説明

必須

inputTableName

入力テーブルの名前。

はい

outputTableName

出力テーブルの名前。

はい

colName

計算対象の列の名前。 デフォルトでは、すべての列が選択されます。

説明

複数の列の名前はカンマ (,) で区切ります。

いいえ

inputPartitions

入力テーブルのパーティション。 デフォルトでは、すべてのパーティションが選択されます。

  • partition_name=value の形式で 1 つのパーティションを指定します。

  • name1=value1,name2=value2 の形式で複数のパーティションを指定します。

    説明

    複数のパーティションはカンマ (,) で区切ります。

  • name1=value1/name2=value2 の形式で複数レベルのパーティションを指定します。

いいえ

predictInputTableName

予測テーブルの名前。 このパラメーターを設定すると、予測結果を生成できます。

いいえ

predictInputTablePartitions

入力予測テーブルのパーティション。

いいえ

predictSelectedColNames

予測テーブルから選択された列の名前。 デフォルトでは、予測テーブルのすべての列が選択されます。 列名は、トレーニングテーブルの列名と同じでなければなりません。

いいえ

predictSelectedOriginalColNames

データを保持する列の名前。 デフォルトでは、すべての列が選択されます。 複数の列の名前はカンマ (,) で区切ります。

いいえ

predictOutputTableName

出力予測テーブルの名前。 このパラメーターは、predictInputTableName パラメーターと共に使用されます。

いいえ

lifecycle

出力テーブルのライフサイクル。 デフォルトでは、出力テーブルにはライフサイクルがありません。

説明

値は正の整数でなければなりません。

いいえ

coreNum

コア数。 有効な値:[1,9999]。 このパラメーターは、memSizePerCore パラメーターと共に使用されます。

説明

値は正の整数でなければなりません。

いいえ

memSizePerCore

各コアのメモリサイズ。 単位:MB。 有効な値:[1024,64 × 1024]。

説明

値は正の整数でなければなりません。

いいえ

  • 入力テーブル

    col0:double (1000 行)

    col1:bigint (100 行)

    col2:bigint (300 行)

    962

    88

    1974年 10月 15日 00:26:40 CST

    218

    99

    1973年 1月 4日 20:53:20 CST

    565

    44

    1974年 3月 9日 02:40:00 CST

    314

    68

    1975年 8月 11日 22:40:00 CST

    583

    13

    1975年 8月 23日 12:26:40 CST

    615

    87

    1971年 5月 25日 14:13:20 CST

    70

    53

    1979年 3月 23日 09:20:00 CST

    929

    63

    1972年 7月 3日 16:26:40 CST

    249

    48

    1973年 3月 15日 07:33:20 CST

    428

    62

    1971年 3月 17日 03:33:20 CST

    119

    1

    1975年 6月 26日 15:33:20 CST

    756

    27

    1978年 1月 30日 17:20:00 CST

    490

    75

    1974年 12月 11日 21:20:00 CST

    957

    12

    1970年 7月 5日 12:26:40 CST

    80

    22

    1972年 10月 4日 06:40:00 CST

    681

    57

    1971年 11月 3日 15:06:40 CST

    13

    95

    1970年 9月 12日 23:06:40 CST

  • PAI コマンド

     PAI -name Percentile
         -project algo_public
         -DinputTableName=maple_test_percentile_3col_input
         -DcolName=col0,col1,col2 -DoutputTableName=maple_test_percentile_3col_output;
  • 出力テーブル

    quantile:bigint

    col0:double

    col1:bigint

    col2:datetime

    0

    0.0

    0

    1970年 1月 1日 木曜日 午前 8時 00分 00秒 (CST)

    1

    9.0

    0

    1970年 1月 24日土曜日 11:33:20 CST

    2

    19.0

    1

    1970年 2月 28日 土曜日 04:53:20 CST

    3

    29.0

    2

    1970年 4月 3日 金曜日 22:13:20 CST

    4

    39.0

    3

    1970年5月8日金曜日 15:33:20 CST

    5

    49.0

    4

    1970年 6月 12日 金曜日 午前 8時 53分 20秒 (CST)

    6

    59.0

    5

    1970年 7月 17日 金曜日 02:13:20 CST

    7

    69.0

    6

    1970年 8月 20日 木曜日 19:33:20 CST

    8

    79.0

    7

    1970年 9月 24日 木曜日 12:53:20 CST

    9

    89.0

    8

    1970年 10月 29日 木曜日 06:13:20 CST

    10

    99.0

    9

    1970年 12月 2日 水曜日 23:33:20 CST

    11

    109.0

    10

    1971年 1月 6日 水曜日 16:53:20 CST

    12

    119.0

    11

    1971年 2月 10日 水曜日 10:13:20 CST

    13

    129.0

    12

    1971年 3月 17日 水曜日 03:33:20 CST

    14

    139.0

    13

    1971年 4月 20日 火曜日 20:53:20 CST

    15

    149.0

    14

    1971年 5月 25日 火曜日 14:13:20 CST

    16

    159.0

    15

    1971年6月29日 火曜日 07:33:20 CST

    ...

    ...

    ...

    ...

    84

    839.0

    83

    1977年 12月 15日(木) 10:13:20 CST

    85

    849.0

    84

    1978年1月19日(木)午前3時33分20秒(中国標準時)

    86

    859.0

    85

    1978年 2月 22日 水曜日 20:53:20 CST

    87

    869.0

    86

    1978年3月29日 水曜日 14:13:20 CST

    88

    879.0

    87

    1978年 5月 3日 水曜日 7時33分20秒 CST

    89

    889.0

    88

    1978年6月7日水曜日 00:53:20 CST

    90

    899.0

    89

    1978年 7月 11日 火曜日 18:13:20 CST

    91

    909.0

    90

    1978年 8月 15日 火曜日 11:33:20 CST

    92

    919.0

    91

    1978年9月19日 火曜日 04:53:20 CST

    93

    929.0

    92

    1978年 10月 23日 月曜日 22:13:20 CST

    94

    939.0

    93

    1978年 11月 27日 15:33:20 CST

    95

    949.0

    94

    1979年1月1日 月曜日 午前8時53分20秒 (中国標準時)

    96

    959.0

    95

    1979年 2月 5日 月曜日 02:13:20 CST

    97

    969.0

    96

    1979年 3月 11日 日曜日 19:33:20 CST

    98

    979.0

    97

    1979年 4月 15日 日曜日 12:53:20 CST

    99

    989.0

    98

    1979年 5月 20日 日曜日 06:13:20 CST

    100

    999.0

    99

    1979年 6月 23日 23:33:20 CST