Whole Table Statisticsコンポーネントは、データセット全体に対する基本的な統計分析の方法です。 平均値、中央値、標準偏差、最小値、最大値、および欠落値の数などの統計メトリックを計算して要約します。 このコンポーネントは、データの全体的な特性と品質をすばやく評価するのに役立ちます。 これは、さらなるデータクレンジング、機能エンジニアリング、およびモデル開発のための基本情報を提供します。
コンポーネントの設定
方法1: パイプラインページでコンポーネントを設定する
Machine Learning Designerのパイプラインの詳細ページで、テーブル全体の統計コンポーネントをパイプラインに追加し、次の表に示すパラメーターを設定します。
タブ | パラメーター | 説明 |
フィールドの設定 | 入力列 (デフォルトですべての列) | [フィールドの選択] をクリックして、統計分析の入力列を選択します。 デフォルトでは、すべての列が選択されています。 |
チューニング | コア | コアの数。 |
メモリサイズ | 各コアのメモリサイズ。 |
方法2: PAIコマンドを使用する
PAIコマンドを使用してコンポーネントパラメータを設定します。 SQL Scriptコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「シナリオ4: SQLスクリプトコンポーネント内でPAIコマンドを実行する」をご参照ください。
PAI -name stat_summary
-project algo_public
-DinputTableName=test_data
-DoutputTableName=test_summary_out
-DinputTablePartitions="ds='20160101'"
-DselectColNames=col0,col1,col2
-Dlifecycle=1パラメーター | 必須 / 任意 | 説明 |
inputTableName | 対象 | 入力テーブルの名前。 |
outputTableName | 対象 | 出力テーブルの名前。 |
inputTablePartitions | 非対象 | 入力テーブルのパーティション。 デフォルトでは、すべてのパーティションが選択されています。 |
selectColNames | 非対象 | 統計用に選択されている列の名前。 |
ライフサイクルの設定 (Set lifecycle) | 非対象 | 出力テーブルのライフサイクル。 デフォルトでは、出力テーブルにはライフサイクルがありません。 説明 値は正の整数である必要があります。 |
coreNum | 非対象 | コアの数。 説明 値は正の整数である必要があります。 |
memSizePerCore | 非対象 | 各コアのメモリサイズ。 単位:MB。 有効値: [1024,64x1024] 。 説明 値は正の整数である必要があります。 |
例:
パイプラインの詳細ページで、SQL Scriptコンポーネントをパイプラインに追加し、そのコンポーネントをクリックします。 [パラメーター設定] タブで、[スクリプトモードの使用] および [テーブル作成ステートメントを追加するかどうか] をオフにし、[SQLスクリプト] エディターに次のSQLステートメントを入力します。
drop table if exists summary_test_input; create table summary_test_input as select * from ( select 'a' as col1, 1 as col2, 0.001 as col3 union all select 'b' as col1, 2 as col2, 100.01 as col3 ) tmp;SQL Scriptコンポーネントをパイプラインに追加し、そのコンポーネントをクリックします。 [パラメーター設定] タブで、[スクリプトモードの使用] と [テーブル作成ステートメントを追加するかどうか] をオフにし、[SQLスクリプト] エディターに次のSQLステートメントを入力します。 このコンポーネントをステップ1で追加したコンポーネントと接続します。
drop table if exists ${o1}; PAI -name stat_summary -project algo_public -DinputTableName=summary_test_input -DoutputTableName=${o1} -DselectColNames=col1,col2,col3 -Dlifecycle=1;キャンバスの左上隅で、
をクリックしてパイプラインを実行します。パイプラインの実行後、手順2で追加したコンポーネントを右クリックし、[データの表示] をクリックして、[SQLスクリプト出力] を選択します。
| colname | datatype | totalcount | count | missingcount | nancount | positiveinfinitycount | negativeinfinitycount | min | max | mean | variance | standarddeviation | standarderror | skewness | kurtosis | moment2 | moment3 | moment4 | centralmoment2 | centralmoment3 | centralmoment4 | sum | sum2 | sum3 | sum4 | | ------- | -------- | ---------- | ----- | ------------ | -------- | --------------------- | --------------------- | ----- | ------ | ------- | ----------------- | ------------------ | ----------------- | --------------------- | ------------------ | ----------------- | ----------------- | ----------------- | -------------- | -------------------- | ----------------- | ------- | ------------ | ----------------- | -------------- | | col1 | string | 2 | 2 | 0 | 0 | 0 | 0 | | | | | | | | | | | | | | | | | | | | col2 | bigint | 2 | 2 | 0 | 0 | 0 | 0 | 1 | 2 | 1.5 | 0.5 | 0.7071067811865476 | 0.5 | 0 | -2 | 2.5 | 4.5 | 8.5 | 0.25 | 0 | 0.0625 | 3 | 5 | 9 | 17 | | col3 | double | 2 | 2 | 0 | 0 | 0 | 0 | 0.001 | 100.01 | 50.0055 | 5000.900040500001 | 70.71704207968544 | 50.00450000000001 | 2.327677906939552e-16 | -1.999999999999999 | 5001.000050500001 | 500150.0150005006 | 50020003.00020002 | 2500.45002025 | 2.91038304567337e-11 | 6252250.303768232 | 100.011 | 10002.000101 | 1000300.030001001 | 100040006.0004 |列
説明
colname
列の名前。
datatype
データ型。
totalcount
総数。
集計
NULL以外の値の数。
missingcount
NULL値の数。
nancount
NaN値の数。
positiveinfinitycount
正の無限値の数。
negativeinfinitycount
負の無限値の数。
min
最小値。
max
最大値。
平均
平均値。
variance
分散。
standarddeviation
標準偏差。
standarderror
標準エラー。
skewness
歪。
kurtosis
尖度。
モーメント2
2番目の瞬間。
モーメント3
3番目の瞬間。
モーメント4
4番目の瞬間。
centralmoment2
2番目の中心的な瞬間。
centralmoment3
3番目の中心的な瞬間。
centralmoment4
4番目の中心的な瞬間。
sum
合計。
sum2
二乗の合計。
sum3
キューブの合計。
sum4
4乗の合計。