統計分析のための Whole Table Statistics の使用 - Platform for AI

Whole Table Statisticsコンポーネントは、データセット全体に対する基本的な統計分析の方法です。平均値、中央値、標準偏差、最小値、最大値、および欠落値の数などの統計メトリックを計算して要約します。このコンポーネントは、データの全体的な特性と品質をすばやく評価するのに役立ちます。これは、さらなるデータクレンジング、機能エンジニアリング、およびモデル開発のための基本情報を提供します。

コンポーネントの設定

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Designerのパイプラインの詳細ページで、テーブル全体の統計コンポーネントをパイプラインに追加し、次の表に示すパラメーターを設定します。

タブ	パラメーター	説明
フィールドの設定	入力列 (デフォルトですべての列)	[フィールドの選択] をクリックして、統計分析の入力列を選択します。デフォルトでは、すべての列が選択されています。
チューニング	コア	コアの数。
チューニング	メモリサイズ	各コアのメモリサイズ。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQL Scriptコンポーネントを使用してPAIコマンドを呼び出すことができます。詳細については、「シナリオ4: SQLスクリプトコンポーネント内でPAIコマンドを実行する」をご参照ください。

 PAI -name stat_summary
-project algo_public
-DinputTableName=test_data
-DoutputTableName=test_summary_out
-DinputTablePartitions="ds='20160101'"
-DselectColNames=col0,col1,col2
-Dlifecycle=1

パラメーター	必須 / 任意	説明
inputTableName	対象	入力テーブルの名前。
outputTableName	対象	出力テーブルの名前。
inputTablePartitions	非対象	入力テーブルのパーティション。デフォルトでは、すべてのパーティションが選択されています。
selectColNames	非対象	統計用に選択されている列の名前。
ライフサイクルの設定 (Set lifecycle)	非対象	出力テーブルのライフサイクル。デフォルトでは、出力テーブルにはライフサイクルがありません。説明値は正の整数である必要があります。
coreNum	非対象	コアの数。説明値は正の整数である必要があります。
memSizePerCore	非対象	各コアのメモリサイズ。単位：MB。有効値: [1024,64x1024] 。説明値は正の整数である必要があります。

例：

パイプラインの詳細ページで、SQL Scriptコンポーネントをパイプラインに追加し、そのコンポーネントをクリックします。 [パラメーター設定] タブで、[スクリプトモードの使用] および [テーブル作成ステートメントを追加するかどうか] をオフにし、[SQLスクリプト] エディターに次のSQLステートメントを入力します。
```
drop table if exists summary_test_input;
create table summary_test_input as
select
  *
from
(
  select 'a' as col1, 1 as col2, 0.001 as col3
    union all
  select 'b' as col1, 2 as col2, 100.01 as col3
) tmp;
```
SQL Scriptコンポーネントをパイプラインに追加し、そのコンポーネントをクリックします。 [パラメーター設定] タブで、[スクリプトモードの使用] と [テーブル作成ステートメントを追加するかどうか] をオフにし、[SQLスクリプト] エディターに次のSQLステートメントを入力します。このコンポーネントをステップ1で追加したコンポーネントと接続します。
```
drop table if exists ${o1};
PAI -name stat_summary
    -project algo_public
    -DinputTableName=summary_test_input
    -DoutputTableName=${o1}
    -DselectColNames=col1,col2,col3
    -Dlifecycle=1;
```
キャンバスの左上隅で、をクリックしてパイプラインを実行します。

パイプラインの実行後、手順2で追加したコンポーネントを右クリックし、[データの表示] をクリックして、[SQLスクリプト出力] を選択します。

| colname | datatype | totalcount | count | missingcount | nancount | positiveinfinitycount | negativeinfinitycount | min   | max    | mean    | variance          | standarddeviation  | standarderror     | skewness              | kurtosis           | moment2           | moment3           | moment4           | centralmoment2 | centralmoment3       | centralmoment4    | sum     | sum2         | sum3              | sum4           |
| ------- | -------- | ---------- | ----- | ------------ | -------- | --------------------- | --------------------- | ----- | ------ | ------- | ----------------- | ------------------ | ----------------- | --------------------- | ------------------ | ----------------- | ----------------- | ----------------- | -------------- | -------------------- | ----------------- | ------- | ------------ | ----------------- | -------------- |
| col1    | string   | 2          | 2     | 0            | 0        | 0                     | 0                     |       |        |         |                   |                    |                   |                       |                    |                   |                   |                   |                |                      |                   |         |              |                   |                |
| col2    | bigint   | 2          | 2     | 0            | 0        | 0                     | 0                     | 1     | 2      | 1.5     | 0.5               | 0.7071067811865476 | 0.5               | 0                     | -2                 | 2.5               | 4.5               | 8.5               | 0.25           | 0                    | 0.0625            | 3       | 5            | 9                 | 17             |
| col3    | double   | 2          | 2     | 0            | 0        | 0                     | 0                     | 0.001 | 100.01 | 50.0055 | 5000.900040500001 | 70.71704207968544  | 50.00450000000001 | 2.327677906939552e-16 | -1.999999999999999 | 5001.000050500001 | 500150.0150005006 | 50020003.00020002 | 2500.45002025  | 2.91038304567337e-11 | 6252250.303768232 | 100.011 | 10002.000101 | 1000300.030001001 | 100040006.0004 |

列	説明
colname	列の名前。
datatype	データ型。
totalcount	総数。
集計	NULL以外の値の数。
missingcount	NULL値の数。
nancount	NaN値の数。
positiveinfinitycount	正の無限値の数。
negativeinfinitycount	負の無限値の数。
min	最小値。
max	最大値。
平均	平均値。
variance	分散。
standarddeviation	標準偏差。
standarderror	標準エラー。
skewness	歪。
kurtosis	尖度。
モーメント2	2番目の瞬間。
モーメント3	3番目の瞬間。
モーメント4	4番目の瞬間。
centralmoment2	2番目の中心的な瞬間。
centralmoment3	3番目の中心的な瞬間。
centralmoment4	4番目の中心的な瞬間。
sum	合計。
sum2	二乗の合計。
sum3	キューブの合計。
sum4	4乗の合計。