すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:テーブル全体の統計

最終更新日:Jan 16, 2025

Whole Table Statisticsコンポーネントは、データセット全体に対する基本的な統計分析の方法です。 平均値、中央値、標準偏差、最小値、最大値、および欠落値の数などの統計メトリックを計算して要約します。 このコンポーネントは、データの全体的な特性と品質をすばやく評価するのに役立ちます。 これは、さらなるデータクレンジング、機能エンジニアリング、およびモデル開発のための基本情報を提供します。

コンポーネントの設定

方法1: パイプラインページでコンポーネントを設定する

Machine Learning Designerのパイプラインの詳細ページで、テーブル全体の統計コンポーネントをパイプラインに追加し、次の表に示すパラメーターを設定します。

タブ

パラメーター

説明

フィールドの設定

入力列 (デフォルトですべての列)

[フィールドの選択] をクリックして、統計分析の入力列を選択します。 デフォルトでは、すべての列が選択されています。

チューニング

コア

コアの数。

メモリサイズ

各コアのメモリサイズ。

方法2: PAIコマンドを使用する

PAIコマンドを使用してコンポーネントパラメータを設定します。 SQL Scriptコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「シナリオ4: SQLスクリプトコンポーネント内でPAIコマンドを実行する」をご参照ください。

 PAI -name stat_summary
-project algo_public
-DinputTableName=test_data
-DoutputTableName=test_summary_out
-DinputTablePartitions="ds='20160101'"
-DselectColNames=col0,col1,col2
-Dlifecycle=1

パラメーター

必須 / 任意

説明

inputTableName

対象

入力テーブルの名前。

outputTableName

対象

出力テーブルの名前。

inputTablePartitions

非対象

入力テーブルのパーティション。 デフォルトでは、すべてのパーティションが選択されています。

selectColNames

非対象

統計用に選択されている列の名前。

ライフサイクルの設定 (Set lifecycle)

非対象

出力テーブルのライフサイクル。 デフォルトでは、出力テーブルにはライフサイクルがありません。

説明

値は正の整数である必要があります。

coreNum

非対象

コアの数。

説明

値は正の整数である必要があります。

memSizePerCore

非対象

各コアのメモリサイズ。 単位:MB。 有効値: [1024,64x1024] 。

説明

値は正の整数である必要があります。

例:

  1. パイプラインの詳細ページで、SQL Scriptコンポーネントをパイプラインに追加し、そのコンポーネントをクリックします。 [パラメーター設定] タブで、[スクリプトモードの使用] および [テーブル作成ステートメントを追加するかどうか] をオフにし、[SQLスクリプト] エディターに次のSQLステートメントを入力します。

    drop table if exists summary_test_input;
    create table summary_test_input as
    select
      *
    from
    (
      select 'a' as col1, 1 as col2, 0.001 as col3
        union all
      select 'b' as col1, 2 as col2, 100.01 as col3
    ) tmp;
  2. SQL Scriptコンポーネントをパイプラインに追加し、そのコンポーネントをクリックします。 [パラメーター設定] タブで、[スクリプトモードの使用][テーブル作成ステートメントを追加するかどうか] をオフにし、[SQLスクリプト] エディターに次のSQLステートメントを入力します。 このコンポーネントをステップ1で追加したコンポーネントと接続します。

    drop table if exists ${o1};
    PAI -name stat_summary
        -project algo_public
        -DinputTableName=summary_test_input
        -DoutputTableName=${o1}
        -DselectColNames=col1,col2,col3
        -Dlifecycle=1;
  3. キャンバスの左上隅で、imageをクリックしてパイプラインを実行します。

  4. パイプラインの実行後、手順2で追加したコンポーネントを右クリックし、[データの表示] をクリックして、[SQLスクリプト出力] を選択します。

    | colname | datatype | totalcount | count | missingcount | nancount | positiveinfinitycount | negativeinfinitycount | min   | max    | mean    | variance          | standarddeviation  | standarderror     | skewness              | kurtosis           | moment2           | moment3           | moment4           | centralmoment2 | centralmoment3       | centralmoment4    | sum     | sum2         | sum3              | sum4           |
    | ------- | -------- | ---------- | ----- | ------------ | -------- | --------------------- | --------------------- | ----- | ------ | ------- | ----------------- | ------------------ | ----------------- | --------------------- | ------------------ | ----------------- | ----------------- | ----------------- | -------------- | -------------------- | ----------------- | ------- | ------------ | ----------------- | -------------- |
    | col1    | string   | 2          | 2     | 0            | 0        | 0                     | 0                     |       |        |         |                   |                    |                   |                       |                    |                   |                   |                   |                |                      |                   |         |              |                   |                |
    | col2    | bigint   | 2          | 2     | 0            | 0        | 0                     | 0                     | 1     | 2      | 1.5     | 0.5               | 0.7071067811865476 | 0.5               | 0                     | -2                 | 2.5               | 4.5               | 8.5               | 0.25           | 0                    | 0.0625            | 3       | 5            | 9                 | 17             |
    | col3    | double   | 2          | 2     | 0            | 0        | 0                     | 0                     | 0.001 | 100.01 | 50.0055 | 5000.900040500001 | 70.71704207968544  | 50.00450000000001 | 2.327677906939552e-16 | -1.999999999999999 | 5001.000050500001 | 500150.0150005006 | 50020003.00020002 | 2500.45002025  | 2.91038304567337e-11 | 6252250.303768232 | 100.011 | 10002.000101 | 1000300.030001001 | 100040006.0004 |

    説明

    colname

    列の名前。

    datatype

    データ型。

    totalcount

    総数。

    集計

    NULL以外の値の数。

    missingcount

    NULL値の数。

    nancount

    NaN値の数。

    positiveinfinitycount

    正の無限値の数。

    negativeinfinitycount

    負の無限値の数。

    min

    最小値。

    max

    最大値。

    平均

    平均値。

    variance

    分散。

    standarddeviation

    標準偏差。

    standarderror

    標準エラー。

    skewness

    歪。

    kurtosis

    尖度。

    モーメント2

    2番目の瞬間。

    モーメント3

    3番目の瞬間。

    モーメント4

    4番目の瞬間。

    centralmoment2

    2番目の中心的な瞬間。

    centralmoment3

    3番目の中心的な瞬間。

    centralmoment4

    4番目の中心的な瞬間。

    sum

    合計。

    sum2

    二乗の合計。

    sum3

    キューブの合計。

    sum4

    4乗の合計。