箱ひげ図コンポーネントの設定によるデータ分布の視覚化 - Platform for AI - Alibaba Cloud - Platform For AI

ビジュアルモデリングの箱ひげ図コンポーネントは、データセットの統計分布を可視化します。これを使用して、連続特徴量全体に値がどのように分散しているかを調査し、カテゴリカル特徴量によって定義されたグループ間で分布を比較できます。

制限事項

このコンポーネントの可視化されたレポートは、Machine Learning Studio でのみ利用可能です。

コンポーネントの構成

方法 1: コンソールを使用

ビジュアルモデリングのパイプライン構成ページで、[フィールド設定] タブの下で、以下のパラメーターを設定します。

パラメーター	説明
連続特徴量	分析する連続特徴量を含む列。
カテゴリカル特徴量	カテゴリカル特徴量を含む列。この列の一意の値ごとに個別の箱ひげ図グループが生成され、カテゴリ間の分布を比較できます。
層化サンプル	採用された層化サンプルの数。

注: Machine Learning Studio では、各パラメーターに対して 1 つのフィールドのみを選択できます。ビジュアルモデリングでは、複数のフィールドを選択できます。

方法 2: PAI コマンドを使用

SQL Script コンポーネントを使用して、次の PAI コマンドを実行します。

PAI -name box_plot -project algo_public
    -DinputTable="boxplot"
    -DcontinueCols="age"
    -DcategoryCol="y"
    -DoutputTable="pai_temp_6075_97181_1"
    -DsampleSize="1000"
    -Dlifecycle="7";

パラメーター	必須	説明	デフォルト
`inputTable`	はい	入力テーブルの名前。	N/A
`inputTablePartitions`	いいえ	入力テーブルから読み取るパーティション。サポートされているフォーマット: 単一パーティションの場合は `partition_name=value`、多層パーティションの場合は `name1=value1/name2=value2`。複数のパーティションを指定するには、コンマ (,) で区切ります。	N/A
`outputTable`	はい	箱ひげ図とサンプルを格納する出力テーブルの名前。	N/A
`continueCols`	はい	連続特徴量を含む列。	N/A
`categoryCol`	はい	カテゴリカル特徴量を含む列。一意の値ごとに個別の箱ひげ図グループが生成されます。	N/A
`sampleSize`	いいえ	攪乱点 (disturbance points) のレンダリングのために層ごとにサンプリングされるデータポイントの数。	1000
`lifecycle`	いいえ	出力テーブルのライフサイクル。単位: 日。	28
`coreNum`	いいえ	計算に割り当てられるコアの数。正の整数である必要があります。	自動的に割り当てられます
`memSizePerCore`	いいえ	コアあたりのメモリサイズ。有効な値: 1～65536。単位: MB。	自動的に割り当てられます

例

入力データ

CREATE TABLE boxplot AS SELECT age, y FROM bank_data LIMIT 100;

入力テーブルには、age (連続特徴量) と y (カテゴリカル特徴量) の 2 つの列があります。

age	y
50	0
53	0
28	1
39	0
55	1

パラメーター設定

age を連続特徴量列として、y をカテゴリカル特徴量列として設定します。他のすべてのパラメーターのデフォルト値は保持します。

出力

出力を表示するには、[ボックスプロット] を右クリックし、[データの表示] > [出力ポート] を選択します。

出力テーブルには次の列が含まれます。

列	説明
`percent_points`	計算されたパーセンタイル値。
`percent_count`	各間隔のデータエントリ数。間隔はパーセンタイルで分割されます。
`sample_list`	各層から選択されたサンプル。サンプリングレートは次のように計算されます: サンプリングレート = 層化サンプルの数 / データエントリの総数。サンプリングレートが低すぎ、かつ、いずれかの層のサンプル数にサンプリングレートを乗じた値が 10 未満の場合、サンプリングレートは再計算されます。

コンポーネントは 2 つの可視化を生成します。