異常検出は、正常なデータ点またはパターンから有意に逸脱するデータセット内のデータ点またはパターンを識別するために使用される。 連続または列挙機能を備えたデータの検出に適しています。 異常検出は、ユーザーが潜在的なエラー、不正、または例外を検出して、データ分析の精度と信頼性を向上させるのに役立ちます。
コンポーネントの設定
方法1: パイプラインページでコンポーネントを設定する
Machine Learning Designerのパイプラインの詳細ページで、異常検出コンポーネントをパイプラインに追加し、次の表に示すパラメーターを設定します。
パラメーター | 説明 |
フィーチャー列 | 異常検出を実行するフィーチャ列を指定します。 |
異常検出法 | 異常なデータを検出するために使用されるメソッド。 有効な値:
|
方法2: PAIコマンドを使用する
Platform for AI (PAI) コマンドを使用してコンポーネントパラメータを設定します。 SQLスクリプトコンポーネントを使用してPAIコマンドを呼び出すことができます。 詳細については、「SQL ScriScenario 4: SQLスクリプトcomponentpt内でPAIコマンドを実行する」をご参照ください。
PAI -name fe_detect_runner -project algo_public
-DselectedCols="emp_var_rate,cons_price_rate,cons_conf_idx,euribor3m,nr_employed" \
-Dlifecycle="28"
-DdetectStrategy="boxPlot"
-DmodelTable="pai_temp_2458_23565_2"
-DinputTable="pai_bank_data"
-DoutputTable="pai_temp_2458_23565_1";パラメーター | 必須 / 任意 | 説明 |
inputTable | 対象 | 入力テーブルの名前。 |
inputTablePartitions | 非対象 | 入力テーブルのパーティション。 デフォルトでは、すべてのパーティションが選択されています。
|
selectedCols | 対象 | 入力フィーチャ。 特徴のデータ型は限定されない。 |
detectStrategy | 対象 | 検出方法。 Box PlotとAVFがサポートされています。 ボックスプロットは、連続特徴を有するデータを検出するために使用される。 AVFは、列挙機能を持つデータを検出するために使用されます。 |
outputTable | 対象 | 異常なフィーチャを持つデータを含む出力テーブル。 |
modelTable | 対象 | 異常検出モデル。 |
ライフサイクルの設定 (Set lifecycle) | 非対象 | 出力テーブルのライフサイクル。 デフォルト値 : 7 |
coreNum | 非対象 | コアの数。 このパラメーターはmemSizePerCoreパラメーターと共に使用する必要があります。 説明 このパラメーターの値は正の整数でなければなりません。 有効な値: 1 ~ 9999 |
memSizePerCore | 非対象 | 各コアのメモリサイズ。 単位:MB。 有効値: [2048,64 × 1024] 。 |