データ診断は、ユーザーテーブル、アイテムテーブル、および行動テーブルを分析して、利用可能な特徴を検証し、離散化パラメーター設定をガイドし、ユーザープリファレンスとアイテム特徴の統計に必要なデータタイムウィンドウを決定し、トレーニングサンプルのデータ量要件を評価します。 これにより、データ品質とモデル学習リソースの合理的な構成が保証され、特徴エンジニアリングの科学性、モデル学習の効率、および推奨結果の精度が向上します。
データ診断タスクの種類
PAI-Rec データ診断には、次のタスクの種類が含まれます。
タスクの種類 | 説明 |
基本的な統計分析 | フィールドの値の分布と欠損率を分析し、有効な特徴をスクリーニングし(欠損率の高いフィールドまたは異常なフィールドを除外)、異常な特徴についてログのアップロード、ストレージ、またはクリーニングに問題があるかどうかを調査するために使用されます。 |
アイテムまたはユーザーの変化率の分析 | ユーザーテーブルまたはアイテムテーブルを分析するために使用されます。 たとえば、ユーザーテーブルの user_id フィールドを分析して、日次増加数と減少数、およびその割合を計算できます。 新規ユーザーが多い場合は、新規ユーザー向けの推奨戦略を検討する必要があります。 毎日追加される新しいアイテムが多い場合は、コールドスタートアイテム向けの推奨戦略を検討する必要があります。 |
ユーザープリファレンスの統計期間の分析 |
|
2 テーブル結合分析 | 行動データの可用性、ID の一意性、および特徴が利用可能かどうかを確認するために使用されます。 行動テーブルをアイテムテーブルと結合すると、多くのアイテム特徴フィールドが空になる可能性があります。 これらの空の値の理由を分析する必要があります。 |
例外分析 | まず上流の行動と下流の行動を定義することにより、ユーザー行動テーブルを分析します。 上流の行動とは露出を指し、下流の行動とはクリックまたはカートに追加を指します。 上流の行動がクリックの場合、下流の行動はいいねまたはコメントです。 上流と下流の行動の両方のセットを同時に分析する必要がある場合は、2 つの診断タスクを作成する必要があります。 特定のユーザーまたはアイテムの露出数またはコンバージョン率が高すぎる場合は、ユーザーログを分析します。 |
前提条件
診断タスクの作成
PAI-Rec コンソール にログインし、左側のナビゲーションウィンドウで を選択します。
[タスク管理] タブで、[診断タスクの作成] をクリックします。 [診断タスクの作成] パネルで、対応するタスクの種類を選択し、関連する構成を完了します。
基本的な統計分析
パラメーター
説明
[パーティションフィールド]
対応する ds フィールドを選択します。 [yyyymmdd] および [yyyy-mm-dd] 形式がサポートされています。
[タグフィールド]
分析するフィールドを選択します。
[タグフィールドのデリミタ]
タグフィールドのデリミタを選択します。
[KV フィールド]
KV タイプのフィールドを選択します(ユーザーカテゴリのプリファレンスの説明など)。 これにより、キーの数と値の分布が分析されます。 ない場合は、このパラメーターを空のままにすることができます。
[KV デリミタ]
KV データの各グループのデリミタを指定します。
[テキストフィールド]
テキストタイプのデータを選択します。 タイトルがない場合は、このパラメーターを空のままにすることができます。
[STRING タイプの NULL 値]
NULL 値と見なされる値を指定します。これは、NULL 値の数/率の統計に使用されます。
たとえば、スペースです。
[データパーセンタイル分布]
分析する必要があるデータ値の位置を指定します。 複数のデータセットを区切るには、コンマ(,)を使用します。
データパーセンタイル分布のデフォルトのパーセンタイルは、0%、1%、25%、50%、75%、99%、100% です。
[定期的][実行]
[いいえ](デフォルト):データテーブルの定期的な分析は実行されません。 タスクの再実行のデフォルトの業務時間は 7 日間です。
[はい]:[定期実行時間] を設定して、データテーブルの定期的な分析を実行します。
アイテムまたはユーザーの変化率の分析
パラメーター
説明
[パーティションフィールド]
対応する ds フィールドを選択します。 [yyyymmdd] および [yyyy-mm-dd] 形式がサポートされています。
[分析フィールド]
一意の識別情報を持つフィールドを選択します。
[定期的実行]
[いいえ](デフォルト):データテーブルの定期的な分析は実行されません。 タスクの再実行のデフォルトの業務時間は 7 日間です。
[はい]:[定期実行時間] を設定して、データテーブルの定期的な分析を実行します。
ユーザープリファレンスの統計期間の分析
パラメーター
説明
[パーティションフィールド]
対応する ds フィールドを選択します。 [yyyymmdd] および [yyyy-mm-dd] 形式がサポートされています。
[ユーザー ID フィールド]
ユーザーを一意に識別するフィールドを選択します。
[再現率の統計期間]
計算する期間の日数を入力します。 計算する期間が複数ある場合は、コンマ(,)で区切ります。
[単一日維持率の統計期間]
計算する期間の日数を入力します。 計算する期間が複数ある場合は、コンマ(,)で区切ります。
[定期維持率の統計期間]
ある期間から別の期間への維持率を指定します。たとえば、2 月の 1 月のユーザーの維持率などです。
[週ごと](1 週間、4 週間、または 12 週間)または [月ごと](1 か月または 2 か月)を選択できます。
[定期的実行]
[いいえ](デフォルト):データテーブルの定期的な分析は実行されません。 タスクの再実行のデフォルトの業務時間は 7 日間です。
[はい]:[定期実行時間] を設定して、データテーブルの定期的な分析を実行します。
2 テーブル結合分析
パラメーター
説明
[左のテーブル]
結合するデータテーブルを選択します。 左のテーブルは通常、行動テーブルです。
[左のテーブルのパーティションフィールド]
対応する ds フィールドを選択します。 [yyyymmdd] および [yyyy-mm-dd] 形式がサポートされています。
[左のテーブルの分析フィールド]
分析するフィールドを選択します。
[右のテーブル]
結合するデータテーブルを選択します。
[右のテーブルのパーティションフィールド]
対応する ds フィールドを選択します。 [yyyymmdd] および [yyyy-mm-dd] 形式がサポートされています。
[右のテーブルの分析フィールド]
分析するフィールドを選択します。
[タスク名]
ノードの名前を指定します。
[結合フィールド]
左右のテーブルで一致するフィールドを選択します。
[表示される結合の失敗]
表示する異常なデータレコードの数を入力します。これは、結合に失敗したデータを表示するために使用されます。
例:10。
[定期的実行]
[いいえ](デフォルト):データテーブルの定期的な分析は実行されません。 タスクの再実行のデフォルトの業務時間は 7 日間です。
[はい]:[定期実行時間] を設定して、データテーブルの定期的な分析を実行します。
例外分析
パラメーター
説明
[パーティションフィールド]
対応する ds フィールドを選択します。 [yyyymmdd] および [yyyy-mm-dd] 形式がサポートされています。
[ユーザー ID フィールド]
ユーザーを一意に識別するフィールドを選択します。
[アイテム ID フィールド]
アイテムを一意に識別するフィールドを選択します。
[行動フィールド]
異なる行動イベントを区別するフィールドを選択します。
[上流の行動]
分析する上流の行動イベントを入力します。 複数の行動がある場合は、コンマ(,)で区切ります。
[下流の行動]
分析する下流の行動イベントを入力します。 複数の行動がある場合は、コンマ(,)で区切ります。
[バケット]
行動データの等間隔セグメント分析に必要なバケットの数を入力して、各セグメントのユーザー分布を分析します。
[定期的実行]
[いいえ](デフォルト):データテーブルの定期的な分析は実行されません。 タスクの再実行のデフォルトの業務時間は 7 日間です。
[はい]:[定期実行時間] を設定して、データテーブルの定期的な分析を実行します。
[保存して計算] をクリックします。
診断レポートの表示
診断タスクを作成したら、次の操作を実行してレポートを表示します。 を選択します。 [タスク管理] タブで、目的の診断タスクの [アクション] 列の [診断レポート] をクリックします。

次の診断レポートは参考用です。 実際のデータ診断結果を参照してください。
基本的な統計分析
基本的な統計分析レポートには、日次ユーザーボリューム、および複数の bigint 特徴の最大値、最小値、パーセンタイル、頻度統計などの情報が表示されます。
診断結果では、欠損率が 0.4 を超えていることが示されているため、
cityフィールドに注意する必要があります。
日次データ量

一意の値の統計。各フィールドの一意の値の数が表示されます。


パーセンタイル統計。年齢を例にとります。 95 パーセンタイルは 50 歳、最大値は 52 歳、最小値は 18 歳です。

ヒストグラム統計。データを 10 個のバケットに分割して、各バケットの数を表示します。

上位 10 件の頻度統計。年齢を例にとります。次の図は、発生頻度が最も高い上位 10 件の年齢を示しています。

頻度パーセンタイル。最大値が上位 10 件の頻度統計で最も頻度の高い値と一致するかどうかを確認します。

アイテムまたはユーザーの変化率の分析
アイテムまたはユーザーの変化率分析レポートには、一定期間に追加および削減されたアイテムまたはユーザーの数、および追加率と削減率の変化が表示されます。 ユーザーテーブル分析を例にとると、レポートは、追加および削減されたユーザーの数、およびユーザーの追加率と削減率の変化を分析します。


ユーザープリファレンスの統計期間の分析
ユーザープリファレンスの統計期間の分析レポートは、ユーザーの行動プリファレンスに関する統計分析を実施し、ユーザーの維持率を表示します。



2 テーブル結合分析
2 テーブル結合分析レポートは、2 つの関連データテーブルのデータ間の相関関係を分析し、左のテーブルの右のテーブルの関連付け率を表示します。



例外分析
例外分析レポートは、上流と下流の行動を分析し、下流の行動が上流の行動を超える異常があるかどうかを表示します。
異常率が低いということは、下流の行動が上流の行動を超えるケースがないことを示しています。

上流の行動カウント統計は、露出カウントを 10 個のバケットに分割して表示します。 x 軸は上流の行動カウントの平均を表し、y 軸は頻度を表します。 下流の行動カウント統計も同じ原則に従います。

コンバージョン率分析は、コンバージョン率を 10 個の間隔に分割し、各間隔の数を表示します。

上位統計分析は、上流の行動、下流の行動、およびコンバージョン率の上位値を表示するため、対応するユーザー ID を特定してより詳細な分析を行うことができます。

タスクログの表示
診断タスクを作成したら、[タスクログ] タブでタスクの進捗状況を表示できます。 タブに移動するには、 を選択します。
目的のタスクの [アクション] 列の [ログの表示] をクリックして、ログコードを表示します。
目的のタスクの [アクション] 列の [構成] をクリックして、タスクの作成時に使用された構成コードを表示します。
