すべてのプロダクト
Search
ドキュメントセンター

Artificial Intelligence Recommendation:特徴を構成する

最終更新日:Jan 17, 2025

特徴構成は、推奨ソリューション構成の重要な部分です。特徴構成プラットフォームでは、必要な特徴を構成でき、プラットフォームは対応する MaxCompute および Flink SQL コードを自動的に生成します。このプロセスでは、一般的な統計的特徴、シーケンス特徴、MinMax 特徴、およびプリファレンスキーバリュー統計的特徴が生成されます。最終的な出力は、ベクトルリコール、粗ランキング、および精密ランキングモデルで使用されます。このセクションでは、特徴を構成する方法について説明します。

1. 統計期間と動作パラメーターを構成する

image.png

  • [統計期間]: 特徴を取得するサイクルです。カスタムサイクルを指定できます。ほとんどの場合、短、中、長のサイクルを構成することをお勧めします。構成するサイクルが多すぎると、取得される特徴の数が非常に多くなります。たとえば、1 サイクルで 200 の特徴が取得された場合、3 サイクルで 600 の特徴が取得されます。6 サイクルを構成すると、1,200 の特徴が取得されます。

  • [動作]: 動作ログテーブルの動作値です。統計期間クリック称賛イベント と同様に、動作値が多すぎると特徴の数が非常に多くなるため、ほとんどの場合、最大 5 つの動作値を構成することをお勧めします。動作タイプが多すぎる場合は、動作ログテーブルを準備するときに、重要でない動作タイプや類似する動作タイプをマージできます。動作値は発生順に設定されることに注意してください。たとえば、露出、クリック、賞賛の順序は、 フィールドの 、、 値に対応します。順序が正しくないと、比率ベースの特徴の生成に影響し、後続の構成で手動による変更が必要になります。

機能の生成統計期間動作 をクリックすると、システムは パラメーターと パラメーターの値、および動作ログ、ユーザー、アイテムテーブルの基本的な特徴(カテゴリ、数値、タグなど)に基づいて、派生ユーザー特徴とアイテム特徴を生成します。

2. 基本的な派生特徴を構成する

image.png

新しい特徴は、動作ログ、ユーザー、アイテムテーブルから派生します。追加 をクリックして、基本的な派生特徴を追加することもできます。新しい特徴は、アイテム、ユーザー、動作の基本的な属性特徴から派生することに注意してください。

  • IP アドレス解決: この構成は、インポートされたテーブルに IP アドレスが含まれている場合にのみ有効になります。IP アドレスに関する次の情報が取得できます: 都道府県、市区町村、国。解決結果にはエラーが含まれる場合があることに注意してください。

  • 現在からの日数の計算: ユーザーまたはアイテムの登録日から今日までの日数が計算されます。

  • 数値特徴のビニング: この構成は、数値特徴にのみ適用されます。数値特徴は、ビニングポイントに基づいて異なるグループに分割されます。ビニング後、カテゴリ特徴が取得されます。

  • 特徴の組み合わせ: 2 つのカテゴリフィールドの組み合わせ、カテゴリフィールドとタグフィールドの組み合わせ、2 つのタグフィールドの組み合わせなど、さまざまなフィールドを組み合わせることができます。また、組み合わせるフィールドは、同じユーザーテーブルや同じアイテムテーブルなど、同じテーブルに属している必要があります。

image.png

[動作テーブル] タブでは、次の種類の派生がサポートされています。

  • 1日の時間: ログが生成された時間が計算されます。

  • 曜日: ログが生成された曜日が計算されます。

基本的な派生特徴を手動で追加した後、これらの特徴を有効にするには、右上隅にある 保存 をクリックする必要があります。

3. 動作プリファレンス特徴を構成する

次の図は、ユーザーとアイテムに対してさまざまな統計的特徴が自動的に派生されることを示しています。ユーザー ID とアイテム ID は、特徴集約のプライマリキーとして自動的に使用されます。次のタイプの統計がサポートされています:

  • 動作統計

  • コンバージョン率の計算

  • 上位の優先属性特徴における動作の数

  • 上位の優先属性特徴のコンバージョン率

  • 優先数値特徴の値の計算

  • 上位の組み合わせ特徴の値の計算

特定の機能が不要な場合は、右側にある削除ボタンをクリックして削除するか、編集ボタンをクリックして削除します。機能を追加するには、左下隅にある [追加] をクリックします。次のセクションでは、サポートされている統計機能の種類について説明します。

image.png

  • 動作統計

image.png

指定された期間に動作が発生した回数が計算されます。たとえば、値 3、7、15 は 3 つの統計期間を示し、値 expr、click、praise は 3 つのタイプの動作を示します。重複除去 パラメーターに ID が設定されている場合、重複排除はその ID に基づいて実行され、回数は重複排除後に計算されます。シナリオが構成されている場合は、そのシナリオで発生した動作に関する統計が収集されます。前の例の構成を使用すると、9 つの特徴が生成されます。これは、統計期間の数 (3) に動作の数 (3) を掛けた値です。

  • コンバージョン率の計算

    image.png

    3 日、7 日、15 日など、指定された期間について、あるタイプの動作の数の別のタイプの動作の数に対する比率が計算されます。たとえば、クリック数は露出数で除算され、賞賛数はクリック数で除算されます。構成を変更して特徴を生成し、ビジネス要件に基づいて特徴を追加または削除できます。シナリオが構成されている場合は、そのシナリオでのみ発生した動作に関する統計が収集されます。前の例の構成を使用すると、6 つの特徴が生成されます。これは、統計期間の数にコンバージョン率計算式の数を掛けた値です。

  • 上位の優先属性特徴における動作の数

    image.png

    3 日、7 日、15 日など、指定された期間について、属性特徴カテゴリまたは複数値カテゴリにおける動作統計が収集されます。動作の例には、露出、クリック、賞賛などがあります。各属性特徴カテゴリにおける動作発生回数が収集され、キーバリュー特徴が生成されます。たとえば、属性の機能動作 パラメーターに day_h が選択され、 パラメーターに click が選択されているとします。特徴「12:27.0,8:26.0,1:1.0」が生成されます。これは、ユーザーが現在の統計期間に 12 時に 27 回のクリック、8 時に 26 回のクリック、1 時に 1 回のクリックを実行したことを示します。シナリオが構成されている場合は、そのシナリオで発生した動作に関する統計が収集されます。キーの数が多すぎる場合は、デフォルトで 100 個のキーが保持されます。前の例の構成を使用すると、54 の特徴が生成されます。これは、統計期間の数に動作の数と属性特徴の数を掛けた値です。

  • 上位の優先属性特徴のコンバージョン率

    image.png

    3 日、7 日、15 日など、指定された期間について、属性特徴カテゴリまたは複数値カテゴリにおける動作比率が収集されます。たとえば、CTR(クリック数/露出数)と CVR(賞賛数/クリック数)が収集されます。CTR はクリック率の略で、CVR はコンバージョン率の略です。次に、キーバリュー特徴が生成されます。たとえば、属性の機能計算式 パラメーターに category が選択され、 パラメーターに式 click/expr が設定されているとします。特徴「12:0.27,8:0.26」が生成されます。これは、現在の統計期間におけるユーザーの CTR がカテゴリ 12 で 0.27、カテゴリ 8 で 0.26 であることを示します。シナリオが構成されている場合は、そのシナリオで発生した動作に関する統計が収集されます。キーの数が多すぎる場合は、デフォルトで 100 個のキーが保持されます。前の例の構成を使用すると、36 の特徴が生成されます。これは、統計期間の数に計算式の数と属性特徴の数を掛けた値です。

  • 優先数値特徴の値の計算

    image.png

    3 日、7 日、15 日など、指定された期間について、露出、クリック、賞賛などの動作の数値特徴が指定された計算ロジックに基づいて収集されます。計算ロジックには、合計、最小、最大、平均が含まれます。シナリオが構成されている場合は、そのシナリオで発生した動作に関する統計が収集されます。前の例の構成を使用すると、36 の特徴が生成されます。これは、統計期間の数に動作の数と数値特徴の数を掛けた値です。

  • 上位の組み合わせ特徴の値の計算

    image.png

    3 日、7 日、15 日など、指定された期間について、露出、クリック、賞賛などの動作に関連する組み合わせ特徴が指定された計算ロジックに基づいて収集されます。つまり、ユーザーの指定されたカテゴリにおける数値特徴が計算されます。計算ロジックには、合計、最小、最大、平均が含まれます。シナリオが構成されている場合は、そのシナリオで発生した動作に関する統計が収集されます。前の例の構成を使用すると、27 の特徴が生成されます。これは、統計期間の数に動作の数と組み合わせカテゴリ特徴の数を掛けた値です。

4. シーケンスの特徴を構成する

シーケンス特徴は、ユーザー動作特徴からのみ取得されます。プロジェクトの初期段階では、リアルタイムシーケンス特徴をシミュレートして、オンラインでシーケンス特徴を取得するために使用される時間を短縮し、サービスのロールアウトを高速化します。ほとんどの場合、シミュレートされたイベント機能漏洩防止期間シーケンス機能セパレータサブ機能の区切り記号 パラメーターには expr が設定されます。 パラメーターは、最近の動作の除外期間を示します。たとえば、3 秒に設定すると、現在の動作シーケンスから最新の 3 秒間に発生した動作が除外されます。(理由: ログ収集に遅延が発生します。最新の期間に発生した動作がシミュレートされると、特徴漏洩が発生します。) パラメーターは、シーケンス特徴を区切るために使用される区切り文字を示します。 パラメーターは、シーケンス内のサブ特徴を区切るために使用される区切り文字を示します。

image.png

image.png

  • 動作の統計期間: 動作が収集される最近の期間(日数)です。複数のシーケンスが構成されている場合は、最大の統計期間が有効になります。

  • 動作: 動作タイプです。

  • シナリオ: 動作が発生したシナリオが収集されます。このパラメーターを構成しない場合は、すべてのシナリオで発生した動作が収集されます。

  • 重複排除 ID: 重複排除のためのサブ特徴 ID です。最新の動作のみが保持されます。

  • サブ特徴: シーケンス特徴のサブ特徴です。通常は、カテゴリ特徴、複数値カテゴリ特徴、数値特徴など、アイテムの非統計的特徴です。

  • 切り捨てる数量: 保持できるシーケンス特徴の最大数です。

5. リアルタイム特徴を構成する

ユーザー ID とアイテム ID をプライマリキーとして使用して、リアルタイム特徴を作成できます。リアルタイム特徴の 機能漏洩防止期間機能漏洩防止期間機能漏洩防止期間行動の統計期間 パラメーターは、シーケンス特徴の パラメーターに似ています。このパラメーターは、動作が収集されない最新の期間を示します。最新の期間とは、対応するログの生成時刻より前の期間を指します。(理由: クライアントからメッセージ指向ミドルウェア、さらにオンラインストレージサービスに動作ログを収集するには時間がかかります。 パラメーターを設定しないと、推奨エンジンは最新の期間に発生した動作に関連するデータを使用できなくなり、オフラインのトレーニングとオンラインの推論の間でデータの不整合が発生します。)リアルタイム特徴の パラメーターの単位は秒です。次のタイプの統計が収集されます:

  • 動作統計

  • コンバージョン率の計算

  • 上位の優先属性特徴における動作の数

  • 上位の優先属性特徴のコンバージョン率

統計のタイプは、動作プリファレンス統計のタイプと同じ意味です。

image.png

6. 集約特徴を構成する

集約特徴は、ユーザー特徴とアイテム特徴から派生します。集約条件を選択する必要があります。カテゴリ特徴のみを集約条件として選択できます。複数の集約特徴を構成できます。

特徴は、指定された集約条件に基づいて収集されます。種類優先動作機能動作統計 パラメーターのオプションは、 セクションのオプションと同じであり、その意味も同じです。たとえば、次の図の パラメーターは、性別にかかわらず、クリック数、賞賛数、露出数を収集します。女性のクリック数は、男性のクリック数よりも大幅に多くなっています。

image.png