コールドスタートとは
ほとんどのレコメンデーションシステムは、協調フィルタリング、行列分解、またはディープラーニングアルゴリズムを使用してレコメンデーション候補を生成します。ほとんどの場合、これらのアルゴリズムはユーザーアイテムインタラクション行列に依存しています。現実世界のレコメンデーションシステムには、常に新しいユーザーと新しいアイテムが追加されます。十分な履歴行動データがないため、レコメンデーションシステムは正確な候補アイテムを取得したり、適切なユーザーにアイテムを正確に推奨したりすることができません。これは、いわゆるコールドスタート問題です。コールドスタートは、レコメンデーションシステムの課題です。その理由は、候補生成モジュール、粗ランキングモジュール、またはファインランキングモジュールのいずれで使用されているかに関係なく、従来のレコメンデーションアルゴリズムは、レコメンデーションシステムによって収集された行動データに過度に依存しているため、新しいユーザーと新しいアイテムに対してはうまく機能しないためです。レコメンデーションシステムには、新しいユーザーと新しいアイテムの十分な行動データがありません。その結果、新しいアイテムに対して生成されるインプレッションは少なく、新しいユーザーの興味を正確にモデル化することはできません。
一部のサービスでは、新しいアイテムのタイムリーな推奨と新しいアイテムの十分な露出は、サービスプラットフォームの生態系環境の構築と長期的な利益にとって重要です。たとえば、ニュースや情報業界はまさに時間に敏感です。アイテムがタイムリーに公開されない場合、そのニュース価値は大幅に低下します。ユーザー生成コンテンツ( UGC )プラットフォームでクリエイターが新しく公開したコンテンツが、タイムリーに十分な数のユーザーに公開されない場合、コンテンツクリエイターの熱意に影響します。これは、プラットフォームが将来獲得できる質の高いコンテンツの量にさらに影響を与える可能性があります。出会い系プラットフォームが新しいユーザーに適切な懸念事項を提供できない場合、プラットフォームは新しいユーザーを引き付け続けることができず、最終的には魅力的ではなくなる可能性があります。
要約すると、コールドスタート問題はレコメンデーションシステムにおける課題です。この問題をどのように解決できるでしょうか?
コールドスタート問題の解決策
レコメンデーションシステムのコールドスタート問題の解決に使用できるアルゴリズムまたはポリシーには、汎化性、迅速性、転移性、少数性の 4 つの特性があります。

汎化性:新しいアイテムは、属性またはカテゴリに関して汎化できます。たとえば、新しく公開されたアイテムは、新しいアイテムと同じカテゴリのアイテムを気に入ったユーザーに推奨できます。新しく開始されたショートビデオは、そのビデオのクリエイターを気に入ったユーザーに推奨できます。新しくリリースされたニュース記事は、その記事と同じトピックの記事を気に入ったユーザーに推奨できます。基本的に、上記の推奨方法はコンテンツベースの推奨アルゴリズムを使用しています。より良い結果を得るために、レコメンデーションシステムは概念ベースまたはトピックベースの推奨を提供する必要がある場合があります。新しいアイテムは、新しいアイテムと同じカテゴリのアイテムを気に入ったユーザーに推奨するだけでなく、新しいアイテムと同じブランドのアイテムを気に入ったユーザー、新しいアイテムと同じショップのアイテムを気に入ったユーザー、新しいアイテムと同じスタイルのアイテムを気に入ったユーザー、新しいアイテムと同じ色のアイテムを気に入ったユーザーなど、他のユーザーにも推奨する必要があります。一部のアイテムは、アルゴリズムを使用せずに汎化できます。たとえば、販売者がアイテムを起動するときに属性を構成したアイテムなどです。一部のアイテムは、アルゴリズムを使用することによってのみ汎化できます。たとえば、起動時にトピックが表示されない記事などです。
属性ベースまたはトピックベースの汎化に加えて、特定のアルゴリズムを使用してユーザーとアイテムの埋め込みベクトルを取得し、これらのベクトル間の距離または類似性を使用してユーザーの興味とアイテムを一致させるのが一般的です。行列分解とディープニューラルネットワークモデルは、ユーザーとアイテムの両方の埋め込みベクトルを生成できます。ただし、これらの従来のモデルのトレーニングは依然としてユーザーとアイテムの行動データに依存しています。行列分解とディープニューラルネットワークモデルは、コールドスタートユーザーとアイテムの埋め込みベクトルを正確に生成できません。
本質的に、汎化手法は、新しいアイテムのコンテンツまたは属性を使用して、新しいアイテムの履歴行動データの不足を補うことです。たとえば、画像やビデオなどのアイテムのマルチモーダル情報を使用して、アイテムの推奨を生成できます。出会い系プラットフォームは、新しいユーザー(推奨されるアイテム)の外観をスコアリングし、その外観を好む他のユーザー(推奨リストを閲覧するユーザー)にそのユーザーを推奨できます。
迅速性:コールドスタートアイテムは、履歴行動データが不足している新しいアイテムです。したがって、自然なアプローチは、これらの新しいアイテムのインタラクションデータを迅速に収集し、そのデータをレコメンデーションシステムに迅速に取り込むことです。従来のレコメンデーションアルゴリズムモデルと関連機能は毎日更新されますが、オンライン学習モデルと関連機能は数分または数秒で更新できます。この種のアプローチは通常、強化学習またはコンテキストバンディットアルゴリズムに基づいています。
転移性:転移学習は、さまざまなシナリオのデータを使用してモデルを構築します。転移学習は、ソースドメインからターゲットドメインに知識を移行できます。たとえば、新しいサービスには少数のサンプルしかなく、他のサービスシナリオのデータを使用して、そのサービスのモデルをトレーニングする必要があります。この場合、他のシナリオはソースドメインであり、新しいサービスシナリオはターゲットドメインです。別の例として、越境EC企業のプラットフォームは国によって異なり、ある国のプラットフォームは新しく展開されたばかりで、ユーザーの行動データがほとんどない場合があります。この場合、他の成熟したプラットフォームの行動データを使用してモデルをトレーニングし、新しく展開されたプラットフォームの少数のサンプルを微調整して、良好なコールドスタートパフォーマンスを実現できます。転移学習技術を展開する場合は、ソースドメインとターゲットドメインに一定の関連性があることを確認してください。たとえば、先ほど述べたさまざまな国のプラットフォームでは、多数の同一アイテムが販売されている可能性があります。
少数性:少数ショット学習は、その名前が示すように、最小限のラベル付きデータを使用してモデルをトレーニングする手法です。典型的な少数ショット学習手法はメタ学習です。