データソース関連の用語
Artificial Intelligence Recommendation (AIRec) は、データソースとして MaxCompute (旧称 ODPS) のみを使用します。Object Storage Service (OSS) や ApsaraDB RDS などの他のデータソースも、将来的に使用可能になる予定です。
MaxCompute: MaxCompute は、大規模データウェアハウス向けの高速で完全に管理されたコンピューティングプラットフォームです。テラバイトまたはペタバイトのデータを処理できます。詳細については、「MaxCompute とは」をご参照ください。
テーブル: テーブルは、MaxCompute のデータストレージユニットです。テーブルは、行と列で構成される 2 次元データ構造です。各行はレコードを表し、各列には同じデータ型のフィールドが含まれています。1 つのレコードには、1 つ以上の列を含めることができます。列名とデータ型は、テーブルのスキーマを形成します。AIRec で必要な完全データのスキーマの詳細については、「コンテンツ」、「ニュース」、および「アイテム」業界のデータ仕様をご参照ください。
パーティション: パーティションテーブルは、パーティションを持つテーブルです。1 つ以上の列をパーティションキー列として指定して、パーティションテーブルを作成できます。詳細については、「パーティション」をご参照ください。
プロジェクト: プロジェクトは、MaxCompute の基本的な組織単位です。MaxCompute のプロジェクトは、従来のデータベース管理システムのデータベースまたはスキーマに似ています。プロジェクトは、ユーザーを分離し、アクセス要求を管理するために使用されます。
クライアント: クライアントを使用すると、コマンドラインツールに基づいて MaxCompute を使用できます。詳細については、「MaxCompute クライアント」をご参照ください。
完全データを準備する手順
1. MaxCompute をアクティブにする
MaxCompute がアクティブになっている場合は、この手順をスキップします。そうでない場合は、事前に MaxCompute をアクティブにします。MaxCompute をアクティブにすると、それを使用して完全データを AIRec にアップロードできます。MaxCompute をアクティブにする方法の詳細については、「DataWorks とは」をご参照ください。
2. 完全データを MaxCompute にアップロードする
MaxCompute では、複数の方法を使用してデータをアップロードできます。データが OSS や ApsaraDB RDS などの Alibaba Cloud サービスに保存されている場合は、DataWorks が提供する Data Integration サービスを使用してデータをアップロードできます。ローカルマシンから MaxCompute に完全データをアップロードする方法の詳細については、「概要」をご参照ください。
3. RAM ユーザーに権限を付与する
必要な権限が付与された後、MaxCompute プロジェクトから AIRec に完全データを同期できます。RAM ユーザーを作成し、その RAM ユーザーに MaxCompute から AIRec に完全データをアップロードする権限を付与できます。RAM ユーザーを使用してデータをアップロードする場合は、その AccessKey ペアが必要です。RAM ユーザーを承認する方法の詳細については、「オフラインストレージに対する権限を AIRec に付与する」をご参照ください。
4. AIRec コンソールで必要なデータバージョンを作成する
詳細については、「履歴データを使用してインスタンスを開始する」をご参照ください。
5. 後続の増分データをプッシュする
AIRec は、AIRec インスタンスが開始されたときにのみ完全データを同期します。後続の増分データは、MaxCompute ではなく SDK を使用して AIRec にプッシュされます。データバージョンを作成したり、完全データを変更したりする必要がない場合は、データのアップロード用に作成された MaxCompute プロジェクトをフリーズして削除できます。