背景
- OSS
OSS と呼ばれる Alibaba Cloud Object Storage Service は、Alibaba Cloud が提供する、大規模で安全、低コスト、高信頼性のクラウドストレージサービスです。
- Cloud マシンラーニングプラットフォーム (PAI)
Alibaba Cloud Machine Learning PAI (人工のプラットフォーム) インテリジェンスは、"PAI" と呼ばれ、ワンストップのマシンラーニングプラットフォームであり、ユーザーが簡単にアクセスできるようにアルゴリズムコンポーネントと視覚化ツールの大規模なパッケージを含んでいます。
- ビジネスシナリオ
OSS と PAI の組み合わせを通じて、この紙が、昔ながらの文房具小売店の意思決定支援を提供します。 この記事で取り上げる具体的なビジネスシナリオ (シナリオおよびデータの両方は仮想) は、次のとおりです。
昔ながらの文房具小売店は、データマイニングを通じて、文房具カテゴリ内の商品同士の強い関連性を発見したいと思っており、文房具店の棚のレイアウトを適切な位置に調整する手助けをしてもらいたいと思っています。 ただし、レジ等の設備が古くなっているため、POS レジは XP システムを使用しています。利用可能な売上データは、POS レジからエクスポートされた注文レコード (CSV 形式) 1 つだけです。 この記事では、この CSV ファイルを OSS にインポートし、OSS を Pai に接続する方法について説明します。商品の関連付けを行うことが推奨されてます。
ステップ
- OSS にデータをインポート
- "Oss-PAI-sample" という名前の新しいバケットを作成します。
- エンドポイントをメイドとして記録します。
- 標準ストレージとしてストレージタイプを選択します。
注 OSS には 3 つのストレージがあります。[ストレージの概要] をご参照ください。
- [バケット名 (OSS-PAI-sample)] をクリックし、 をクリックし、"Sample_superstore.csv" データ を OSS にアップロードします。
- アップロードが成功すると、インターフェイスは次の図のようになります。
- マシンラーニングプロジェクトの作成
- コンソールページの左側にある [マシンラーニング] をクリックし、右上隅にある [アイテムの作成] をクリックします。
- 表示された Dataworks の新しいユーザーブートインターフェイスでリージョンを確認し (このページの OSS と同じリージョンを選択: 中国 (上海))、Compute Engine Service Machine Learning Pai を確認して、[次へ]をクリックします。
- プロジェクトが正常に作成されると、次の図に示すように、MaxCompute と Machine Learning Pai の 2 つのアイコンがプロビジョニングサービスの列に表示されます。
- マシンラーニングページに戻り、マシンラーニングを利用します。
- OSS と PAI の接続
- マシンラーニングインターフェイスの左側にあるコンポーネントを選択し、OSS データ同期コンポーネントをキャンバスにドラッグします。
インターフェイスの右側に、コンポーネントに必要な以下の情報を入力するように求められます。
- OSS エンドポイント: ステップ 1 で記録された情報に基づいて、エンドポイントは Oss-cn-shanghai.aliyuncs.com とします。
-
次の図に示すように、Ossaccessd と ossaccesskey は、オブジェクトが OSS とともに格納されているインターフェイスで取得できます。
- OSS のバケットとオブジェクトは 、"OSS-PAI-sample" と "Sample_superstore.csv" です。
- Osscolumn マッピングの目的は、OSS の CSV ファイルに列名を追加することです。 (Vii) 合計 6 列は以下のとおりです。
osscolumn マッピングには、0: order_id, 1: order_date, 2: customer_id, 3: item, 4: Sales, 5: Quantity を入力します。
- 次の図に示すように、[実行] をクリックしてからコンポーネントを右クリックし、最初の 100 個のデータを確認します。
この場合、OSS の CSV ファイルは MaxCompute に一時テーブルを生成しています。pai_temp_116611_1297076_1
これまでで、この場合の最も重要なステップは完了しており、OSS のデータは Pai にリンクされているので、マシンラーニングのサンプルとしてトレーニングすることができます。
- マシンラーニングインターフェイスの左側にあるコンポーネントを選択し、OSS データ同期コンポーネントをキャンバスにドラッグします。
データ発見のプロセス
この場合のデータ検出プロセスは次のとおりです。
この場合、ソースデータは 8 対 2 の割合でトレーニングセットとテストセットに分割されます。1 つの注文に複数の項目がある可能性があるため、次の図に示すように、ID 列に order_id が選択され、複数の商品を含む注文が分割されていないことを確認します。
この場合、商品が 17 個あります。アルゴリズムコンポーネントを一緒にフィルタリングすることによって、最も高い類似度を持つアイテムが得られます。その結果は次のとおりです。
結論:
マシンラーニングを通じて、"紙" と "ホッチキス" の類似性が高いことがわかり、他の製品との類似性が高いこともわかりました。
このデータによると、この小売店では棚をレイアウトする方法は 2 つあります。
-
紙とホッチキスの棚は中央に配置し、他の製品棚はそれらの周りに配置します。このようにすることで、顧客がどこから入ってくるかに関係なく、より高い関連性で紙とホッチキスを素早く見つけることができます。
-
文房具店の両端に紙とホッチキスの棚を置くと、顧客はもう一方の商品を購入するためには、文房具店全体を横切る必要があります。通路の中央に置かれた他の製品の棚を通過する際、その商品も購入される機会が増えるため、購買率が上がります。 もちろん、このレイアウトはユーザーの買い物の便利さを犠牲にしており、実際の運用は慎重にする必要があります。