AnalyticDB for PostgreSQLは、MADlib拡張機能を統合して機械学習を実装します。 MADlibは、PostgreSQLデータベースで機械学習およびグラフコンピューティングモジュールを実行するオープンソースライブラリです。 機械学習に関して、MADlibは数理統計の関数とストアドプロシージャを提供します。 MADlibは、機械学習用の典型的な教師ありおよび教師なしアルゴリズムライブラリのセットも提供します。
AnalyticDB for PostgreSQLはMADlib 1.16を使用し、XGBoost、lightGBM、GBDTなどの機能をサポートしていません。
MADlibの機械学習モジュールは、次の問題を解決します。
分類と回帰の問題: MADlibは、K-Nearest Neighbor (KKN) 、多層パーセプトロンニューラルネットワーク、サポートベクターマシン (SVM) 、決定木などの一連のアルゴリズムを提供して、バイナリ分類と回帰の問題を解決します。 MADlibは、回帰の問題を解決するために、最小二乗回帰、一般化線形モデル (GLM) 、ロジスティック回帰、多項ロジスティック回帰などのモデルのセットも提供します。
クラスタリングの問題: MADlibは、クラスタリング分析のためのK平均アルゴリズムを提供します。
相関分析: MADlibは、相関分析のためのAprioriアルゴリズムを提供する。 この機能は、おむつとビールの相関など、製品間の予期しない相関関係を見つけるのに役立ちます。
時系列データの分析: MADlibは、時系列データの将来の傾向を予測するための自己回帰統合移動平均 (ARIMA) モデルを提供します。
その他: MADlibは、データ次元削減の主な要因を抽出するための主成分分析 (PCA) を提供します。 MADlibは、ドキュメント分類とトピックモデリングのための潜在的ディリクレ割り当て (LDA) モデルを提供します。
MADlibは、グラフコンピューティングモデルを統合して、特定のユーザーの連絡先のクエリに関する最短パス、PageRankランキング、ソーシャルメディアの問題などの問題を解決します。 次の表に、グラフ計算モデルに関連するアルゴリズムを示します。
カテゴリ | モデル /特徴 | 説明 |
Shortest path | すべての頂点間の最短パス | すべての頂点間の最短パスを計算し、結果を特定の結果テーブルに保存します。 このモデルは、結果テーブルに基づいて、開始頂点から終了頂点までの最短パスを照会します。 |
特定の頂点と他のすべての頂点間の最短パス | 特定の頂点と他のすべての頂点間の最短パスを計算し、結果を特定の結果テーブルに保存します。 このモデルは、結果テーブルに基づいて、特定の頂点から他の頂点への最短パスを照会します。 | |
Breadth-first search (BFS) | BFS | BFSメソッドを使用して、特定のソース頂点から到達可能な頂点を照会します。 |
HITS | HITSスコア | 有向グラフのすべての頂点のHITSスコアを照会します。 HITSスコアは、ハブスコアおよび権限スコアを含む。 |
Web page ranking | PageRank | 有向グラフ内のすべての頂点のPageRankを照会します。 |
Weak connected component | 弱い接続コンポーネント | 有向グラフ内のすべての弱い連結成分を照会します。 |
Measure | 平均パス長 | グラフの平均最短パス長を計算します。 |
近接性 | グラフ内のすべてのノードの近さの中心性を計算します。 | |
グラフ径 | グラフの直径を計算します。 | |
In/out-degree | すべての頂点のin-degreeとout-degreeを計算します。 |
機械学習モジュールには、次の利点があります。
アクセシビリティが優れているため、 SQL文は、プログラミングを容易にするために大量のデータを分析できます。
非常に軽量。 AnalyticDB for PostgreSQLは、分類やソーシャルネットワーク分析の組み合わせの問題などの複雑な問題を解決するのに役立ちます。
弾性と高性能。 AnalyticDB for PostgreSQLのクラウドネイティブアーキテクチャに基づいて、CPUやコンピューティングノードなどのコンピューティングリソースを柔軟にスケーリングできます。