SmartData は、E-MapReduce (EMR) の中核となる独自開発コンポーネントです。SmartData は、さまざまな EMR コンピュートエンジンのストレージ、キャッシング、およびコンピューティングを集中管理方式で最適化し、ストレージ機能を拡張します。SmartData は、データアクセス、データガバナンス、およびデータセキュリティのシナリオで使用されます。
次の図は、EMR における SmartData の位置を示しています。
SmartData の構成:
JindoFS コア サブシステム: さまざまなリモートストレージシステムのキャッシングとキャッシュベースのアクセラレーション機能を提供します。詳細については、「JindoFS の概要と使用方法」をご参照ください。
JindoTable コア サブシステム: Hive ウェアハウスなどのデータソースに対して、テーブルレベルおよびパーティションレベルの最適化とガバナンスを提供します。詳細については、「JindoTable を使用する」をご参照ください。
JindoManager: JindoFS および JindoTable のサービスと機能を管理するための Web UI を提供します。たとえば、キャッシュされたファイルとテーブルのメトリックを表示できます。
JindoSDK: EMR のさまざまなオープンソース コンピュートエンジン用の統合 SDK を提供します。Java、C、C++、および Python プログラミング言語をサポートし、HCFS インターフェイス、POSIX (移植可能なオペレーティングシステム インターフェイス) インターフェイス、テーブル関連インターフェイスなど、さまざまなアクセス インターフェイスと API を提供します。
ツールセット: Jindo ツールとデータコピー ツールである Jindo DistCp が含まれています。
さまざまなコネクタ: Hadoop コネクタ、Flink コネクタ、TensorFlow コネクタが含まれます。Kite SDK、Apache Beams、Flume、Sqoop、Kafka がサポートされています。
JindoFS および JindoTable でサポートされているデータソースには、Alibaba Cloud OSS、Apache Hadoop HDFS、Hive、Alibaba Cloud MaxCompute が含まれます。
SmartData は独自に開発およびリリースされています。 SmartData バージョンの詳細については、「リリース バージョン」をご参照ください。