SmartData是E-MapReduce(简称EMR)产品的核心自研组件,为EMR各个计算引擎提供统一的存储优化、缓存优化、计算加速优化和多个存储功能扩展,涵盖数据访问、数据治理和数据安全。

SmartData组件在EMR产品中的位置如下所示。SmartData
SmartData组件包括:
  • JindoFS核心子系统:为各种远端存储系统提供缓存和缓存加速,详情请参见JindoFS介绍和使用
  • JindoTable核心子系统:为表格数据源(例如Hive数仓)提供表和分区级别的优化和治理,详情请参见JindoTable使用说明
  • JindoManager:提供JindoFS&JindoTable相关服务和功能的管理页面,例如,查看文件和表在缓存上的各种统计指标。
  • JindoSDK:为EMR各种开源计算引擎提供统一的SDK,支持Java、C、C++和Python语言,提供多种访问和API接口,包括HCFS文件系统接口、POSIX接口和Table表格接口。
  • 工具集: 提供相关的工具集,例如Jindo tool和迁移工具Jindo DistCp。
  • 各种Connectors:包括Hadoop connector、Flink connector和TensorFlow connector,支持Kite SDK、Apache Beams、Flume、Sqoop和Kafka。

SmartData目前通过JindoFS和JindoTable支持的数据源,包括阿里云OSS、Apache Hadoop HDFS、Hive数仓和阿里云MaxCompute。

SmartData作为EMR产品核心自研组件,独立开发与版本发布,详细版本请参见版本概述