SmartData组件是EMR Jindo引擎的存储部分,为EMR各个计算引擎提供统一的存储、缓存、计算优化以及功能扩展。SmartData组件主要包括JindoFS、JindoTable和相关工具集。本文介绍SmartData(3.2.x)版本的更新内容。

JindoFS OSS扩展和支持

  • 支持OSS多种免密获取Token的方式,允许自定义和扩展。
  • 通过阿里云TableStore实现对Rename的并发操作的互斥。
  • 支持通过Delta或Hudi写入数据至OSS。

JindoFS缓存优化

优化在AI训练场景下小文件元数据的缓存,提升元数据预加载操作和List操作的性能。

JindoTable计算优化

  • JindoTable集成了AliORC,提供Native ORC Reader。JindoTable支持Spark和Presto使用Native ORC Reader读取ORC文件,以提升计算读取性能。
  • Presto支持JindoTable访问热度统计,统计Hive表访问频次。

JindoFS生态支持

Spark写入OSS文件时,支持配置spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs=false,允许作业不生成_SUCCESS文件。