すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:SmartData 3.2.X

最終更新日:Jan 11, 2025

SmartData は、E-MapReduce(EMR)Jindo エンジンのストレージサービスです。SmartData は、EMR コンピューティングエンジンに一元化されたストレージと最適化されたキャッシングおよびコンピューティングを提供し、ストレージ機能を拡張します。SmartData は、JindoFS、JindoTable、および関連ツールで構成されています。このトピックでは、SmartData 3.2.X の更新について説明します。

JindoFS での OSS ストレージのスケーラビリティ

  • JindoFS は、複数のパスワード不要の方法を使用して、OSS へのアクセスに使用するトークンを取得します。トークンはカスタマイズまたは拡張できます。
  • Alibaba Cloud Tablestore を使用して、rename 操作と同時に実行される操作に対して相互排除を実装します。
  • Delta または Hudi を使用して OSS にデータを書き込むことができます。

JindoFS ベースのキャッシングの最適化

JindoFS は、AI トレーニングシナリオでの多数の小さなファイルのメタデータのキャッシングを最適化し、メタデータのプリロード操作とリスト操作のパフォーマンスを向上させます。

JindoTable ベースのコンピューティングの最適化

  • JindoTable は AliORC と統合され、ネイティブの Optimized Row Columnar(ORC)リーダーを提供します。JindoTable を使用すると、Spark と Presto はネイティブ ORC リーダーを使用して ORC ファイルを読み取ることができます。これにより、データの読み取りが高速化され、コンピューティングパフォーマンスが向上します。
  • JindoTable を使用して、Presto 用の Hive テーブルのアクセス頻度統計を収集できます。

JindoFS のエコシステムサポート

Spark を使用して OSS にデータを書き込む場合、spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs を false に設定して、_SUCCESS ファイルが生成されないようにすることができます。