SmartData は、E-MapReduce(EMR)Jindo エンジンのストレージサービスです。SmartData は、EMR コンピューティングエンジンに一元化されたストレージと最適化されたキャッシングおよびコンピューティングを提供し、ストレージ機能を拡張します。SmartData は、JindoFS、JindoTable、および関連ツールで構成されています。このトピックでは、SmartData 3.2.X の更新について説明します。
JindoFS での OSS ストレージのスケーラビリティ
- JindoFS は、複数のパスワード不要の方法を使用して、OSS へのアクセスに使用するトークンを取得します。トークンはカスタマイズまたは拡張できます。
- Alibaba Cloud Tablestore を使用して、rename 操作と同時に実行される操作に対して相互排除を実装します。
- Delta または Hudi を使用して OSS にデータを書き込むことができます。
JindoFS ベースのキャッシングの最適化
JindoFS は、AI トレーニングシナリオでの多数の小さなファイルのメタデータのキャッシングを最適化し、メタデータのプリロード操作とリスト操作のパフォーマンスを向上させます。
JindoTable ベースのコンピューティングの最適化
- JindoTable は AliORC と統合され、ネイティブの Optimized Row Columnar(ORC)リーダーを提供します。JindoTable を使用すると、Spark と Presto はネイティブ ORC リーダーを使用して ORC ファイルを読み取ることができます。これにより、データの読み取りが高速化され、コンピューティングパフォーマンスが向上します。
- JindoTable を使用して、Presto 用の Hive テーブルのアクセス頻度統計を収集できます。
JindoFS のエコシステムサポート
Spark を使用して OSS にデータを書き込む場合、spark.hadoop.mapreduce.fileoutputcommitter.marksuccessfuljobs を false に設定して、_SUCCESS ファイルが生成されないようにすることができます。