SmartData は、E-MapReduce(EMR)Jindo エンジンのストレージサービスです。SmartData は、EMR コンピューティングエンジンに一元化されたストレージ、キャッシング、コンピューティングの最適化、および機能拡張を提供します。SmartData には、JindoFileSystem(JindoFS)、JindoTable、および関連ツールセットが含まれています。このトピックでは、SmartData 3.0.x の更新について説明します。
JindoFS ストレージの最適化
- Namespace Service のスタンドアロン構成が改善されました。この場合、メタデータは更新され、Tablestore インスタンスに非同期で書き込まれます。
- メタデータストレージバックエンドとして Tablestore インスタンスを使用する構成は削除されました。 Tablestore ベースの HA ソリューションはサポートされなくなりました。
- ファイルデータは、コストを節約するために OSS のアーカイブモードで保存できます。
- JindoFS 階層型ストレージコマンド Archive、Unarchive、および Status が提供されています。これらのコマンドを使用して、指定したディレクトリにデータをアーカイブし、アーカイブ操作の進行状況と関連ステータスを表示できます。
- ls2 コマンドは、ファイル情報を表示するために提供されています。
- fsimage のオフラインエクスポート、分析、およびクエリがサポートされています。
- JindoFS へのクロス クラスターアクセスが実装されました。
JindoFS の階層型ストレージコマンドの詳細については、「JindoFS の階層型ストレージコマンドの使用」をご参照ください。
JindoFS キャッシングの最適化
- データをキャッシュするために使用されるディスクの構造が最適化されました。システムディスクへの依存関係が削除されました。データディスクは互いに独立しています。ディスクリソースをオフラインにする操作が強化されました。
- キャッシュサービスが改善されました。ノードのフォールトトレランスとノードの切断操作が強化されました。
- キャッシュブロックからのデータが書き込まれるディスクを選択するために使用されるポリシーが最適化されました。デフォルトでは、ラウンドロビン スケジューリングがサポートされています。
- 読み取りおよび書き込みプロセスが改善されました。フォールトトレランスが強化されました。
- JindoFS 階層型ストレージコマンド Cache、Uncache、および Status が提供されています。これらのコマンドを使用して、指定したディレクトリにデータをキャッシュし、データをプリロードし、キャッシュの進行状況と関連ステータスを表示できます。
- 小さなファイルが多くのキャッシュ領域を占有するという問題が解決されました。関連するメトリックが正しく測定されます。
JindoTable コンピューティングの最適化
- JindoTable は -optimize コマンドを提供します。このコマンドを使用して、パーティション内の小さなファイルのマージなど、Hive テーブル操作を最適化できます。
- JindoTable は -archive、-unarchive、および -status コマンドを提供します。これらのコマンドを使用して、指定したテーブルまたはパーティションにデータをアーカイブし、アーカイブ操作の進行状況と関連ステータスを表示できます。
- JindoTable は -cache、-uncache、および -status コマンドを提供します。これらのコマンドを使用して、指定したテーブルまたはパーティションにデータをキャッシュし、データをプリロードし、キャッシュの進行状況と関連ステータスを表示できます。
- MaxCompute テーブルを JindoFS にエクスポートできます。その後、機械学習トレーニングの前に構造化データをプリロードできます。
JindoTable の詳細については、「JindoTable の使用」をご参照ください。
JindoFS での OSS ストレージのスケーラビリティ
- クライアントでの Ranger 権限の統合がサポートされています。このようにして、OSS でさまざまな操作を実行するための権限を取得できます。 JindoFS のサービスレコードを使用して、Ranger 権限を確認できます。
- クライアントでの操作監査がサポートされています。このようにして、OSS でさまざまな操作を実行するための権限を取得できます。 JindoFS を使用して生成された操作レコードは、監査に使用されます。
- Hadoop クレデンシャル プロバイダーがサポートされています。一般的な Hadoop メソッドを使用して、OSS の AccessKey ペア情報を構成できます。
- Flink コネクタがサポートされています。 OSS は、Flink エンジンでソース、シンク、またはチェックポイントとして機能します。
- Hadoop コネクタなどの Lite エディションの JindoFS OSS SDK が提供されており、非標準環境に適しています。自己管理型データセンターは非標準環境です。
JindoManager システム管理
Web UI にアクセスして、ストレージシステムのステータスとファイル統計、および JindoFS のキャッシュシステムのキャッシュメトリックに関する統計を表示できます。
JindoTools
Jindo DistCp の配布メカニズムが改善されました。 EMR クラスターと非 EMR クラスターには、異なる配布パッケージが提供されています。
Jindo DistCp は、自己管理型データセンターなどの非標準環境に適した Lite エディションを提供します。