OSS-HDFS (JindoFS とも呼ばれます) は、Object Storage Service (OSS) 上に構築されたクラウドネイティブのデータレイクストレージ機能です。Hadoop 分散ファイルシステム (HDFS) のインターフェイスと完全な互換性を持ち、ビッグデータや AI コンピューティングのシナリオ向けに統合されたメタデータ管理を提供します。
OSS-HDFS は独立したストレージサービスではありません。既存の OSS バケットで有効にする一連の機能です。簡単な設定プロセスを経るだけで、ネイティブの HDFS と同じ方法でデータを管理・アクセスできると同時に、OSS のスケーラビリティ、信頼性、コスト効率のメリットを享受できます。
注意事項
OSS-HDFS をバケットで有効にすると、OSS-HDFS を使用して書き込まれたデータは .dlsdata/ ディレクトリに保存されます。OSS-HDFS の可用性を確保し、データ損失を防ぐため、OSS-HDFS でサポートされていない方法で .dlsdata/ ディレクトリまたはその中のオブジェクトに書き込み操作を行わないでください。たとえば、ディレクトリの名前変更、ディレクトリの削除、ディレクトリ内のオブジェクトの削除などの書き込み操作は行わないでください。
他の OSS 機能を使用して .dlsdata/ ディレクトリに書き込み操作を行うと、データ損失、データ汚染、またはデータアクセス障害が発生する可能性があります。詳細については、「注意事項」をご参照ください。
課金ルール
データストレージ料金
OSS-HDFS を使用する場合、データブロックは Object Storage Service (OSS) に保存されます。したがって、OSS-HDFS のデータブロックには OSS の課金方法が適用されます。詳細については、「課金の概要」をご参照ください。
メリット
OSS-HDFS は、ご利用の OSS バケットに以下の主要な機能を提供します。
HDFS 互換のアクセス:既存の Hadoop および Spark アプリケーションを変更することなく、標準の Hadoop FileSystem API を使用できます。
階層型名前空間:名前変更や削除などのアトミックなディレクトリ操作をサポートし、オブジェクトを真のディレクトリ階層に整理します。
統合ストレージ:データは基盤となる OSS バケットに保存されます。容量無制限、弾力的なスケーリング、高いセキュリティ、信頼性、可用性のメリットを享受できます。
幅広いエコシステムのサポート:Spark、Hive、Flink、Presto、HBase、その他のビッグデータフレームワークと連携します。
エンタープライズレベルのセキュリティ:ファイルとディレクトリの権限、アクセス制御リスト (ACL)、拡張属性 (XAttrs) をサポートします。
コスト効率:保存データには OSS の課金方法が適用されます。別途ストレージサービス料金はかかりません。
階層型名前空間
階層型名前空間は OSS-HDFS のコア機能です。標準的なオブジェクトストレージのフラットな名前空間に加えて、OSS-HDFS はオブジェクトをディレクトリやネストされたサブディレクトリに整理できるディレクトリ階層を提供します。その統合されたメタデータ管理機能により、自動的な内部変換が可能になります。
メタデータ管理
OSS-HDFS は、メタデータ管理にマルチノードのアクティブ/アクティブ冗長化メカニズムを使用しています。従来の HDFS のアクティブ/スタンバイ NameNode アーキテクチャと比較して、この設計は優れたデータ冗長性を提供します。OSS-HDFS は、エクサバイト級のデータと数億のファイルを管理し、テラバイト級のスループットを実現できます。
Hadoop ユーザーにとって、これはデータのレプリケーションや変換を必要とせずに、ローカルの HDFS にアクセスするのと同じくらい効率的にデータにアクセスできることを意味します。これにより、ジョブ全体のパフォーマンスが大幅に向上し、メンテナンスコストが削減されます。
利用シーン
OSS-HDFS は、ビッグデータと AI の幅広いユースケースをサポートします。
Hive と Spark を使用したオフラインデータウェアハウス
OSS-HDFS は、ディレクトリ権限、ディレクトリの原子性、ミリ秒レベルの名前変更操作、setTimes 操作、拡張属性 (XAttrs)、アクセス制御リスト (ACL)、ローカル読み取りキャッシュアクセラレーションなど、ファイルとディレクトリのセマンティクスと操作をサポートします。これらの機能により、オープンソースの Hive および Spark のオフラインデータウェアハウスに非常に適しています。抽出・変換・書き出し (ETL) のシナリオでは、OSS-HDFS は標準の OSS バケットに比べて大幅なパフォーマンス上の利点を提供します。
オンライン分析処理 (OLAP)
OSS-HDFS は、append、truncate、flush、sync、pwrite などの基本的なファイル操作をサポートします。JindoFuse を介して POSIX を完全にサポートします。ClickHouse などの OLAP シナリオでは、ローカルディスクを OSS-HDFS に置き換えて、コンピューティングとストレージの分離ソリューションを実装できます。キャッシュシステムは、コスト効率を向上させるためのアクセラレーションを提供します。
コンピューティングとストレージが分離された HBase
OSS-HDFS は、flush 操作を含むファイルとディレクトリのセマンティクスと操作をサポートします。これを使用して、HBase のコンピューティングとストレージの分離ソリューションで HDFS を置き換えることができます。HBase と標準の OSS バケットを組み合わせたソリューションと比較して、HBase と OSS-HDFS を組み合わせたソリューションでは、HDFS API を使用して先行書き込みログ (WAL) を保存できます。これにより、ソリューション全体のアーキテクチャが大幅に簡素化されます。詳細については、「HBase の基盤ストレージとして OSS-HDFS を使用する」をご参照ください。
リアルタイムコンピューティング
OSS-HDFS は flush および truncate 操作をサポートしているため、Flink のリアルタイムコンピューティングシナリオにおけるシンクおよびチェックポイントのストレージソリューションとして、HDFS をシームレスに置き換えることができます。
データ移行
クラウドネイティブなデータレイクストレージソリューションとして、OSS-HDFS は HDFS のユーザーエクスペリエンスを最適化し、弾力的なスケーリングと従量課金制のコストメリットを提供することで、ストレージコストを大幅に削減します。オンプレミスの HDFS からクラウドへのリフトアンドシフト移行をサポートします。JindoDistCp ツールは、HDFS のファイルデータとファイルプロパティなどのメタデータを OSS-HDFS にシームレスに移行することをサポートします。また、HDFS のチェックサムに基づいた高速な比較機能も提供します。
サポートされているエンジン
オープンソースエコシステム
|
エンジン |
リファレンス |
|
Flink |
|
|
Flume |
|
|
Hadoop |
|
|
HBase |
|
|
Hive |
|
|
Impala |
|
|
Presto |
|
|
Spark |
Alibaba Cloud エコシステム
|
エンジン/プラットフォーム |
リファレンス |
|
EMR (Hive/Spark) |
|
|
EMR Flink |
|
|
EMR Flume |
|
|
EMR HBase |
|
|
EMR Hive |
|
|
EMR Impala |
|
|
EMR Presto |
|
|
EMR Spark |
|
|
EMR Sqoop |
機能
|
機能 |
説明 |
リファレンス |
|
RootPolicy |
OSS-HDFS のカスタムプレフィックスを設定します。これにより、元の |
|
|
ProxyUser |
他のユーザーに代わってファイルシステム操作を実行する権限をユーザーに付与します。これは、特定の権限を持つユーザーのみがデータを操作すべき機密データにアクセスする場合に便利です。 |
|
|
UserGroupsMapping |
ユーザーとユーザーグループ間のマッピングを設定します。 |