OSS-HDFS とは - Object Storage Service - Alibaba Cloud ドキュメントセンター

OSS-HDFS (JindoFS) は、クラウドネイティブなデータレイクストレージ機能です。OSS-HDFS は、一元化されたメタデータ管理機能を提供し、Hadoop 分散ファイルシステム (HDFS) API と完全に互換性があります。OSS-HDFS を使用して、ビッグデータおよび AI 分野のデータレイクベースのコンピューティングシナリオでデータを管理できます。

使用上の注意

警告

バケットで OSS-HDFS を有効にすると、OSS-HDFS を使用して書き込まれたデータは .dlsdata/ ディレクトリに保存されます。OSS-HDFS の可用性を確保し、データ損失を防ぐために、OSS-HDFS でサポートされていないメソッドを使用して .dlsdata/ ディレクトリまたはその中のオブジェクトに書き込み操作を実行しないでください。たとえば、ディレクトリの名前変更、ディレクトリの削除、ディレクトリ内のオブジェクトの削除などの書き込み操作は実行しないでください。

OSS-HDFS を有効にした後、他の Object Storage Service (OSS) 機能を使用して .dlsdata/ ディレクトリにデータを書き込むと、データ損失、データ汚染、データへのアクセス不能などのリスクが発生する可能性があります。詳細については、「使用上の注意」をご参照ください。

課金ルール

データストレージ料金
OSS-HDFS を使用する場合、データブロックは Object Storage Service (OSS) に保存されます。したがって、OSS の課金方法が OSS-HDFS のデータブロックに適用されます。詳細については、「課金の概要」をご参照ください。

利点

既存の Hadoop および Spark アプリケーションを変更することなく、OSS-HDFS を使用できます。HDFS でデータを管理するのと同じように、OSS-HDFS を簡単に構成してデータにアクセスし、管理できます。また、無制限のストレージスペース、弾力性のあるスケーラビリティ、高いセキュリティ、信頼性、可用性など、OSS の特性を活用することもできます。

クラウドネイティブのデータレイクは OSS-HDFS に基づいています。OSS-HDFS を使用して、エクサバイト単位のデータまたは数億のオブジェクトを管理し、テラバイト単位のスループットを得ることができます。OSS-HDFS は、フラットな名前空間機能と階層的な名前空間機能を提供し、ビッグデータストレージの要件を満たします。階層的な名前空間機能を使用して、階層的なディレクトリ構造でオブジェクトを管理できます。OSS-HDFS は、フラットな名前空間と階層的な名前空間の間でストレージ構造を自動的に変換し、オブジェクトのメタデータを一元的に管理するのに役立ちます。従来の HDFS の NameNode のアクティブ/スタンバイ冗長アーキテクチャと比較して、OSS-HDFS はメタデータ管理のためのマルチノードのアクティブ/アクティブ冗長メカニズムを実装し、信頼性とスケーラビリティを大幅に向上させます。Hadoop ユーザーは、オブジェクトのフォーマットをコピーしたり変換したりすることなく、OSS-HDFS 内のオブジェクトにアクセスできます。これにより、ジョブのパフォーマンスが向上し、メンテナンスコストが削減されます。

特徴

特徴	説明	リファレンス
RootPolicy	RootPolicy を使用して、OSS-HDFS のカスタムプレフィックスを構成できます。これにより、元のアクセスプレフィックス `hdfs://` を変更することなく、ジョブを OSS-HDFS 上で実行できます。	RootPolicy を使用した OSS-HDFS へのアクセス
ProxyUser	ProxyUser コマンドは、ユーザーが他のユーザーに代わって機密データへのアクセスなどの操作を実行することを承認するために使用されます。	ProxyUser
UserGroupsMapping	UserGroupsMapping コマンドは、ユーザーとユーザーグループ間のマッピングを管理するために使用されます。	UserGroupsMapping

シナリオ

OSS-HDFS は、ビッグデータおよび AI 分野のコンピューティングシナリオに適しています。OSS-HDFS は、次のシナリオで使用できます。

Hive と Spark を使用したオフラインデータウェアハウジング

OSS-HDFS は、ファイルとディレクトリの操作をサポートし、ファイルとディレクトリの権限を管理できます。OSS-HDFS は、ディレクトリのアトミック操作とミリ秒単位の名前変更操作もサポートします。OSS-HDFS は、setTimes を使用した時間構成、拡張属性 (XAttrs)、ACL、ローカルキャッシュへの高速アクセスなどの機能をサポートします。これにより、OSS-HDFS は Hive と Spark を使用したオフラインデータウェアハウジングに適しています。抽出・変換・書き出し (ETL) 機能を使用してデータを処理する場合、OSS-HDFS は OSS 標準バケットよりも優れたパフォーマンスを提供します。

OLAP

OSS-HDFS は、append、truncate、flush、pwrite などの基本的なファイル関連の操作をサポートします。OSS-HDFS は JindoFuse を使用して POSIX をサポートします。これにより、オンライン分析処理 (OLAP) に ClickHouse を使用する場合、オンプレミスのディスクを置き換えて、ストレージとコンピューティングを分離できます。OSS-HDFS のキャッシュシステムは、操作に必要な時間を短縮し、低コストでパフォーマンスを向上させるのに役立ちます。

HBase のストレージとコンピューティングの分離

OSS-HDFS は、ファイルとディレクトリの操作、および flush 操作をサポートします。HDFS の代わりに OSS-HDFS を使用して、HBase のストレージとコンピューティングを分離できます。HBase と OSS 標準バケットの組み合わせと比較して、HBase と OSS-HDFS の組み合わせは、後者が HDFS を使用して Web Application Firewall (WAF) ログを保存するため、より合理化されたサービスアーキテクチャを提供します。詳細については、「HBase のストレージバックエンドとして OSS-HDFS を使用する」をご参照ください。

リアルタイムコンピューティング

OSS-HDFS は、flush 操作と truncate 操作をサポートします。HDFS の代わりに OSS-HDFS を使用して、Flink のリアルタイムコンピューティングシナリオでシンクとチェックポイントを保存できます。

データ移行

新しいクラウドネイティブのデータレイクストレージサービスとして、OSS-HDFS を使用すると、データセンターの HDFS から Alibaba Cloud にデータを移行でき、HDFS ユーザーのエクスペリエンスを最適化し、スケーラブルで費用対効果の高いストレージサービスを提供します。Jindo DistCp を使用して、HDFS から OSS-HDFS にデータを移行できます。データ移行中に、HDFS チェックサムを使用してデータの整合性を検証できます。

サポートされているエンジン

エコシステム	エンジン/プラットフォーム	リファレンス
オープンソースエコシステム	Flink	オープンソース Flink を使用して OSS-HDFS にデータを書き込む
	Flume	JindoSDK と Flume を使用して OSS-HDFS にデータを書き込む
	Hadoop	JindoSDK を使用して Hadoop で OSS-HDFS にアクセスする
	HBase	HBase の基盤ストレージとして OSS-HDFS を使用する
	Hive	JindoSDK と Hive を使用して OSS-HDFS に保存されているデータを処理する
	Impala	JindoSDK と Impala を使用して OSS-HDFS サービス内のデータをクエリする
	Presto	JindoSDK と Presto を使用して OSS-HDFS に保存されているデータをクエリする
	Spark	JindoSDK と Spark を使用して OSS-HDFS 内のデータをクエリする
Alibaba Cloud エコシステム	EMR	EMR Hive または Spark から OSS-HDFS にアクセスする
	Flink	EMR クラスター上の Apache Flink を使用して OSS-HDFS にデータを書き込む Realtime Compute for Apache Flink を使用して OSS または OSS-HDFS からデータを読み書きする
	Flume	Flume を使用して EMR Kafka クラスターから OSS-HDFS にデータを同期する
	HBase	EMR クラスター上の HBase の基盤ストレージとして OSS-HDFS を使用する
	Hive	EMR クラスター上の Hive を使用して OSS-HDFS に保存されているデータを処理する
	Impala	EMR クラスター上の Impala を使用して OSS-HDFS に保存されているデータをクエリする
	Presto	EMR クラスター上の Presto を使用して OSS-HDFS に保存されているデータをクエリする
	Spark	EMR クラスター上の Spark を使用して OSS-HDFS に保存されているデータを処理する
	Sqoop	EMR クラスター上の Apache Sqoop を使用して OSS-HDFS に保存されているデータへの読み書きアクセスを実装する