OSS-HDFS の概要 - クラウドネイティブデータレイクストレージ - Object Storage Service

注意事項

警告

バケットで OSS-HDFS を有効化すると、OSS-HDFS はそのデータをバケット内の.dlsdata/ ディレクトリに保存します。サービスの中断やデータ損失を防ぐため、このディレクトリおよびその内部オブジェクトに対して、OSS-HDFS が提供する方法以外でリネームや削除などの書き込み操作を行わないでください。
アカウント残高の滞納や依存する RAM ロール AliyunOSSDlsDefaultRole の削除などの問題により HDFS 操作が影響を受けると、HDFS バックグラウンドサービスがセーフモードに入る可能性があります。このモードでは、監査ログ、非同期削除、自動ストレージ階層化などのすべてのバックグラウンドサービスが一時停止されます。問題が解決されると、これらのサービスは自動的に再開されます。

OSS-HDFS を有効にした後、他の OSS 機能で.dlsdata/ディレクトリに書き込むと、「前提条件」で説明されているように、データの損失、破損、またはデータにアクセスできなくなる可能性があります。

課金ルール

データストレージ料金
OSS-HDFS を使用する場合、データブロックは Object Storage Service (OSS) に保存されます。したがって、OSS の課金方法が OSS-HDFS のデータブロックに適用されます。詳細については、「課金の概要」をご参照ください。

利点

OSS-HDFS は、既存の Hadoop および Spark アプリケーションを変更なしで利用できます。基本的な設定後、ネイティブ HDFS と同様にデータを管理およびアクセスでき、さらに、事実上無制限の容量、伸縮自在なスケーラビリティ、強化されたセキュリティ、信頼性、可用性といった OSS の利点を享受できます。

OSS-HDFS は、テラバイトレベルのスループットで、エクサバイト規模のデータと数十億のファイルを管理します。標準的なオブジェクトストレージのフラットな名前空間とは異なり、オブジェクトをディレクトリに整理するための階層型名前空間を提供し、統一されたメタデータ管理を通じて名前空間の自動変換を行います。従来の HDFS におけるアクティブ/スタンバイの NameNode 冗長性の代わりに、OSS-HDFS はマルチノードのアクティブ/アクティブ冗長性を採用し、高いデータ復元性を実現します。Hadoop ユーザーは、レプリケーションや変換を行うことなく、ローカル HDFS と同等の効率でデータにアクセスできるため、ジョブのパフォーマンスが向上し、メンテナンスコストが削減されます。

機能

機能	説明	関連ドキュメント
RootPolicy	OSS-HDFS にカスタムプレフィックスを設定することで、ジョブが元のアクセスプレフィックス`hdfs://`を変更することなく実行できるようになります。	RootPolicy を使用した OSS-HDFS へのアクセス
ProxyUser	ProxyUser コマンドは、機密データへのアクセスなど、他のユーザーに代わってファイルシステム操作を実行する権限をユーザーに付与します。	ProxyUser (プロキシユーザーの設定)
UserGroupsMapping	UserGroupsMapping は、ユーザーとユーザーグループ間のマッピングを設定します。	UserGroupsMapping (ユーザーとグループのマッピングの管理)

ユースケース

OSS-HDFS は、ビッグデータと AI の幅広いユースケースをサポートしています：

Hive と Spark

OSS-HDFS は、Hive と Spark で構築されたオフラインデータウェアハウスに適しています。ファイルとディレクトリのセマンティクス、権限、アトミックなディレクトリ操作、ミリ秒レベルの名前変更、setTimes、拡張属性 (XAttrs)、ACL、およびローカル読み取りキャッシュアクセラレーションをネイティブにサポートします。抽出、変換、ロード (ETL) ワークロードにおいて、OSS-HDFS は標準の OSS バケットを大幅に上回るパフォーマンスを発揮します。

OLAP

OSS-HDFS は、アペンド、truncate、flush、sync、pwriteなどのファイル操作をサポートし、JindoFuse を通じて完全な POSIX サポートを提供します。これにより、ClickHouse などのオンライン分析処理 (OLAP) シナリオでローカルディスクを置き換え、ストレージとコンピュートを分離できます。組み込みのキャッシュ機能により、パフォーマンスがさらに向上します。

HBase の分離

OSS-HDFS は、ファイルとディレクトリのセマンティクスおよびflush操作をネイティブにサポートしているため、HBase のストレージとコンピュートの分離アーキテクチャにおいて HDFS を置き換えることができます。標準の OSS バケットと比較して、先行書き込みログ (WAL) を OSS-HDFS に直接保存できるため、アーキテクチャが簡素化されます。「HBase の基盤ストレージとしての OSS-HDFS の使用」。

リアルタイムコンピューティング

OSS-HDFS はflushおよびtruncate操作をサポートしており、Flink のリアルタイムコンピューティングアプリケーションにおけるシンクとチェックポイントとして、HDFS をシームレスに置き換えることができます。

データ移行

OSS-HDFS を利用することで、オンプレミスデータセンターからクラウドへの HDFS データのスムーズな移行が可能になり、弾力的なスケーリングと従量課金制の料金体系によってストレージコストを削減できます。JindoDistCp は、ファイル属性やメタデータを含む HDFS データを OSS-HDFS に移行し、HDFS のチェックサムに基づいた高速なデータ比較を提供します。

サポート対象エンジン

エコシステム	エンジン/プラットフォーム	関連ドキュメント
オープンソースエコシステム	Flink	オープンソース Flink と JindoSDK を使用した OSS-HDFS のデータ処理
	Flume	Flume と JindoSDK を使用した OSS-HDFS へのデータ書き込み
	Hadoop	Hadoop と JindoSDK を使用した OSS-HDFS へのアクセス
	HBase	HBase の基盤ストレージとしての OSS-HDFS の使用
	Hive	Hive と JindoSDK を使用した OSS-HDFS のデータ処理
	Impala	Impala と JindoSDK を使用した OSS-HDFS のデータクエリ
	Trino	Trino と JindoSDK を使用した OSS-HDFS のデータクエリ
	Spark	Spark と JindoSDK を使用した OSS-HDFS のデータクエリ
Alibaba Cloud エコシステム	EMR	EMR 上の Hive または Spark からの OSS-HDFS へのアクセス
	Flink	EMR Flink から OSS-HDFS への回復可能な書き込みの実行 Realtime Compute for Apache Flink を使用した OSS または OSS-HDFS の読み書き
	Flume	Flume を使用した EMR Kafka クラスターから OSS-HDFS へのデータ同期
	HBase	EMR クラスター上の HBase の基盤ストレージとしての OSS-HDFS の使用
	Hive	EMR クラスター上の Hive を使用した OSS-HDFS のデータ処理
	Impala	EMR クラスター上の Impala を使用した OSS-HDFS のデータクエリ
	Trino	EMR クラスター上の Trino を使用した OSS-HDFS のデータクエリ
	Spark	EMR クラスター上の Spark を使用した OSS-HDFS のデータ処理
	Sqoop	EMR クラスター上の Sqoop を使用した OSS-HDFS のデータの読み書き