すべてのプロダクト
Search
ドキュメントセンター

Object Storage Service:OSS-HDFS サービスとは

最終更新日:Mar 01, 2026

OSS-HDFS (JindoFS とも呼ばれます) は、Object Storage Service (OSS) 上に構築されたクラウドネイティブのデータレイクストレージ機能です。Hadoop 分散ファイルシステム (HDFS) のインターフェイスと完全な互換性を持ち、ビッグデータや AI コンピューティングのシナリオ向けに統合されたメタデータ管理を提供します。

OSS-HDFS は独立したストレージサービスではありません。既存の OSS バケットで有効にする一連の機能です。簡単な設定プロセスを経るだけで、ネイティブの HDFS と同じ方法でデータを管理・アクセスできると同時に、OSS のスケーラビリティ、信頼性、コスト効率のメリットを享受できます。

注意事項

警告

OSS-HDFS をバケットで有効にすると、OSS-HDFS を使用して書き込まれたデータは .dlsdata/ ディレクトリに保存されます。OSS-HDFS の可用性を確保し、データ損失を防ぐため、OSS-HDFS でサポートされていない方法で .dlsdata/ ディレクトリまたはその中のオブジェクトに書き込み操作を行わないでください。たとえば、ディレクトリの名前変更、ディレクトリの削除、ディレクトリ内のオブジェクトの削除などの書き込み操作は行わないでください。

他の OSS 機能を使用して .dlsdata/ ディレクトリに書き込み操作を行うと、データ損失、データ汚染、またはデータアクセス障害が発生する可能性があります。詳細については、「注意事項」をご参照ください。

課金ルール

  • データストレージ料金

    OSS-HDFS を使用する場合、データブロックは Object Storage Service (OSS) に保存されます。したがって、OSS-HDFS のデータブロックには OSS の課金方法が適用されます。詳細については、「課金の概要」をご参照ください。

メリット

OSS-HDFS は、ご利用の OSS バケットに以下の主要な機能を提供します。

  • HDFS 互換のアクセス:既存の Hadoop および Spark アプリケーションを変更することなく、標準の Hadoop FileSystem API を使用できます。

  • 階層型名前空間:名前変更や削除などのアトミックなディレクトリ操作をサポートし、オブジェクトを真のディレクトリ階層に整理します。

  • 統合ストレージ:データは基盤となる OSS バケットに保存されます。容量無制限、弾力的なスケーリング、高いセキュリティ、信頼性、可用性のメリットを享受できます。

  • 幅広いエコシステムのサポート:Spark、Hive、Flink、Presto、HBase、その他のビッグデータフレームワークと連携します。

  • エンタープライズレベルのセキュリティ:ファイルとディレクトリの権限、アクセス制御リスト (ACL)、拡張属性 (XAttrs) をサポートします。

  • コスト効率:保存データには OSS の課金方法が適用されます。別途ストレージサービス料金はかかりません。

階層型名前空間

階層型名前空間は OSS-HDFS のコア機能です。標準的なオブジェクトストレージのフラットな名前空間に加えて、OSS-HDFS はオブジェクトをディレクトリやネストされたサブディレクトリに整理できるディレクトリ階層を提供します。その統合されたメタデータ管理機能により、自動的な内部変換が可能になります。

メタデータ管理

OSS-HDFS は、メタデータ管理にマルチノードのアクティブ/アクティブ冗長化メカニズムを使用しています。従来の HDFS のアクティブ/スタンバイ NameNode アーキテクチャと比較して、この設計は優れたデータ冗長性を提供します。OSS-HDFS は、エクサバイト級のデータと数億のファイルを管理し、テラバイト級のスループットを実現できます。

Hadoop ユーザーにとって、これはデータのレプリケーションや変換を必要とせずに、ローカルの HDFS にアクセスするのと同じくらい効率的にデータにアクセスできることを意味します。これにより、ジョブ全体のパフォーマンスが大幅に向上し、メンテナンスコストが削減されます。

利用シーン

OSS-HDFS は、ビッグデータと AI の幅広いユースケースをサポートします。

Hive と Spark を使用したオフラインデータウェアハウス

OSS-HDFS は、ディレクトリ権限、ディレクトリの原子性、ミリ秒レベルの名前変更操作、setTimes 操作、拡張属性 (XAttrs)、アクセス制御リスト (ACL)、ローカル読み取りキャッシュアクセラレーションなど、ファイルとディレクトリのセマンティクスと操作をサポートします。これらの機能により、オープンソースの Hive および Spark のオフラインデータウェアハウスに非常に適しています。抽出・変換・書き出し (ETL) のシナリオでは、OSS-HDFS は標準の OSS バケットに比べて大幅なパフォーマンス上の利点を提供します。

オンライン分析処理 (OLAP)

OSS-HDFS は、append、truncate、flush、sync、pwrite などの基本的なファイル操作をサポートします。JindoFuse を介して POSIX を完全にサポートします。ClickHouse などの OLAP シナリオでは、ローカルディスクを OSS-HDFS に置き換えて、コンピューティングとストレージの分離ソリューションを実装できます。キャッシュシステムは、コスト効率を向上させるためのアクセラレーションを提供します。

コンピューティングとストレージが分離された HBase

OSS-HDFS は、flush 操作を含むファイルとディレクトリのセマンティクスと操作をサポートします。これを使用して、HBase のコンピューティングとストレージの分離ソリューションで HDFS を置き換えることができます。HBase と標準の OSS バケットを組み合わせたソリューションと比較して、HBase と OSS-HDFS を組み合わせたソリューションでは、HDFS API を使用して先行書き込みログ (WAL) を保存できます。これにより、ソリューション全体のアーキテクチャが大幅に簡素化されます。詳細については、「HBase の基盤ストレージとして OSS-HDFS を使用する」をご参照ください。

リアルタイムコンピューティング

OSS-HDFS は flush および truncate 操作をサポートしているため、Flink のリアルタイムコンピューティングシナリオにおけるシンクおよびチェックポイントのストレージソリューションとして、HDFS をシームレスに置き換えることができます。

データ移行

クラウドネイティブなデータレイクストレージソリューションとして、OSS-HDFS は HDFS のユーザーエクスペリエンスを最適化し、弾力的なスケーリングと従量課金制のコストメリットを提供することで、ストレージコストを大幅に削減します。オンプレミスの HDFS からクラウドへのリフトアンドシフト移行をサポートします。JindoDistCp ツールは、HDFS のファイルデータとファイルプロパティなどのメタデータを OSS-HDFS にシームレスに移行することをサポートします。また、HDFS のチェックサムに基づいた高速な比較機能も提供します。

サポートされているエンジン

オープンソースエコシステム

エンジン

リファレンス

Flink

JindoSDK を使用してオープンソース Flink で OSS-HDFS のデータを処理する

Flume

JindoSDK と Flume を使用して OSS-HDFS にデータを書き込む

Hadoop

JindoSDK と Hadoop を使用して OSS-HDFS にアクセスする

HBase

HBase の基盤ストレージとして OSS-HDFS を使用する

Hive

JindoSDK と Hive を使用して OSS-HDFS のデータを処理する

Impala

JindoSDK と Impala を使用して OSS-HDFS のデータをクエリする

Presto

JindoSDK と Trino を使用して OSS-HDFS のデータをクエリする

Spark

JindoSDK と Spark を使用して OSS-HDFS のデータをクエリする

Alibaba Cloud エコシステム

エンジン/プラットフォーム

リファレンス

EMR (Hive/Spark)

EMR Hive または Spark から OSS-HDFS にアクセスする

EMR Flink

EMR Flume

Flume を使用して EMR Kafka クラスターから OSS-HDFS にデータを同期する

EMR HBase

EMR クラスター上の HBase の基盤ストレージとして OSS-HDFS を使用する

EMR Hive

EMR クラスター上の Hive を使用して OSS-HDFS のデータを処理する

EMR Impala

EMR クラスター上の Impala を使用して OSS-HDFS のデータをクエリする

EMR Presto

EMR クラスター上の Trino を使用して OSS-HDFS のデータをクエリする

EMR Spark

EMR クラスター上の Spark を使用して OSS-HDFS のデータを処理する

EMR Sqoop

EMR クラスター上の Sqoop を使用して OSS-HDFS からデータを読み書きする

機能

機能

説明

リファレンス

RootPolicy

OSS-HDFS のカスタムプレフィックスを設定します。これにより、元の hdfs:// アクセスプレフィックスを変更することなく、ジョブを OSS-HDFS 上で直接実行できます。

RootPolicy を使用したデータアクセス

ProxyUser

他のユーザーに代わってファイルシステム操作を実行する権限をユーザーに付与します。これは、特定の権限を持つユーザーのみがデータを操作すべき機密データにアクセスする場合に便利です。

ProxyUser (プロキシユーザーの設定)

UserGroupsMapping

ユーザーとユーザーグループ間のマッピングを設定します。

UserGroupsMapping (ユーザーとグループのマッピングの管理)