すべてのプロダクト
Search
ドキュメントセンター

Hologres:データレイクの高速化

最終更新日:Jun 12, 2025

リアルタイムデータレイクソリューションでは、外部テーブルを使用してオブジェクトストレージサービス(OSS)でのデータの読み取りと書き込みを高速化できます。 これにより、クエリの効率が向上し、データ処理が簡素化されます。

背景情報

クラウドストレージ、特にオブジェクトストレージの進化に伴い、データレイクソリューションは徐々にクラウドネイティブテクノロジーへと進化しています。 Alibaba Cloud Lakehouseアーキテクチャでは、OSSをクラウドデータレイクの統合ストレージとして使用し、安全で費用対効果が高く、信頼性とスケーラビリティの高いデータレイクソリューションを提供しています。

リアルタイムデータレイクソリューションは、データレイクの大きな発展を示しています。 このソリューションは、Lakehouseアーキテクチャにおけるデータのリアルタイム性とストリーミングパフォーマンスに重点を置いています。 Hologresは、リアルタイムのデータ書き込み、リアルタイムのデータ更新、およびリアルタイムのデータ分析をサポートしています。 これらの強力なエンジン機能に基づいて、HologresはData Lake Formation(DLF)、Hive Metastore Service(HMS)、OSS、およびさまざまなエコシステム機能と統合し、包括的なリアルタイムデータレイクソリューションを提供します。 このソリューションは、外部テーブルを使用することで、データを移行することなく、OSS内のさまざまな種類のデータの読み取りと書き込みを高速化します。 外部テーブルは、データを格納するのではなく、フィールドをマッピングするために使用されます。 これにより、開発コストと運用保守コストが削減され、データサイロが解消され、ビジネスの洞察が得られます。

次の表に、リアルタイムデータレイクソリューションに関連するAlibaba Cloudサービスを示します。

サービス

説明

参照

DLF

Alibaba Cloud DLFは、クラウドでデータレイクとデータレイクハウスを構築するのに役立つフルマネージドサービスです。 DLFは、クラウド内のデータレイクに対して、一元化されたメタデータ管理、一元化された権限とセキュリティ管理、および便利なデータ取り込みと探索機能を提供します。

Data Lake Formationとは

HMS

HMSはApache Hiveのコアコンポーネントであり、HiveおよびSparkテーブルのメタデータ情報を管理するためのメタデータリポジトリとして機能します。 メタデータ情報には、テーブルデータの格納場所、およびテーブル名、列名、データ型、パーティション情報などのテーブルスキーマが含まれます。 HMSはメタデータサービスを提供するために使用され、HiveおよびSparkデータクエリをサポートします。

Hive Metastore Server

OSS

DLFは、クラウドデータレイクの統合ストレージとしてOSSを使用します。 OSSは、安全で費用対効果が高く、信頼性の高いサービスであり、大量のデータとあらゆる種類のファイルを格納できます。 OSSは 99.9999999999% のデータ耐久性を提供でき、データレイクストレージのデファクトスタンダードになっています。

OSSとは

OSS-HDFS(JindoFS)は、クラウドネイティブのデータレイクストレージサービスです。 OSS-HDFSはHadoopエコシステムのコンピューティングエンジンとシームレスに統合されており、HiveおよびSparkに基づくビッグデータのオフラインETL(抽出、変換、ロード)において、ネイティブOSSよりも優れたパフォーマンスを提供します。 OSS-HDFSはHadoop Distributed File System(HDFS)APIと完全に互換性があり、Portable Operating System Interface(POSIX)をサポートしています。 OSS-HDFSを使用して、ビッグデータおよびAI分野のデータレイクベースのコンピューティングシナリオでデータを管理できます。

OSS-HDFSとは

アーキテクチャ

次の図は、Hologresに推奨されるデータレイクアーキテクチャを示しています。 このアーキテクチャは、収集、保存、管理からアプリケーションまでのデータライフサイクル全体を網羅しています。 Hologresは、強力なエンジン機能と柔軟な自動スケーリングポリシーを活用して、データレイクとデータウェアハウスを統合するエンドツーエンドのソリューションを提供します。

統合メタデータ管理

  • DLF および HMS メタデータ サービスをサポートします。

  • 外部データベースを使用して、外部カタログへのワンクリック マッピングをサポートします。

  • データレイクにおけるメタデータ変更の自動検出とリフレッシュをサポートします。

  • データレイクで DDL 文を使用してデータベースとテーブルを作成することをサポートします。 Paimon がサポートされています。

統合コンピューティング リソースとパターン

  • ダイナミック テーブル機能を使用して、レイクハウス データの階層化と処理を実装します。

  • データレイクにおける高パフォーマンス OLAP 分析とデータのバックライトをサポートします。

  • 仮想ウェアハウス インスタンスを使用して、リソースの弾力性と隔離を確保します。

  • サーバーレス タスクをサポートします。これにより、所有コスト ゼロが保証され、従量課金制がサポートされます。

  • 主要な BI ツールとのシームレスな統合をサポートします。

オープン レイクハウス形式のサポート

  • Paimon、Iceberg、Hudi、Delta、ORC、および Parquet レイク テーブル形式のデータの高速クエリをサポートします。

  • Paimon、Iceberg、ORC、および Parquet 形式でのデータのバックライトをサポートします。

使用上の注意

次の表に、Hologresが外部データソースをマッピングするために提供するメソッドを示します。

マッピング方法

構文

説明

サポートされているデータソース

バージョン要件

シナリオ

CREATE EXTERNAL DATABASE

この文は、Hologres インスタンスに外部データベースを作成するために使用されます。 外部データベースを使用して、外部データソースのメタデータを Hologres にロードできます。 これにより、Hologres で内部データと外部データを管理できるようになり、統合レイクハウス アーキテクチャを使用してメタデータの一元管理が容易になります。

  • DLF 1.0

  • DLF 2.0

  • MaxCompute

V3.0

このメソッドは、外部データソースのカタログのデータベースと、そのデータベース内のすべてのテーブルをHologresにマッピングする場合に適用できます。

FOREIGN TABLE

IMPORT FOREIGN SCHEMA

この文は、Hologres のスキーマに一度に複数の外部テーブルを作成して、外部データソースの特定のテーブルを自動的にマッピングするために使用されます。

  • DLF 1.0

  • DLF 2.0

  • HMS

  • MaxCompute

  • Hologres

V0.8

このメソッドは、外部データソースのデータベースまたはスキーマ内のすべてのテーブルをHologresのスキーマにマッピングする場合に適用できます。

CREATE FOREIGN TABLE

この文は、Hologres に外部テーブルを手動で作成して、外部データソースのテーブルまたはテーブル内の特定のフィールドをマッピングするために使用されます。

  • DLF 1.0

  • DLF 2.0

  • HMS

  • MaxCompute

  • Hologres

V0.8

このメソッドは、特定のテーブルまたはテーブル内の特定のフィールドをHologresにマッピングする場合に適用できます。

テーブル形式とファイル形式

テーブル形式

テーブル形式

サポートされているバージョン

サポートされている圧縮方式

Hudi

Hologres V1.3以降でデータ読み取りがサポートされています

  • UNCOMPRESSED

  • GZIP

  • SNAPPY

  • BROTLI

  • LZ4

  • ZSTD

  • LZ4_RAW

  • None

  • ZLIB

Delta Lake

Hologres V1.3以降でデータ読み取りがサポートされています

  • UNCOMPRESSED

  • GZIP

  • SNAPPY

  • BROTLI

  • LZ4

  • ZSTD

  • LZ4_RAW

Apache Paimon

  • Hologres V2.1以降でデータ読み取りがサポートされています

  • Hologres V3.0以降で、DLF 2.0に基づくレイクテーブルからのデータ読み取りとApache Paimon追加専用テーブルへのデータ書き込みがサポートされています

  • PARQUET

    • UNCOMPRESSED

    • SNAPPY

    • GZIP

    • LZO

    • BROTLI

    • LZ4

    • ZSTD

  • ORC

    • NONE

    • ZLIB

    • SNAPPY

    • LZO

    • LZ4

Iceberg

Hologres V3.0で、DLF 1.0およびHMSに基づくV1およびV2のIcebergテーブルからのデータ読み取りがサポートされています

  • PARQUET

    • UNCOMPRESSED

    • SNAPPY

    • GZIP

    • LZO

    • BROTLI

    • LZ4

    • ZSTD

  • ORC

    • NONE

    • ZLIB

    • SNAPPY

    • LZO

    • LZ4

ファイル形式

ファイル形式

サポートされているバージョン

サポートされている圧縮方式

CSV

Hologres V1.3以降でデータの読み取りと書き込みがサポートされています

COMPRESSION_CODEC

  • BZip2Codec

  • DefaultCodec

  • GzipCodec

  • SnappyCodec

Parquet

Hologres V1.3以降でデータの読み取りと書き込みがサポートされています

  • UNCOMPRESSED

  • GZIP

  • SNAPPY

  • BROTLI

  • LZ4

  • ZSTD

  • LZ4_RAW

ORC

Hologres V1.3以降でデータの読み取りと書き込みがサポートされています

  • None

  • ZLIB

  • SNAPPY

SequenceFile

Hologres V1.3以降でデータの読み取りと書き込みがサポートされています

  • COMPRESSION_CODEC

    • BZip2Codec

    • DefaultCodec

    • GzipCodec

    • SnappyCodec

  • COMPRESSION_TYPE

    • NONE

    • RECORD

    • BLOCK

データ型のマッピング

DLFとHologres間のデータ型のマッピングの詳細については、「データ型」をご参照ください。

機能概要

  • Hologres V1.1以降では、OSSからORC、Parquet、CSV、およびSequenceFile形式のデータを読み取ることができます。 Hologres V1.3以降では、ORC、Parquet、CSV、またはSequenceFile形式のデータをOSSに書き込んだり、OSSのApache HudiテーブルまたはDelta Lakeテーブルからデータを読み取ったりできます。

    説明

    Hologresコンソールのインスタンス詳細ページで、Hologresインスタンスのバージョンを確認できます。 Hologresインスタンスのバージョンが V1.1 より前の場合は、HologresコンソールでHologresインスタンスを手動でアップグレードするか、Hologres DingTalkグループに参加してインスタンスのアップグレードを申請してください。 Hologresインスタンスを手動でアップグレードする方法の詳細については、「インスタンスのアップグレード」をご参照ください。 Hologres DingTalkグループへの参加方法の詳細については、「Hologresのオンラインサポートを受ける」をご参照ください。

  • Hologres V1.3.25以降では、DLFのマルチカタログ機能を使用して、テスト環境、開発環境、および部門間インスタンスのメタデータを分離できます。 これにより、ビジネスのセキュリティを確保できます。 マルチカタログ機能の詳細については、「カタログ」をご参照ください。

  • Hologres V1.3.26以降では、OSS-HDFSとのデータの読み取りと書き込みができます。 データレイクアクセラレーションのサービス機能と境界がさらに拡張されます。 HologresはHadoopエコシステムのコンピューティングエンジンとシームレスに統合されています。 これにより、OSS-HDFSに格納されているデータの読み取りと書き込みが高速化され、Hadoopエコシステムにおけるデータのリアルタイム分析効率が大幅に向上し、ビッグデータやAIなどの分野におけるデータレイクのフェデレーションクエリとリアルタイムデータ分析の要件が満たされます。

  • Hologres V2.1.0以降では、Apache Paimon外部テーブルからデータを読み取ることができます。 Apache Paimonは、ストリーミングモードとバッチモードでデータを処理できる統合レイクストレージプラットフォームです。 Apache Paimonは、高スループットのデータ書き込みと低レイテンシのデータクエリをサポートしており、データレイク内をデータがリアルタイムに流れるようにします。 ユーザーは、Apache Paimonを使用して、データレイクにおけるデータのリアルタイム処理とオフライン処理を統合できます。 詳細については、「Apache Paimon」をご参照ください。

  • Hologres V2.2以降では、新しい外部テーブルアーキテクチャが使用されます。 このアーキテクチャでは、Hologres Query Engine(HQE)を使用して、ORCおよびParquet形式のファイルから直接データを読み取ったり、ローカルSSDに基づくキャッシュベースのアクセラレーションを使用したりできます。 パフォーマンスは5倍以上向上します。 HMSを使用して、OSSおよびOSS-HDFSのデータにアクセスできます。 詳細については、「HMSを使用してOSSデータレイクのデータにアクセスする(ベータ)」をご参照ください。

    説明

    Hologresインスタンスのバージョンが V2.1 以前の場合は、Hologresテクニカルサポートに連絡してインスタンスをアップグレードしてください。

  • Hologres V3.0以降では、次の機能が追加されています。

    • 外部データベース機能が追加され、DLFやMaxComputeなどのデータソースのカタログレベルのメタデータマッピングがサポートされるようになりました。 この機能により、データレイクのメタデータとデータ管理機能が向上します。 詳細については、「CREATE EXTERNAL DATABASE」をご参照ください。

    • 外部スキーマと外部テーブル機能がサポートされています。 特定のDLFカタログにデータベースとテーブルを作成して、集計後のデータの書き戻しを容易にすることができます。 詳細については、「CREATE EXTERNAL SCHEMA」および「CREATE EXTERNAL TABLE」をご参照ください。

    • Apache Paimon追加専用テーブルへの高パフォーマンスのデータ書き込みがサポートされ、データレイクとデータウェアハウスでのデータ転送が容易になります。

    • 大量のデータが削除されたが、できるだけ早く圧縮が実行されない場合に、Paimon削除ベクトルを最適化してクエリのパフォーマンスを向上させることができます。

    • Delta Lakeリーダーが再構築され、読み取りパフォーマンスが大幅に向上しました。

    • Icebergベースのデータレイクからデータを読み取ることができます。 これにより、データレイクエコシステムが拡張されます。

    • HologresがメタデータマッピングのためにHMSに接続した後、EMRクラスターでのデータクエリが高速化されます。 詳細については、「HMSを使用してOSSデータレイクのデータにアクセスする(ベータ)」をご参照ください。

    • セキュリティ機能が強化されています。 デフォルトでは、サービスリンクロールを使用してDLF 2.0にアクセスします。 RAMロールを使用してDLF 2.0にアクセスすることもできます。