データレイクの高速化 - Hologres - Alibaba Cloud ドキュメントセンター

リアルタイムデータレイクソリューションでは、外部テーブルを使用してオブジェクトストレージサービス（OSS）でのデータの読み取りと書き込みを高速化できます。これにより、クエリの効率が向上し、データ処理が簡素化されます。

背景情報

クラウドストレージ、特にオブジェクトストレージの進化に伴い、データレイクソリューションは徐々にクラウドネイティブテクノロジーへと進化しています。 Alibaba Cloud Lakehouseアーキテクチャでは、OSSをクラウドデータレイクの統合ストレージとして使用し、安全で費用対効果が高く、信頼性とスケーラビリティの高いデータレイクソリューションを提供しています。

リアルタイムデータレイクソリューションは、データレイクの大きな発展を示しています。このソリューションは、Lakehouseアーキテクチャにおけるデータのリアルタイム性とストリーミングパフォーマンスに重点を置いています。 Hologresは、リアルタイムのデータ書き込み、リアルタイムのデータ更新、およびリアルタイムのデータ分析をサポートしています。これらの強力なエンジン機能に基づいて、HologresはData Lake Formation（DLF）、Hive Metastore Service（HMS）、OSS、およびさまざまなエコシステム機能と統合し、包括的なリアルタイムデータレイクソリューションを提供します。このソリューションは、外部テーブルを使用することで、データを移行することなく、OSS内のさまざまな種類のデータの読み取りと書き込みを高速化します。外部テーブルは、データを格納するのではなく、フィールドをマッピングするために使用されます。これにより、開発コストと運用保守コストが削減され、データサイロが解消され、ビジネスの洞察が得られます。

次の表に、リアルタイムデータレイクソリューションに関連するAlibaba Cloudサービスを示します。

サービス	説明	参照
DLF	Alibaba Cloud DLFは、クラウドでデータレイクとデータレイクハウスを構築するのに役立つフルマネージドサービスです。 DLFは、クラウド内のデータレイクに対して、一元化されたメタデータ管理、一元化された権限とセキュリティ管理、および便利なデータ取り込みと探索機能を提供します。	Data Lake Formationとは
HMS	HMSはApache Hiveのコアコンポーネントであり、HiveおよびSparkテーブルのメタデータ情報を管理するためのメタデータリポジトリとして機能します。メタデータ情報には、テーブルデータの格納場所、およびテーブル名、列名、データ型、パーティション情報などのテーブルスキーマが含まれます。 HMSはメタデータサービスを提供するために使用され、HiveおよびSparkデータクエリをサポートします。	Hive Metastore Server
OSS	DLFは、クラウドデータレイクの統合ストレージとしてOSSを使用します。 OSSは、安全で費用対効果が高く、信頼性の高いサービスであり、大量のデータとあらゆる種類のファイルを格納できます。 OSSは 99.9999999999% のデータ耐久性を提供でき、データレイクストレージのデファクトスタンダードになっています。	OSSとは
OSS	OSS-HDFS（JindoFS）は、クラウドネイティブのデータレイクストレージサービスです。 OSS-HDFSはHadoopエコシステムのコンピューティングエンジンとシームレスに統合されており、HiveおよびSparkに基づくビッグデータのオフラインETL（抽出、変換、ロード）において、ネイティブOSSよりも優れたパフォーマンスを提供します。 OSS-HDFSはHadoop Distributed File System（HDFS）APIと完全に互換性があり、Portable Operating System Interface（POSIX）をサポートしています。 OSS-HDFSを使用して、ビッグデータおよびAI分野のデータレイクベースのコンピューティングシナリオでデータを管理できます。	OSS-HDFSとは

アーキテクチャ

次の図は、Hologresに推奨されるデータレイクアーキテクチャを示しています。このアーキテクチャは、収集、保存、管理からアプリケーションまでのデータライフサイクル全体を網羅しています。 Hologresは、強力なエンジン機能と柔軟な自動スケーリングポリシーを活用して、データレイクとデータウェアハウスを統合するエンドツーエンドのソリューションを提供します。

統合メタデータ管理

DLF および HMS メタデータサービスをサポートします。
外部データベースを使用して、外部カタログへのワンクリックマッピングをサポートします。
データレイクにおけるメタデータ変更の自動検出とリフレッシュをサポートします。
データレイクで DDL 文を使用してデータベースとテーブルを作成することをサポートします。 Paimon がサポートされています。

統合コンピューティングリソースとパターン

ダイナミックテーブル機能を使用して、レイクハウスデータの階層化と処理を実装します。
データレイクにおける高パフォーマンス OLAP 分析とデータのバックライトをサポートします。
仮想ウェアハウスインスタンスを使用して、リソースの弾力性と隔離を確保します。
サーバーレスタスクをサポートします。これにより、所有コストゼロが保証され、従量課金制がサポートされます。
主要な BI ツールとのシームレスな統合をサポートします。

オープンレイクハウス形式のサポート

Paimon、Iceberg、Hudi、Delta、ORC、および Parquet レイクテーブル形式のデータの高速クエリをサポートします。
Paimon、Iceberg、ORC、および Parquet 形式でのデータのバックライトをサポートします。

使用上の注意

次の表に、Hologresが外部データソースをマッピングするために提供するメソッドを示します。

マッピング方法	構文	説明	サポートされているデータソース	バージョン要件	シナリオ
CREATE EXTERNAL DATABASE	CREATE EXTERNAL DATABASE CREATE EXTERNAL SCHEMA CREATE EXTERNAL TABLE	この文は、Hologres インスタンスに外部データベースを作成するために使用されます。外部データベースを使用して、外部データソースのメタデータを Hologres にロードできます。これにより、Hologres で内部データと外部データを管理できるようになり、統合レイクハウスアーキテクチャを使用してメタデータの一元管理が容易になります。	DLF 1.0 DLF 2.0 MaxCompute	V3.0	このメソッドは、外部データソースのカタログのデータベースと、そのデータベース内のすべてのテーブルをHologresにマッピングする場合に適用できます。
FOREIGN TABLE	IMPORT FOREIGN SCHEMA	この文は、Hologres のスキーマに一度に複数の外部テーブルを作成して、外部データソースの特定のテーブルを自動的にマッピングするために使用されます。	DLF 1.0 DLF 2.0 HMS MaxCompute Hologres	V0.8	このメソッドは、外部データソースのデータベースまたはスキーマ内のすべてのテーブルをHologresのスキーマにマッピングする場合に適用できます。
FOREIGN TABLE	CREATE FOREIGN TABLE	この文は、Hologres に外部テーブルを手動で作成して、外部データソースのテーブルまたはテーブル内の特定のフィールドをマッピングするために使用されます。	DLF 1.0 DLF 2.0 HMS MaxCompute Hologres	V0.8	このメソッドは、特定のテーブルまたはテーブル内の特定のフィールドをHologresにマッピングする場合に適用できます。

テーブル形式とファイル形式

テーブル形式

テーブル形式	サポートされているバージョン	サポートされている圧縮方式
Hudi	Hologres V1.3以降でデータ読み取りがサポートされています	UNCOMPRESSED GZIP SNAPPY BROTLI LZ4 ZSTD LZ4_RAW None ZLIB
Delta Lake	Hologres V1.3以降でデータ読み取りがサポートされています	UNCOMPRESSED GZIP SNAPPY BROTLI LZ4 ZSTD LZ4_RAW
Apache Paimon	Hologres V2.1以降でデータ読み取りがサポートされています Hologres V3.0以降で、DLF 2.0に基づくレイクテーブルからのデータ読み取りとApache Paimon追加専用テーブルへのデータ書き込みがサポートされています	PARQUET UNCOMPRESSED SNAPPY GZIP LZO BROTLI LZ4 ZSTD ORC NONE ZLIB SNAPPY LZO LZ4
Iceberg	Hologres V3.0で、DLF 1.0およびHMSに基づくV1およびV2のIcebergテーブルからのデータ読み取りがサポートされています	PARQUET UNCOMPRESSED SNAPPY GZIP LZO BROTLI LZ4 ZSTD ORC NONE ZLIB SNAPPY LZO LZ4

ファイル形式

ファイル形式	サポートされているバージョン	サポートされている圧縮方式
CSV	Hologres V1.3以降でデータの読み取りと書き込みがサポートされています	COMPRESSION_CODEC BZip2Codec DefaultCodec GzipCodec SnappyCodec
Parquet	Hologres V1.3以降でデータの読み取りと書き込みがサポートされています	UNCOMPRESSED GZIP SNAPPY BROTLI LZ4 ZSTD LZ4_RAW
ORC	Hologres V1.3以降でデータの読み取りと書き込みがサポートされています	None ZLIB SNAPPY
SequenceFile	Hologres V1.3以降でデータの読み取りと書き込みがサポートされています	COMPRESSION_CODEC BZip2Codec DefaultCodec GzipCodec SnappyCodec COMPRESSION_TYPE NONE RECORD BLOCK

データ型のマッピング

DLFとHologres間のデータ型のマッピングの詳細については、「データ型」をご参照ください。

機能概要

Hologres V1.1以降では、OSSからORC、Parquet、CSV、およびSequenceFile形式のデータを読み取ることができます。 Hologres V1.3以降では、ORC、Parquet、CSV、またはSequenceFile形式のデータをOSSに書き込んだり、OSSのApache HudiテーブルまたはDelta Lakeテーブルからデータを読み取ったりできます。
説明
Hologresコンソールのインスタンス詳細ページで、Hologresインスタンスのバージョンを確認できます。 Hologresインスタンスのバージョンが V1.1 より前の場合は、HologresコンソールでHologresインスタンスを手動でアップグレードするか、Hologres DingTalkグループに参加してインスタンスのアップグレードを申請してください。 Hologresインスタンスを手動でアップグレードする方法の詳細については、「インスタンスのアップグレード」をご参照ください。 Hologres DingTalkグループへの参加方法の詳細については、「Hologresのオンラインサポートを受ける」をご参照ください。
Hologres V1.3.25以降では、DLFのマルチカタログ機能を使用して、テスト環境、開発環境、および部門間インスタンスのメタデータを分離できます。これにより、ビジネスのセキュリティを確保できます。マルチカタログ機能の詳細については、「カタログ」をご参照ください。
Hologres V1.3.26以降では、OSS-HDFSとのデータの読み取りと書き込みができます。データレイクアクセラレーションのサービス機能と境界がさらに拡張されます。 HologresはHadoopエコシステムのコンピューティングエンジンとシームレスに統合されています。これにより、OSS-HDFSに格納されているデータの読み取りと書き込みが高速化され、Hadoopエコシステムにおけるデータのリアルタイム分析効率が大幅に向上し、ビッグデータやAIなどの分野におけるデータレイクのフェデレーションクエリとリアルタイムデータ分析の要件が満たされます。
Hologres V2.1.0以降では、Apache Paimon外部テーブルからデータを読み取ることができます。 Apache Paimonは、ストリーミングモードとバッチモードでデータを処理できる統合レイクストレージプラットフォームです。 Apache Paimonは、高スループットのデータ書き込みと低レイテンシのデータクエリをサポートしており、データレイク内をデータがリアルタイムに流れるようにします。ユーザーは、Apache Paimonを使用して、データレイクにおけるデータのリアルタイム処理とオフライン処理を統合できます。詳細については、「Apache Paimon」をご参照ください。
Hologres V2.2以降では、新しい外部テーブルアーキテクチャが使用されます。このアーキテクチャでは、Hologres Query Engine（HQE）を使用して、ORCおよびParquet形式のファイルから直接データを読み取ったり、ローカルSSDに基づくキャッシュベースのアクセラレーションを使用したりできます。パフォーマンスは5倍以上向上します。 HMSを使用して、OSSおよびOSS-HDFSのデータにアクセスできます。詳細については、「HMSを使用してOSSデータレイクのデータにアクセスする（ベータ）」をご参照ください。
説明
Hologresインスタンスのバージョンが V2.1 以前の場合は、Hologresテクニカルサポートに連絡してインスタンスをアップグレードしてください。
Hologres V3.0以降では、次の機能が追加されています。
- 外部データベース機能が追加され、DLFやMaxComputeなどのデータソースのカタログレベルのメタデータマッピングがサポートされるようになりました。この機能により、データレイクのメタデータとデータ管理機能が向上します。詳細については、「CREATE EXTERNAL DATABASE」をご参照ください。
- 外部スキーマと外部テーブル機能がサポートされています。特定のDLFカタログにデータベースとテーブルを作成して、集計後のデータの書き戻しを容易にすることができます。詳細については、「CREATE EXTERNAL SCHEMA」および「CREATE EXTERNAL TABLE」をご参照ください。
- Apache Paimon追加専用テーブルへの高パフォーマンスのデータ書き込みがサポートされ、データレイクとデータウェアハウスでのデータ転送が容易になります。
- 大量のデータが削除されたが、できるだけ早く圧縮が実行されない場合に、Paimon削除ベクトルを最適化してクエリのパフォーマンスを向上させることができます。
- Delta Lakeリーダーが再構築され、読み取りパフォーマンスが大幅に向上しました。
- Icebergベースのデータレイクからデータを読み取ることができます。これにより、データレイクエコシステムが拡張されます。
- HologresがメタデータマッピングのためにHMSに接続した後、EMRクラスターでのデータクエリが高速化されます。詳細については、「HMSを使用してOSSデータレイクのデータにアクセスする（ベータ）」をご参照ください。
- セキュリティ機能が強化されています。デフォルトでは、サービスリンクロールを使用してDLF 2.0にアクセスします。 RAMロールを使用してDLF 2.0にアクセスすることもできます。