データレイクの概要 - Object Storage Service - Alibaba Cloud ドキュメントセンター

データレイクは、半構造化データと非構造化データを、あらゆる規模で、かつ生のフォーマットのまま保存する集中型リポジトリです。取り込み前にデータを構造化する必要がある従来のデータウェアハウスとは異なり、データレイクでは、まずデータを保存し、読み取り時にスキーマを適用することができます。これにより、事前のデータ変換なしで、ビッグデータ処理フレームワークからリアルタイム分析ツール、機械学習まで、あらゆる分析エンジンを使用できます。

データレイクストレージに OSS を利用する理由

オブジェクトストレージ上にデータレイクを構築する基本的な利点は、コンピューティングとストレージの分離 (デカップリング) にあります。従来のオンプレミスの Hadoop やデータウェアハウスのセットアップでは、コンピューティングとストレージが密結合しているため、それぞれを個別にスケールさせたり、コストを最適化したりすることが困難でした。Object Storage Service (OSS) を使用すると、ストレージは容量プロビジョニングなしでエクサバイト規模までスケールし、コンピューティングクラスター (MaxCompute、Elastic MapReduce (EMR)、Platform of Artificial Intelligence (PAI) など) はワークロードの需要に基づいて個別にスケールします。

OSS は、データレイクのワークロードに対して、以下の主要な利点を提供します。

低コストのストレージ： 従量課金制の料金体系で、5つの階層化されたストレージクラス (標準、低頻度アクセス、アーカイブ、コールドアーカイブ、ディープコールドアーカイブ) があります。ライフサイクルルールにより、アクセス頻度の低下に応じて、データは自動的により低コストのクラスに移行されます。
伸縮自在なスケーラビリティ： 容量プロビジョニングを必要としない、エクサバイト規模のストレージ。
エコシステムとの統合： Alibaba Cloud のコンピューティングサービス (MaxCompute、EMR、PAI) およびオープンソースの分析フレームワーク (Hadoop、Spark、Ray、PyTorch) とのネイティブな統合。
セキュリティとコンプライアンス： サーバーサイド暗号化ときめ細かなアクセス制御により、エンタープライズセキュリティ要件を満たします。
高可用性： クロスゾーン冗長ストレージとクロスリージョンレプリケーションによるデータの耐久性。

アーキテクチャ概要

このアーキテクチャは、データの収集からアプリケーション利用まで、エンドツーエンドのフローをカバーしています。

データソース： パブリッククラウド、Apsara Stack、ハイブリッドクラウド、エッジデバイスから、複数のフォーマット (Parquet、CSV、JSON、マルチメディアファイル、データベースおよびアプリケーションデータ) のデータを取り込みます。
ストレージ： OSS をデータレイクストレージソリューションとして使用し、BucketGroups にビッグデータおよび AI サービス用のデータを保存します。リソースプールのサービス品質 (QoS) が BucketGroup の帯域幅を制御し、効率的なデータアクセスを保証します。
アクセスインターフェイス： SDK、POSIX ファイルシステム、および Hadoop 分散ファイルシステム (HDFS) 互換レイヤーを通じてデータを提供し、多様なコンピューティングフレームワークをサポートします。
分析と AI： 複雑なデータ探索、機械学習モデルのトレーニング、リアルタイムストリームコンピューティングをサポートします。可視化ツールはインサイトの提示に役立ちます。

データレイク構築時の主な考慮事項

データの収集とインポート

OSS は、あらゆるソースから、あらゆる規模のデータを、生のフォーマットで取り込むことをサポートしており、事前にスキーマや変換を定義する必要がありません。4つのインポート方法が利用可能です。

方法	利用シーン
内部ネットワーク	同一リージョン内の Elastic Compute Service (ECS) インスタンスまたは他の Alibaba Cloud サービス
Express Connect	プライベートな専用接続を介したデータセンターから OSS への接続
データオンライン移行 / Data Transport	オンプレミスまたは他のクラウドからのペタバイト規模の移行
インターネット	プライベート接続が存在しない場合の直接アップロード

重要

インターネット経由のアップロードにはセキュリティリスクが伴います。インターネットアクセスを有効にする前に、カスタムドメインのバインド、公開アクセス禁止、Referer ベースのアクセス制御を設定してください。

安全でコスト効率の高いストレージ

データレイクには、モバイルアプリケーション、IoT デバイス、ソーシャルメディア、IoV (Internet of Vehicles) からデータが蓄積されますが、そのほとんどは時間の経過とともにアクセス頻度が低くなります。OSS は、この課題に以下の3つの補完的な機能で対応します。

5つのストレージクラス (標準からディープコールドアーカイブまで) により、実際のアクセス頻度に合わせてストレージコストを調整します。
ライフサイクルルール により、データが古くなるにつれて自動的により低コストのクラスに移行します。
バージョニング により、偶発的な削除を防ぎます。

チーム間でのデータ管理

データレイクでは、複数のビジネスチームが単一のバケットを共有し、異なるプレフィックスの下にデータを保存したり、データを交換する必要がある個別のバケットを維持したりすることがよくあります。OSS は、この状況に対応するために3つの機能を提供します。

アクセスポイント： 共有バケット内でチームごとのデータアクセス権限を設定します。
バケットインベントリ： プレフィックスまたはタグごとにストレージ使用量を監視し、各チームのフットプリントを追跡します。
データレプリケーション： リージョン内またはリージョン間で、バケット間のデータを自動的に同期します。

同時実行ワークロードのパフォーマンス管理

本番環境のデータレイクでは、データ収集、前処理、AI トレーニング、デバッグといった同時実行ワークロードが、同じストレージ帯域幅をめぐって競合します。OSS は、これを管理するために2つの機能を提供します。

リソースプールの QoS： バケットまたはリクエスタごとに帯域幅調整を動的に調整します。ピーク時には、ビジネスクリティカルまたはコンピューティング集約型のジョブを優先します。
OSS アクセラレータ： ホットオブジェクトを高性能 NVMe SSD にキャッシュして、読み取りレイテンシを削減し、秒間クエリ数 (QPS) を向上させます。特に、高 QPS のデータウェアハウスクエリ、低レイテンシのオンラインビジネスデータ、AI 推論における繰り返し行われるモデルのプルに効果的です。

アクセスインターフェイスの選択

コンピューティングフレームワークによってデータへのアクセス方法は異なります。既存のスタックに合ったインターフェイスを選択してください。

インターフェイス	最適なケース
OSS SDK	高性能なプログラムによるアクセスを必要とするカスタムアプリケーション。主要な言語をサポートしています。スループットのチューニングについては、マルチスレッド帯域幅最適化をご参照ください。
Hadoop 用 OSS コネクタ	すでにクラウドオブジェクトストレージ上で実行されている Hadoop エコシステムのワークロード (MapReduce、Hive、Spark)。OSS のエンタープライズデータ管理機能を維持します。
OSS-HDFS サービス	既存のアプリケーションを変更せずに、オンプレミスの HDFS ワークロードをクラウドに移行する場合に最適です。従来の HDFS よりも高いパフォーマンスと伸縮自在なスケーラビリティを備えた HDFS 互換インターフェイスを提供します。EMR、Hadoop、Spark と統合されています。注：一部の OSS ネイティブ機能は HDFS インターフェイス経由では利用できません。移行後は、OSS の機能を最大限に活用するために、ワークロードを徐々に OSS コネクタに適応させてください。詳細については、OSS-HDFS サービスの機能をご参照ください。
ossfs 2.0	緩やかな POSIX セマンティクス要件を持つ最新のアプリケーション (AI トレーニング、AI 推論、自動運転シミュレーション)。まずはこちらから始め、互換性の問題が発生した場合は ossfs 1.0 にダウングレードしてください。
ossfs 1.0	POSIX ファイルシステムアクセスを必要とし、変更できないレガシーアプリケーション。高い POSIX 互換性を必要とするアプリケーションにとって、Alibaba Cloud File Storage NAS の代替にはなりません。
AI/ML 用 OSS コネクタ	PyTorch データセットワークフロー。OSS SDK の知識がなくても、最適な OSS データセットの読み取りパフォーマンスを実現します。
ossutil 2.0	コマンドラインによるデータ管理を必要とする管理者および開発者。
ossbrowser 2.0	データ管理にグラフィカルインターフェイスを好む管理者および開発者。