データレイクは、半構造化データと非構造化データをあらゆる規模で保存する一元的なリポジトリです。データレイクでは、データは生のフォーマットで保存されます。ビッグデータ処理フレームワーク、リアルタイム分析ツール、機械学習など、さまざまな分析エンジンを使用して、データから貴重なインサイトを簡単に抽出できます。
アーキテクチャ図

このアーキテクチャ図は、データ収集からアプリケーションまでのエンドツーエンドのフローをカバーする、包括的なデータ管理および分析プラットフォームを示しています。
Parquet、CSV、JSON、マルチメディアファイル、データベースおよびアプリケーションデータなど、複数のフォーマットでのデータアップロードをサポートします。
パブリッククラウド、Apsara Stack、ハイブリッドクラウド、エッジデバイスと互換性があり、広範で柔軟なデータソーシングを保証します。
ビッグデータおよび AI サービス用のデータを BucketGroups に保存します。リソースプールの Quality of Service (QoS) を使用して BucketGroup の帯域幅を調整し、Object Storage Service (OSS) をデータレイクストレージソリューションとして使用できます。このアプローチにより、効率的なデータアクセスと管理が保証されます。
SDK、POSIX ファイルシステム、Hadoop 分散ファイルシステム (HDFS) 互換レイヤーなど、豊富なプログラミングインターフェイスを提供し、柔軟なデータアクセスと処理を可能にします。
データ分析と AI 機能を統合することで、複雑なデータ探索、機械学習モデルのトレーニング、リアルタイムストリームコンピューティングの実行が可能です。可視化ツールを使用して、データのインサイトをよりよく理解し、提示することができます。
Alibaba Cloud OSS 上にデータレイクを構築する理由
Alibaba Cloud OSS は、事実上無制限で、コスト効率が高く、弾力性のあるストレージを提供するため、Alibaba Cloud 上にデータレイクソリューションを構築するための理想的なデータストレージサービスです。OSS は、大量のデータを効率的に処理および整理するための強力なデータ管理機能を備えています。その幅広いクライアントにより、コンピュートエンジンとの統合が容易になります。
OSS 上にデータレイクを構築すると、次の主要な利点が得られます。
低コストのストレージ: 従量課金モデルを提供し、ライフサイクルルールに基づく階層型ストレージ (標準、低頻度アクセス、アーカイブ、コールドアーカイブ、ディープコールドアーカイブ) をサポートし、柔軟なコスト管理を実現します。
弾力的なスケーラビリティ: エクサバイト規模のデータストレージをサポートし、容量プロビジョニングの必要性をなくすことで、データ増加に容易に対応できます。
エコシステムとの統合: MaxCompute、EMR、PAI などの Alibaba Cloud コンピュートサービスや、Hadoop、Spark、RAY、PyTorch などのオープンソース分析フレームワークとシームレスに統合します。
セキュリティとコンプライアンス: 暗号化、アクセスの制御、および を提供し、エンタープライズレベルのセキュリティ要件を満たします。
高可用性とディザスタリカバリ: ゾーン間冗長ストレージを提供し、クロスリージョンレプリケーションをサポートして、データ信頼性を確保します。
データレイクを構築する際に考慮すべきこと
データレイクと分析プラットフォームを構築する際には、以下を含むいくつかの重要な側面を考慮する必要があります。
データ収集とインポート
データレイクでは、任意の量のデータをリアルタイムでインポートできます。複数のソースからのデータ収集をサポートし、生のフォーマットで保存します。このプロセスにより、任意の量のデータにスケールアップでき、データ構造、スキーマ、および変換を定義する時間を節約できます。OSS は、データをインポートするための次のメソッドを提供します。
内部ネットワーク経由で OSS にデータを直接アップロードできます。
Express Connect を使用して、データセンターから OSS にデータをアップロードできます。
データオンライン移行またはData Transport を使用して、ペタバイト規模のデータを OSS に移行できます。
インターネット経由で OSS にデータを直接アップロードできます。このメソッドはセキュリティリスクをもたらすため、ドメイン名の管理とアクセスの制御に細心の注意を払ってください。次のドキュメントを確認することをお勧めします。
安全で低コストのデータストレージ
データレイクは、モバイルアプリケーション、IoT デバイス、ソーシャルメディア、IoV (Internet of vehicles) などのソースから大量の非構造化データを保存できます。このデータは自動的なコスト最適化が必要であり、常に安全に保たれなければなりません。OSS は、これらの要件を満たすために次の機能を提供します。
ホットからコールドまで、さまざまなアクセス頻度のデータに対応する5 つのストレージタイプ。
コールドデータをより低コストのストレージタイプに自動的にトランジションさせるライフサイクルルール。
偶発的なデータ削除を防ぐためのバージョニング。
大量データの管理
データレイクでは、異なるビジネス部門が同じバケット内の異なるプレフィックスの下に、または別々のバケットにデータを保存することがあります。これらのシナリオでは、単一のバケット内でデータを個別に管理し、異なるバケット間のデータフローを容易にする機能が必要です。OSS は、これらの複雑なシナリオを処理するために幅広い機能を提供します。
異なるビジネスチームのデータアクセス権限を設定するためのアクセスポイント。
バケット内の異なるビジネスチームのストレージ使用状況を監視するためのバケットインベントリ。
同じリージョン内または異なるリージョン間のバケット間でデータを自動的に同期するためのデータレプリケーション。
マルチサービスアクセスにおけるパフォーマンスの管理と最適化
典型的なデータレイクの操作では、同時データ収集、前処理、AI トレーニング、およびデバッグにより、バケット間および Resource Access Management (RAM) ユーザー間で不均一なリソース割り当てとリソース競合が発生する可能性があります。OSS は、リソースプール QoS 機能を提供し、バケットとそのリクエスターのスロットリングを動的に調整できます。これにより、高負荷時に主要なサービスと計算集約型のタスクがリソースへの優先アクセスを確保し、ビジネスの安定性を維持します。
データウェアハウスの高いクエリ/秒 (QPS)、オンラインビジネスデータの低レイテンシー応答、AI 推論のための繰り返しの低レイテンシーモデルプルなど、低レイテンシーと高パフォーマンスを必要とするシナリオのために、OSS は OSS アクセラレータを提供します。OSS アクセラレータは、高性能な NVMe SSD にホットファイルをキャッシュして、データ読み取りレイテンシーを削減し、QPS を向上させます。この機能は、リアルタイムコンピューティングジョブのパフォーマンスを大幅に最適化します。
データ分析および AI フレームワークとの統合
データレイクは通常、さまざまな分析および AI コンピュートフレームワークを実行し、企業内の完全な生産プロセスではそれらのいくつかが使用されることがあります。異なるコンピュートフレームワークは、データにアクセスするための異なるインターフェイスとメソッドを持っています。これらのエコシステムへの接続を容易にし、ビジネスの変換コストを削減するために、OSS は豊富なクライアント、ツール、および機能を提供します。
OSS は、主要なプログラミング言語向けに豊富な SDK を提供します。プログラミング経験がある場合は、OSS SDK を使用して高性能なデータアクセスを実現できます。OSS の高性能プログラミングプラクティスに関する詳細については、「Python の並行処理ライブラリを使用してマルチスレッド変換で帯域幅を大幅に向上させる」をご参照ください。
クラウド上のオブジェクトストレージで Hadoop エコシステムを実行した経験がある場合は、Hadoop 用 OSS コネクタを使用して OSS データを読み書きできます。このメソッドにより、OSS の無制限のスケーラビリティとさまざまなエンタープライズレベルの機能を効率的に使用できます。
現在、オープンソース HDFS を広範に使用しており、短期間でビジネスを変換できない場合は、OSS-HDFS サービスを使用できます。このサービスは、HDFS と完全に互換性のある標準インターフェイスを提供します。また、従来の HDFS よりも強力なパフォーマンスと弾力的なスケーラビリティを提供します。OSS-HDFS サービスは、Alibaba Cloud EMR や、Hadoop や Spark などのオープンソースエコシステムコンポーネントとシームレスに統合されています。このソリューションは HDFS との強力な互換性を重視しており、企業は既存の HDFS ベースのビッグデータアプリケーションを変更することなく、オンプレミスのデータセンターからクラウドへ従来の HDFS サービスをスムーズに移行できます。ただし、オープンソース HDFS とオブジェクトストレージの機能的な違いにより、OSS のネイティブな高度なデータ管理機能の一部を使用できない場合があります。詳細については、「OSS-HDFS サービスの機能」をご参照ください。したがって、クラウドに移行した後は、サービスを徐々に適応させ、最適化して OSS コネクタを使用することをお勧めします。これにより、クラウドネイティブなシナリオで OSS の高性能と豊富なデータ管理機能を最大限に活用できます。
一部のビジネスアプリケーションが従来のファイルメソッドを使用してデータにアクセスする必要があり、変更できない場合、OSS は ossfs クライアントを提供して、これらのプログラムのデータ読み書き要件を満たします。
AI トレーニング、AI 推論、自動運転シミュレーションなどの最新のアプリケーションでは、POSIX セマンティクスの要件は比較的緩やかです。最高のパフォーマンスを得るには ossfs 2.0 を使用できます。アプリケーションの特定のアクセスモードがわからない場合は、まず ossfs 2.0 でテストできます。動作しない場合は、ossfs 1.0 にスペックダウンできます。
従来のアプリケーションでは、ossfs 1.0 を使用して OSS に保存されているデータを読み書きできます。ただし、OSS と NAS の間には大きなセマンティクスの違いがあり、一部の従来のアプリケーションではより高い POSIX 互換性とパフォーマンスが必要なため、NAS の代替として ossfs 1.0 を OSS と共に使用することはお勧めしません。このような場合、最高の互換性とパフォーマンスを確保するために、Alibaba Cloud File Storage NAS を選択することをお勧めします。
PyTorch データセットフレームワークを使用して AI データセットをロードすることに慣れているが、OSS SDK の使用に慣れていない場合は、AI/ML 用 OSS コネクタを使用してモデルトレーニングを高速化できます。これにより、OSS SDK の使用方法を学習することなく、最高の OSS データセット読み取りパフォーマンスを得ることができます。
管理者や開発者の日常的なファイルのアップロードとダウンロードのニーズに対応するため、OSS は次のツールを提供します。