すべてのプロダクト
Search
ドキュメントセンター

DataHub:DataHub とは

最終更新日:Jan 17, 2025

DataHub は、ストリーミングデータの処理を目的としたリアルタイムデータ配信プラットフォームです。DataHub では、ストリーミングデータ用のアプリケーションを公開およびサブスクライブし、他のプラットフォームにデータを配信できます。DataHub を使用すると、ストリーミングデータを分析し、ストリーミングデータに基づいてアプリケーションを構築できます。DataHub は、モバイルデバイス、アプリケーション、Web サイトサービス、センサーからのストリーミングデータを収集、保存、および処理します。独自のアプリケーションを作成したり、Realtime Compute を使用して DataHub のストリーミングデータを処理したりできます。リアルタイムの Web サイトアクセスログ、アプリケーションログ、イベントなどです。グラフや表に表示されるアラートや統計などの処理結果はリアルタイムで更新されます。

DataHub とは

DataHub の概要

DataHub は、ストリーミングデータの処理を目的としたリアルタイムデータ配信プラットフォームです。DataHub では、ストリーミングデータ用のアプリケーションを公開およびサブスクライブし、他のプラットフォームにデータを配信できます。DataHub を使用すると、ストリーミングデータを分析し、ストリーミングデータに基づいてアプリケーションを構築できます。DataHub は、モバイルデバイス、アプリケーション、Web サイトサービス、センサーからのストリーミングデータを収集、保存、および処理します。独自のアプリケーションを作成したり、Realtime Compute を使用して DataHub のストリーミングデータを処理したりできます。リアルタイムの Web サイトアクセスログ、アプリケーションログ、イベントなどです。グラフや表に表示されるアラートや統計などの処理結果はリアルタイムで更新されます。

DataHub は、Alibaba Cloud の Apsara システムから開発されました。DataHub は、高可用性、スケーラビリティ、スループットを備えていますが、低レイテンシです。DataHub は Realtime Compute とシームレスに統合されており、SQL を使用してストリーミングデータを分析できます。

DataHub は、MaxCompute や Object Storage Service (OSS) などの Alibaba Cloud サービスにもストリーミングデータを配信できます。

次の図は、DataHub のアーキテクチャを示しています。

test_1

メリット

高スループット

DataHub では、1 つのシャードに 1 日あたり最大 1 億 6,000 万件の用語を書き込むことができます。

適時性

DataHub を使用すると、さまざまな種類のストリーミングデータをリアルタイムで簡単に収集および処理できるため、新しいビジネスデータに迅速に対応できます。

使いやすさ

  • DataHub は、C++、DataHub SDK for Java、Python、Go などのプログラミング言語用のさまざまな SDK を提供しています。

  • DataHub は、DataHub の API を呼び出すための RESTful API サービスを提供しています。

  • DataHub は、Fluentd、Logstash、Flume などの一般的なプラグインを提供しています。これらのプラグインを使用して、ストリーミングデータを DataHub に書き込むことができます。

  • DataHub は、構造化データと非構造化データをサポートしています。型指定されていない非構造化データを DataHub に書き込むことができます。たとえば、BLOB タイプのトピックを作成します。また、データを DataHub に書き込む前に、データのスキーマを作成することもできます。たとえば、TUPLE タイプのトピックを作成します

高可用性

  • DataHub は、99.9% 以上のサービス可用性を提供します。

  • DataHub の処理能力は、サービスに影響を与えることなく自動的に拡張されます。DataHub は、99.999% 以上のデータ耐久性を提供します。

  • DataHub は、バックアップのためにデータの複数のコピーを自動的に保存します。

スケーラビリティ

各トピックのスループットを動的に増減できます。トピックの最大スループットは、1 秒あたり 256,000 レコードです。

高セキュリティ

  • DataHub は、エンタープライズレベルのセキュリティ対策を提供し、ユーザー間のリソースを分離します。

  • DataHub は、ホワイトリスト構成や RAM ユーザー管理など、いくつかの認証と承認の方法を提供しています。

シナリオ

ストリーミングデータ処理プラットフォームとして、DataHub はさまざまな Alibaba Cloud サービスと連携して、ワンストップのデータ処理サービスを提供できます。

9EC3C836-47AC-4a2c-AE60-45E2CF87DA7D

Realtime Compute

Alibaba Cloud のストリームコンピューティングエンジンである Realtime Compute を使用すると、SQL に似た言語を使用してストリーミングデータを分析できます。データは DataHub から Realtime Compute に転送できます。詳細については、「DataHub ソーステーブルの作成」をご参照ください。

640F4317-D7B4-4ccd-85EF-ABEBCC67A3AF

データ活用

DataHub のデータを使用するアプリケーションを構築し、データをリアルタイムで処理して、処理結果を生成できます。また、別のアプリケーションを使用して、前のアプリケーションから出力されたストリーミングデータを処理し、有向非巡回グラフ (DAG) ベースのデータ処理手順を形成することもできます。

データアーカイブ

ストリーミングデータは MaxCompute にアーカイブできます。DataHub のストリーミングデータを MaxCompute に定期的にアーカイブするには、DataConnector を作成して構成するだけです。