DataHub は、ストリーミングデータの処理を目的としたリアルタイムデータ配信プラットフォームです。DataHub では、ストリーミングデータ用のアプリケーションを公開およびサブスクライブし、他のプラットフォームにデータを配信できます。DataHub を使用すると、ストリーミングデータを分析し、ストリーミングデータに基づいてアプリケーションを構築できます。DataHub は、モバイルデバイス、アプリケーション、Web サイトサービス、センサーからのストリーミングデータを収集、保存、および処理します。独自のアプリケーションを作成したり、Realtime Compute を使用して DataHub のストリーミングデータを処理したりできます。リアルタイムの Web サイトアクセスログ、アプリケーションログ、イベントなどです。グラフや表に表示されるアラートや統計などの処理結果はリアルタイムで更新されます。
DataHub とは
DataHub の概要
DataHub は、ストリーミングデータの処理を目的としたリアルタイムデータ配信プラットフォームです。DataHub では、ストリーミングデータ用のアプリケーションを公開およびサブスクライブし、他のプラットフォームにデータを配信できます。DataHub を使用すると、ストリーミングデータを分析し、ストリーミングデータに基づいてアプリケーションを構築できます。DataHub は、モバイルデバイス、アプリケーション、Web サイトサービス、センサーからのストリーミングデータを収集、保存、および処理します。独自のアプリケーションを作成したり、Realtime Compute を使用して DataHub のストリーミングデータを処理したりできます。リアルタイムの Web サイトアクセスログ、アプリケーションログ、イベントなどです。グラフや表に表示されるアラートや統計などの処理結果はリアルタイムで更新されます。
DataHub は、Alibaba Cloud の Apsara システムから開発されました。DataHub は、高可用性、スケーラビリティ、スループットを備えていますが、低レイテンシです。DataHub は Realtime Compute とシームレスに統合されており、SQL を使用してストリーミングデータを分析できます。
DataHub は、MaxCompute や Object Storage Service (OSS) などの Alibaba Cloud サービスにもストリーミングデータを配信できます。
次の図は、DataHub のアーキテクチャを示しています。
メリット
高スループット
DataHub では、1 つのシャードに 1 日あたり最大 1 億 6,000 万件の用語を書き込むことができます。
適時性
DataHub を使用すると、さまざまな種類のストリーミングデータをリアルタイムで簡単に収集および処理できるため、新しいビジネスデータに迅速に対応できます。
使いやすさ
DataHub は、C++、DataHub SDK for Java、Python、Go などのプログラミング言語用のさまざまな SDK を提供しています。
DataHub は、DataHub の API を呼び出すための RESTful API サービスを提供しています。
DataHub は、Fluentd、Logstash、Flume などの一般的なプラグインを提供しています。これらのプラグインを使用して、ストリーミングデータを DataHub に書き込むことができます。
DataHub は、構造化データと非構造化データをサポートしています。型指定されていない非構造化データを DataHub に書き込むことができます。たとえば、BLOB タイプのトピックを作成します。また、データを DataHub に書き込む前に、データのスキーマを作成することもできます。たとえば、TUPLE タイプのトピックを作成します。
高可用性
DataHub は、99.9% 以上のサービス可用性を提供します。
DataHub の処理能力は、サービスに影響を与えることなく自動的に拡張されます。DataHub は、99.999% 以上のデータ耐久性を提供します。
DataHub は、バックアップのためにデータの複数のコピーを自動的に保存します。
スケーラビリティ
各トピックのスループットを動的に増減できます。トピックの最大スループットは、1 秒あたり 256,000 レコードです。
高セキュリティ
DataHub は、エンタープライズレベルのセキュリティ対策を提供し、ユーザー間のリソースを分離します。
DataHub は、ホワイトリスト構成や RAM ユーザー管理など、いくつかの認証と承認の方法を提供しています。
シナリオ
ストリーミングデータ処理プラットフォームとして、DataHub はさまざまな Alibaba Cloud サービスと連携して、ワンストップのデータ処理サービスを提供できます。
Realtime Compute
Alibaba Cloud のストリームコンピューティングエンジンである Realtime Compute を使用すると、SQL に似た言語を使用してストリーミングデータを分析できます。データは DataHub から Realtime Compute に転送できます。詳細については、「DataHub ソーステーブルの作成」をご参照ください。
データ活用
DataHub のデータを使用するアプリケーションを構築し、データをリアルタイムで処理して、処理結果を生成できます。また、別のアプリケーションを使用して、前のアプリケーションから出力されたストリーミングデータを処理し、有向非巡回グラフ (DAG) ベースのデータ処理手順を形成することもできます。
データアーカイブ
ストリーミングデータは MaxCompute にアーカイブできます。DataHub のストリーミングデータを MaxCompute に定期的にアーカイブするには、DataConnector を作成して構成するだけです。