すべてのプロダクト
Search
ドキュメントセンター

DataHub:DataHub を使い始める

最終更新日:Jan 13, 2025

ステップ 1: DataHub をアクティブにする

  1. DataHub コンソール にログオンします。

  2. プロンプトに従って DataHub をアクティブにします。

ステップ 2: プロジェクトとトピックを作成する

  1. DataHub コンソール にログオンします。

  2. [プロジェクト一覧] ページで、右上隅にある [プロジェクトの作成] をクリックし、必要に応じてパラメーターを設定してプロジェクトを作成します。

パラメーター

説明

名前

プロジェクトの名前。プロジェクトは DataHub の組織単位であり、1 つ以上のトピックを含みます。DataHub プロジェクトは MaxCompute プロジェクトから独立しています。MaxCompute で作成したプロジェクトは DataHub では使用できません。

説明

プロジェクトの説明。

3. プロジェクトの詳細ページで、右上隅にある [トピックの作成] をクリックし、必要に応じてパラメーターを設定してトピックを作成します。

topic

パラメーター

説明

作成タイプ

トピックの作成に使用される方法。プロジェクトは DataHub の組織単位であり、1 つ以上のトピックを含みます。DataHub プロジェクトは MaxCompute プロジェクトから独立しています。MaxCompute で作成したプロジェクトは DataHub では使用できません。

名前

トピックの名前。

タイプ

トピック内のデータのタイプ。TUPLE は構造化データを、BLOB は非構造化データを示します。

スキーマの詳細

スキーマの詳細。[タイプ] パラメーターを [TUPLE] に設定すると、[スキーマの詳細] パラメーターが表示されます。ビジネス要件に基づいてフィールドを作成できます。フィールドに対して [NULL を許可] を選択すると、アップストリームにフィールドが存在しない場合、フィールドは NULL に設定されます。フィールドに対して [NULL を許可] をオフにすると、フィールド構成が厳密に検証されます。フィールドに指定されたタイプが無効な場合、エラーが返されます。

シャード数

トピック内のシャードの数。シャードは、トピックの同時データ送信を保証します。各シャードには一意の ID があります。シャードは、次のいずれかの状態になります。開始中: シャードは開始中です。アクティブ: シャードは開始され、使用可能です。使用可能な各シャードはサーバー上のリソースを消費します。必要に応じてシャードを作成することをお勧めします。

ライフサイクル

トピックに書き込まれたデータを DataHub に保存できる最大期間 (日数)。最小値: 1。最大値: 7。トピックの有効期限 (TTL) 期間を変更するには、Java 用 DataHub SDK を使用して updateTopic メソッドを呼び出します。詳細については、「Java 用 DataHub SDK」をご参照ください。

説明

トピックの説明。

ステップ 3: 作成したトピックにデータを書き込む

DataHub は、データを書き込むための複数の方法を提供しています。Apache Flume などのプラグインを使用してログを書き込むことができます。データベースに保存されているデータを書き込む場合は、Data Transformation Services (DTS)、Canal、または SDK を使用できます。この例では、コンソールコマンドラインツールを使用して、ファイルをアップロードすることでデータを書き込みます。

  1. コンソールコマンドラインツールのインストールパッケージをダウンロードして解凍し、必要に応じて AccessKey ペアとエンドポイントを指定します。詳細については、「コンソールコマンドラインツール」をご参照ください。

  2. 次のコマンドを実行してファイルをアップロードします。

    uf -f /temp/test.csv -p test_topic -t test_topic -m "," -n 1000
  3. データ品質を評価するためのサンプルデータ

    1. シャード 0 などのシャードを選択します。[サンプル: 0] パネルで、サンプリングするデータエントリの数とサンプリングの開始時刻を設定します。

    2. [サンプル] をクリックします。サンプリングされたデータが表示されます。chou

ステップ 4: データを同期する

データを MaxCompute に同期します。

  1. DataHub コンソールの左側のナビゲーションペインで、[プロジェクトマネージャー] をクリックします。[プロジェクト一覧] ページで、プロジェクトを見つけて [アクション] 列の [表示] をクリックします。プロジェクトの詳細ページで、トピックを見つけて [アクション] 列の [表示] をクリックします。

  2. トピックの詳細ページで、右上隅にある コネクター をクリックします。[コネクターの作成] パネルで、必要に応じて DataConnector を作成します。

    3

  3. MaxCompute をクリックします。次のパラメーターが表示されます。

4一部のパラメーターの説明:

次の部分では、コンソールで DataConnector を作成するために使用される一部のパラメーターについて説明します。より柔軟な方法で DataConnector を作成するには、SDK を使用します。

  1. フィールドのインポート

    宛先 MaxCompute テーブルに同期する列を指定できます。

  2. パーティションモード

    パーティションモードは、MaxCompute のどのパーティションにデータが書き込まれるかを決定します。次の表に、DataHub でサポートされているパーティションモードを示します。

パーティションモード

パーティション基準

サポートされているトピックのデータ型

説明

USER_DEFINE

レコードのパーティションキー列の値に基づきます。パーティションキー列の名前は、MaxCompute のパーティションフィールドの名前と同じである必要があります。

TUPLE

1. トピックのスキーマには、MaxCompute のパーティションフィールドが含まれている必要があります。 2. 列の値は、UTF-8 でエンコードされた文字列 でなければならず、NULL にすることはできません。

SYSTEM_TIME

レコードが DataHub に書き込まれたときのタイムスタンプに基づきます。

TUPLE および BLOB

1. [パーティション設定] パラメーターを設定して、MaxCompute での時間ベースのパーティション分割のためにタイムスタンプを変換する 1 つ以上の形式を指定する必要があります。 2. [タイムゾーン] パラメーターを設定して、タイムゾーンを指定する必要があります。

EVENT_TIME

レコードの event_time(TIMESTAMP) 列の値に基づきます。

TUPLE

1. [パーティション設定] パラメーターを設定して、MaxCompute での時間ベースのパーティション分割のためにタイムスタンプを変換する 1 つ以上の形式を指定する必要があります。 2. [タイムゾーン] パラメーターを設定して、タイムゾーンを指定する必要があります。

META_TIME

レコードの __dh_meta_time__ プロパティ列の値に基づきます。

TUPLE および BLOB

1. [パーティション設定] パラメーターを設定して、MaxCompute での時間ベースのパーティション分割のためにタイムスタンプを変換する 1 つ以上の形式を指定する必要があります。 2. [タイムゾーン] パラメーターを設定して、タイムゾーンを指定する必要があります。

SYSTEM_TIMEEVENT_TIME、または META_TIME モードでは、タイムスタンプと指定されたタイムゾーンに基づいて、宛先 MaxCompute テーブルの異なるパーティションにデータが同期されます。デフォルトでは、タイムスタンプはマイクロ秒単位です。

  1. [パーティション設定] パラメーターは、宛先 MaxCompute テーブルで時間ベースのパーティション分割を実装するためにタイムスタンプを変換するために使用される設定を指定します。次の表に、DataHub コンソールでサポートされているデフォルトの MaxCompute 時間形式を示します。

パーティションタイプ

時間形式

説明

ds

%Y%m%d

hh

%H

mm

%M

  1. [時間範囲] パラメーターは、宛先 MaxCompute テーブルでパーティションが生成される間隔を指定します。有効な値: 15 ~ 1440 (分単位)。ステップサイズは 15 です。

  2. [タイムゾーン] パラメーターは、時間ベースのパーティション分割に使用するタイムゾーンを指定します。

  3. BLOB タイプのデータを MaxCompute に同期する場合、16 進数の区切り文字を使用して同期前にデータを分割できます。たとえば、改行 (\n) を示す 0A に [分割キー] パラメーターを設定できます。

  4. デフォルトでは、データ型が BLOB のトピックはバイナリデータを格納します。ただし、このようなデータは MaxCompute の STRING タイプの列にマッピングされます。したがって、DataHub コンソールで DataConnector を作成すると、Base64 エンコードが自動的に有効になります。DataConnector をカスタマイズする場合は、SDK を使用します。

ステップ 5: DataConnector を表示する

5

詳細については、「MaxCompute へのデータの同期」をご参照ください。