すべてのプロダクト
Search
ドキュメントセンター

DataWorks:EMR Serverless StarRocks における DataWorks のベストプラクティス

最終更新日:Jan 20, 2026

DataWorks は StarRocks データソースをサポートしています。データソースを追加することで、DataWorks を EMR Serverless StarRocks に接続し、Data Integration、開発、分析、データサービスなどの機能を利用できます。この Topic では、DataWorks で EMR Serverless StarRocks を使用する方法について説明します。

背景情報

EMR Serverless StarRocks の概要

StarRocks は、次世代の高速な Massively Parallel Processing (MPP) データベースです。高速で統一された分析体験を提供します。

EMR Serverless StarRocks は、Alibaba Cloud 上のオープンソース StarRocks のためのフルマネージドサービスです。EMR Serverless StarRocks を使用して、StarRocks インスタンスとデータを柔軟に作成および管理できます。MySQL プロトコルと互換性のあるオンライン分析処理 (OLAP) エンジンとして、StarRocks は優れたパフォーマンスを提供し、多次元 OLAP 分析、データレイク分析、高同時実行クエリ、リアルタイムデータ分析など、さまざまな OLAP モデルをサポートします。

重要
  • [Data Studio (新バージョン) を使用] するワークスペースの場合、EMR Serverless StarRocks コンピューティングリソースをバインドすると、同じ名前のデータソースが自動的に生成されます。この Topic で説明されているようにデータソースを作成する必要はありません。

  • [Data Studio (新バージョン) を使用] しないワークスペースの場合、DataWorks で StarRocks を開発に使用するには、この Topic で説明されているように StarRocks データソースを作成する必要があります。

EMR Serverless StarRocks における DataWorks の概要

DataWorks は、ビッグデータ開発とガバナンスのためのワンストッププラットフォームです。データソースを介して EMR Serverless StarRocks に接続すると、DataWorks は Data Integration と定期的なジョブスケジューリングを可能にします。この統合は、データ分析とデータサービスにおける StarRocks エンジンの高速パフォーマンスと組み合わさり、さまざまなビジネスシナリオでの StarRocks の使用を完全にサポートします。

DataWorks の主要なサービスに関する基本概念と紹介

次の表は、EMR Serverless StarRocks を使用する際の DataWorks の主要なサービスと基本概念について説明しています。

基本概念/サービス

説明

リファレンス

リソースグループ

DataWorks リソースグループは、さまざまなタスクを実行するために使用されます。

データソース

DataWorks で使用するデータソースを作成できます。EMR Serverless StarRocks を使用する場合、StarRocks データソースを作成する必要があります。これにより、EMR Serverless StarRocks に接続してタスクの開発と実行が可能になります。

StarRocks データソースの詳細については、「StarRocks データソース」をご参照ください。

Data Integration

DataWorks は、複数のシナリオでさまざまなデータソース間のデータを同期するための Data Integration サービスを提供します。

Data Integration の詳細については、「Data Integration」をご参照ください。

データ開発・運用保守センター

DataWorks は、データ開発およびオペレーションセンターサービスを提供します。データ開発でタスクを開発およびデバッグできます。その後、タスクをオペレーションセンターに送信して公開し、定期的に自動実行させることができます。

データ分析

DataWorks のデータ分析サービスは、オンラインでのデータの分析、編集、共有を支援します。

詳細については、「データ分析」をご参照ください。

DataService Studio

DataWorks の DataService Studio は、データ API を構築するための柔軟、軽量、かつ安全なプラットフォームです。個人、チーム、企業向けに包括的なデータサービスと共有機能を提供し、ユーザーが内部および外部の API サービスを統一的に管理するのに役立ちます。

詳細については、「DataService Studio」をご参照ください。

データマップ

DataWorks のデータマップは、メタデータに基づいてエンタープライズデータカタログを管理するためのモジュールです。グローバルなデータ検索、メタデータ詳細の表示、データプレビュー、データリネージ、データカテゴリ管理などの機能が含まれています。データマップは、データをより効果的に見つけ、理解し、使用するのに役立ちます。

詳細については、「データマップの概要」をご参照ください。

前提条件

  • DataWorks が有効化され、ワークスペースが作成されていること。詳細については、「購入」をご参照ください。

  • リソースグループが購入され、ワークスペースにバインドされ、適切なネットワーク設定が構成されていること。詳細については、「リソースグループ管理」をご参照ください。

  • EMR Serverless StarRocks インスタンスが作成されていること。詳細については、「オールインワンインスタンスのクイックユース」をご参照ください。

    説明

    StarRocks インスタンスを作成した後、EMR コンソールでインスタンス情報を表示できます。また、EMR StarRocks Manager を使用してインスタンスに接続し、データベースとテーブルに関する情報を表示することもできます。

  • DataWorks リソースグループの IP アドレスが EMR Serverless StarRocks インスタンスのホワイトリストに追加されていること。

    次の図は、EMR Serverless StarRocks インスタンスのホワイトリストに IP アドレスを追加するためのエントリポイントを示しています。

    image.png

データソースの作成

DataWorks で EMR Serverless StarRocks を使用する場合、まず StarRocks データソースを作成して EMR Serverless StarRocks データベースに接続する必要があります。これにより、さまざまな DataWorks サービスで EMR Serverless StarRocks を使用できるようになります。

重要
  • [Data Studio (新バージョン) を使用] に設定されているワークスペースの場合、EMR Serverless StarRocks コンピューティングリソースをバインドすると、同じ名前のデータソースが自動的に生成されます。この Topic で説明されているようにデータソースを作成する必要はありません。

  • [Data Studio (新バージョン) を使用] を有効にしていないワークスペースの場合、DataWorks で StarRocks を開発に使用するには、この Topic で説明されているように StarRocks データソースを作成します。

StarRocks データソースの詳細については、「StarRocks データソース」をご参照ください。データソースを作成するためのエントリポイントと主要な設定パラメーターは、次の手順で説明します。

  1. [データソース] ページに移動します。

    1. DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[その他] > [管理センター] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[管理センターへ移動] をクリックします。

    2. SettingCenter ページの左側のナビゲーションウィンドウで、[データソース] をクリックします。

  2. [データソースの追加] をクリックします。主要な設定については、次のセクションで説明します。他のパラメーターはデフォルト値のままでかまいません。

    StarRocks インスタンスと DataWorks リソースグループ間のネットワーク接続に基づいて、データソースを作成する方法を選択します。ネットワーク接続ソリューションの詳細については、「ネットワーク接続ソリューションの概要」をご参照ください。

    内部ネットワーク経由での接続

    主要パラメーター

    説明

    [設定モード]

    [Alibaba Cloud インスタンスモード] を選択します。

    Alibaba Cloud アカウント

    • EMR Serverless StarRocks インスタンスが DataWorks と同じ Alibaba Cloud アカウントに属している場合は、[現在の Alibaba Cloud アカウント] を選択します。

    • EMR Serverless StarRocks インスタンスが別の Alibaba Cloud アカウントに属している場合は、[別の Alibaba Cloud アカウント] を選択します。[別の Alibaba Cloud アカウント] を選択した後、[別の Alibaba Cloud アカウントの UID][RAM ロール] も設定する必要があります。RAM ロールの設定の詳細については、「クロスアカウント権限付与 (RDS、Hive、または Kafka)」をご参照ください。

    リージョン

    EMR Serverless StarRocks インスタンスが存在するリージョンを選択します。

    インスタンス

    特定の [Serverless] StarRocks インスタンスを選択します。

    データベース名

    接続するデータベースの名前。EMR StarRocks Manager を使用してインスタンスに接続し、[メタデータ管理] ページでデータベース名を表示できます。

    ユーザー名パスワード

    インスタンスのユーザー名とパスワード。

    StarRocks インスタンスを作成すると、デフォルトで admin ユーザーが作成されます。パスワードは、インスタンス作成時に指定したものです。

    [接続設定]

    データソースと購入したリソースグループ間の接続性をテストする必要があります。接続ステータスが [接続済み] の場合、データソースとリソースグループ間のネットワークが接続されていることを示します。

    インターネット経由での接続

    主要パラメーター

    説明

    設定モード

    [接続文字列モード] を選択します。

    ホストアドレス/IP アドレス

    EMR Serverless StarRocks インスタンスの FE ノードの [パブリックエンドポイント]

    image

    ポート

    EMR Serverless StarRocks インスタンスの FE の [ポート]。デフォルトのクエリポートは 9030 です。

    URL をロード

    StreamLoad 用の StarRocks FE ノードのアドレス。複数の FE アドレスを FE パブリック IP アドレス:FE HTTP ポート の形式で指定できます。複数のアドレスはカンマで区切ります。

    データベース名

    接続するデータベースの名前。EMR StarRocks Manager を使用してインスタンスに接続した後、[メタデータ管理] でデータベース名を表示できます。

    ユーザー名/パスワード

    インスタンスのユーザー名とパスワード。

    StarRocks インスタンスを作成すると、デフォルトで admin ユーザーが作成されます。パスワードは、インスタンス作成時に指定したものです。

    接続設定

    データソースと購入したリソースグループ間のネットワーク接続をテストする必要があります。ステータスが [接続済み] の場合、ネットワークが正常に接続されていることを示します。

Data Integration

DataWorks は、MySQL、Hive、Kafka、OSS、HDFS など、さまざまなソースから EMR Serverless StarRocks テーブルにデータを同期できます。次の例では、MySQL データベースから EMR Serverless StarRocks テーブルにデータを同期するための主要な手順について説明します。

説明

StarRocks データソースの同期タスクの設定の詳細については、「StarRocks データソース」をご参照ください。

  1. DataStudio ページに移動します。

    DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[データ開発・運用保守] > [データ開発] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発へ移動] をクリックします。

  2. バッチ同期ノードを作成します。データソースを MySQL に、宛先データソースを StarRocks に設定します。

    image.png

  3. リソースグループを選択します。次に、ソースおよび宛先データソースへの接続性をテストします。

  4. 定期的なスケジュールを設定し、ノードを送信して公開し、タスクを定期的に実行します。

    デバッグが完了したら、サイドバーの [プロパティ] をクリックし、スケジューリングサイクルや再実行ポリシーなどのスケジューリングパラメーターを設定し、ノードのリソースグループを設定してから、[送信] ボタンと [デプロイ] ボタンをクリックします。

データ開発とスケジューリング

定期的なスケジューリングが必要な EMR Serverless StarRocks タスクの場合、DataStudio で StarRocks ノードを作成できます。その後、接続された StarRocks データソースを選択し、EMR Serverless StarRocks SQL タスクを記述し、定期的なスケジュールを設定できます。主要な手順は次のとおりです:

  1. DataStudio ページに移動します。

    DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[データ開発・運用保守] > [データ開発] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発へ移動] をクリックします。

  2. DataStudio で、StarRocks ノードを作成します。接続された StarRocks データソースを選択し、EMR Serverless StarRocks SQL タスクを記述します。

    image.png

  3. DataStudio で EMR Serverless StarRocks SQL タスクをデバッグするには、デバッグしたい SQL コマンドを選択し、実行ボタンをクリックします。デバッグタスクを実行するリソースグループを選択します。

  4. 定期的なスケジュールを設定し、ノードを送信して公開し、タスクを定期的に実行します。

    デバッグが完了したら、サイドバーの [プロパティ] をクリックし、スケジューリングサイクルや再実行ポリシーなどのスケジューリングパラメーターを設定し、タスクのリソースグループを設定してから、[送信] ボタンと [デプロイ] ボタンをクリックします。

データ分析

DataWorks のデータ分析サービスを使用して、EMR Serverless StarRocks テーブルのデータを迅速に分析できます。主要な手順は次のとおりです:

  1. SQL クエリページに移動します。

    DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[データ分析・サービス] > [データ分析] を選択します。表示されたページで、[データ分析へ移動] をクリックします。表示されたページの左側のナビゲーションウィンドウで、[SQL クエリ] をクリックします。

  2. 左サイドバーの image アイコンをクリックし、[その他] > [システム管理] をクリックします。[システム管理] ページで、StarRocks エンジンタイプのクエリリソースグループをタスクが使用するリソースグループに設定します。

    image.png

  3. SQL クエリページに戻ります。右上隅で、エンジンタイプを StarRocks に切り替え、データソースを選択します。その後、クエリ文を編集して実行し、EMR Serverless StarRocks のデータを分析できます。

    image.png

DataService Studio

DataService Studio は、StarRocks データソース用の API の生成をサポートしています。

  1. DataService Studio ページに移動します。

    DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[データ分析・サービス] > [DataService Studio] を選択します。表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[DataService Studio へ移動] をクリックします。

  2. API を生成し、そのパラメーターを設定します。

    DataService Studio は、コードレス UI とコードエディタを提供します。コードエディタでは、API のリクエストパラメーターとレスポンスパラメーターを SQL クエリ文から自動的に生成できます。次の例は、コードレス UI を使用するための主要な手順を示しています。

    image.png

    データソースタイプを StarRocks に設定します。作成した StarRocks データソースとターゲットテーブルを選択します。ページ上のプロンプトに従って、リクエストパラメーターやレスポンスパラメーターなどの API パラメーターを設定します。

  3. 右サイドバーの [リソースグループ] をクリックし、リソースグループを DataService Studio 専用リソースグループとして設定します。

    image.png

  4. API がテストに合格した後、送信して公開します。

データマップ

データマップモジュールは、StarRocks のデータのメタデータ取得、検索、およびテーブル詳細ページをサポートしています。

メタデータ取得

  1. データマップページに移動します。

    DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[データガバナンス] > [データマップ] を選択します。表示されたページで、[データマップへ移動] をクリックします。

  2. 左側のナビゲーションウィンドウで image アイコンをクリックし、StarRocks モジュールの右上隅にある [管理] ボタンをクリックします。

  3. [クローラーが作成されていないデータソース] タブに切り替えます。[アクション] 列で、[メタデータ取得] をクリックします。

  4. [リソースグループ名] を設定します。[ネットワーク接続のテスト] が成功した後、[収集計画] を設定し、[確認] をクリックしてメタデータ取得の設定を完了します。

    image

    説明
    • メタデータ取得の詳細については、「メタデータ取得」をご参照ください。

    • このタスクを実行できるのは、サーバーレスリソースグループのみです。

検索

  1. データマップページに移動します。

    DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[データガバナンス] > [データマップ] を選択します。表示されたページで、[データマップへ移動] をクリックします。

  2. データマップページの左側のナビゲーションウィンドウで、image アイコンをクリックします。表示されたページで、[データソース] タブの [StarRocks] を選択し、ページ上部でタイプ別にテーブルを検索します。

    説明

    検索の詳細については、「共通データのクエリと管理」をご参照ください。

    image

テーブル詳細

  1. データマップページに移動します。

    DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、[データガバナンス] > [データマップ] を選択します。表示されたページで、[データマップへ移動] をクリックします。

  2. データマップのホームページまたは検索結果で、ターゲットテーブルを見つけてその名前をクリックし、テーブル詳細ページに移動します。

  3. [詳細][出力][リネージ]、および [使用上の注意] タブを表示できます。

    説明
    • テーブル詳細については、「共通データのクエリと管理」をご参照ください。

    • V3.1.13、V3.2.9 以降のバージョンの StarRocks サーバーレスクラスターは、メタデータとデータリネージ分析をサポートしています。設定の詳細については、「データリネージの表示」をご参照ください。

    image