DataWorks 経由で Tablestore データの SQL クエリを実行 - Tablestore

Tablestore では、Tablestore インスタンスを DataWorks に接続できます。これにより、DataWorks でインスタンスのデータを管理および使用できます。インスタンスを DataWorks に接続するには、DataWorks に Tablestore データソースを追加する必要があります。 Tablestore データソースを追加した後、DataWorks でデータ同期タスクを設定して、Tablestore データを同期および移行し、SQL ステートメントを実行して Tablestore データをクエリできます。このトピックでは、Tablestore データソースを追加し、SQL ステートメントを実行して Tablestore データをクエリする方法について説明します。

背景情報

DataWorks は、MaxCompute、Hologres、E-MapReduce（EMR）、AnalyticDB、Cloudera Data Platform（CDP）などのビッグデータコンピュートエンジンに基づいて、データウェアハウス、データレイク、データレイクハウスソリューションを提供するエンドツーエンドのビッグデータ開発およびガバナンスプラットフォームです。詳細については、「DataWorks とは」をご参照ください。

シナリオ

Tablestore インスタンスを DataWorks に接続すると、DataWorks でデータを効率的に処理および分析し、さまざまなビッグデータシナリオでデータを使用できます。よくあるシナリオを以下に示します。

大規模データストレージと分析
Tablestore は高スループットを提供し、大量のデータを格納できます。 DataWorks はビッグデータ分析をサポートしています。接続後、DataWorks で SQL ステートメント、MapReduce タスク、またはカスタムコードを使用して、Tablestore データをクエリおよび処理できます。たとえば、ログやユーザーの行動を分析できます。
リアルタイムデータ処理
DataWorks は、Flink タスクなどのリアルタイムコンピューティングタスクをサポートしています。接続後、リアルタイムモニタリング、リアルタイムレポート、リアルタイムレコメンデーションなどのシナリオで、Tablestore データをリアルタイムで消費、処理、分析できます。
オフラインデータ処理とバッチ処理
DataWorks はタスクスケジュール機能を提供します。接続後、Tablestore データを含むバッチ処理タスクがトリガーされ、スケジュールどおりに実行されます。タスクは、生データを分析に必要な形式に変換する抽出・変換・書き出し（ETL）タスク、またはデータを集計および分析するスケジュールされたタスクです。
データレイクとデータウェアハウスの構築
Tablestore は、生データまたは半構造化データを格納するデータレイクのストレージレイヤーとして使用できます。接続後、DataWorks を使用してデータパイプラインを構築し、Tablestore データを処理およびクレンジングしてから、MaxCompute などのデータウェアハウスにインポートして、さらに分析およびマイニングを行うことができます。
BI レポートとデータの可視化
DataWorks は、Quick BI などのビジネスインテリジェンス（BI）レポートツールと統合できます。接続後、DataWorks は Tablestore から直接データを読み取り、さまざまな BI レポートとダッシュボードを生成して、企業の意思決定のためのデータサポートを提供できます。
機械学習と AI プロジェクト
トレーニング、モデル、特徴のデータを Tablestore に格納できます。接続後、DataWorks を使用して、Tablestore データに基づいてモデルトレーニングと予測を行うために Platform for AI（PAI）で作成されたタスクを呼び出すことができます。これにより、データの準備からモデルのデプロイまで、エンドツーエンドの開発を行うことができます。

手順

Tablestore インスタンスを DataWorks に接続すると、SQL クエリ機能を使用して Tablestore データをクエリおよび分析できます。

Wide Column モデルまたは TimeSeries モデルを使用する場合にのみ、Tablestore インスタンスを DataWorks に接続できます。

前提条件

AccessKey ペアが作成されたリソースアクセス管理（RAM）ユーザーが作成されます。 AliyunOTSFullAccess ポリシーが RAM ユーザーにアタッチされ、RAM ユーザーに Tablestore を管理する権限が付与されます。また、AliyunDataWorksFullAccess ポリシーが RAM ユーザーにアタッチされ、RAM ユーザーに DataWorks を管理する権限が付与されます。詳細については、「RAM ユーザーの AccessKey ペアを使用して Tablestore にアクセスする」をご参照ください。
使用する Tablestore データモデルに基づいて、特定のリソースが作成されます。
- Wide Column モデルを使用する場合は、データテーブルが作成され、データがデータテーブルに書き込まれます。詳細については、「データテーブルの操作」および「データの書き込み」をご参照ください。
- TimeSeries モデルを使用する場合は、時系列テーブルが作成され、データが時系列テーブルに書き込まれます。詳細については、「時系列テーブルの操作」および「時系列データの書き込み」をご参照ください。
DataWorks コンソールで次の操作が実行されます。
- DataWorks がアクティブ化され、ワークスペースが作成されます。詳細については、「DataWorks のアクティブ化」および「ワークスペースの作成」をご参照ください。
- DataWorks の DataAnalysis サービスで Tablestore データソースをクエリする権限を取得します。詳細については、「データクエリおよび分析コントロール機能を使用する」をご参照ください。
- 使用するアカウントがワークスペースのメンバーとして追加され、データアナリスト、モデルデベロッパー、開発、O&M、ワークスペースマネージャー、またはプロジェクトオーナーロールがメンバーに割り当てられます。詳細については、「ワークスペースメンバーを追加し、ロールを割り当てる」をご参照ください。

ステップ 1: DataWorks に Tablestore データソースを追加する

Tablestore データベースをデータソースとして追加するには、次の手順を実行します。

Data Integration ページに移動します。
DataWorks コンソールにログインし、左上隅でリージョンを選択し、[データ開発とガバナンス] > [データ統合] を選択し、ドロップダウンリストからワークスペースを選択して、[データ統合に移動] をクリックします。
左側のナビゲーションウィンドウで、[データソース] をクリックします。
[データソース] ページで、[データソースの追加] をクリックします。
[データソースの追加] ダイアログボックスで、[tablestore] ブロックをクリックします。

[OTS データソースの追加] ダイアログボックスで、次の表に示すパラメーターを設定します。

パラメーター	説明
データソース名	データソースの名前。名前には文字、数字、アンダースコア（_）を含めることができ、文字で始める必要があります。
データソースの説明	データソースの説明。説明は 80 文字以内にする必要があります。
エンドポイント	Tablestore インスタンスのエンドポイント。詳細については、「エンドポイント」をご参照ください。 Tablestore インスタンスと宛先データソースのリソースが同じリージョンにある場合は、仮想プライベートクラウド（VPC）エンドポイントを入力します。それ以外の場合は、パブリックエンドポイントを入力します。
Table Store インスタンス名	Tablestore インスタンスの名前。詳細については、「インスタンス」をご参照ください。
AccessKey ID	Alibaba Cloud アカウントまたは RAM ユーザーの AccessKey ID と AccessKey シークレット。 AccessKey ペアの作成方法の詳細については、「AccessKey ペアを作成する」をご参照ください。
AccessKey シークレット

データソースと選択したリソースグループ間のネットワーク接続をテストします。
同期ノードが予期どおりに実行されるようにするには、データソースと、同期ノードが実行されるすべてのリソースグループタイプ間の接続をテストする必要があります。
重要
同期タスクは、1 つのリソースグループタイプのみを使用できます。デフォルトでは、データ統合の共有リソースグループのみがリソースグループリストに表示されます。データ同期の安定性とパフォーマンスを確保するために、データ統合専用のリソースグループを使用することをお勧めします。
1. [購入] をクリックして新しいリソースグループを作成するか、[購入したリソースグループを関連付ける] をクリックして既存のリソースグループを関連付けます。詳細については、「データ統合専用のリソースグループを作成して使用する」をご参照ください。
2. リソースグループが開始されたら、リソースグループの [接続ステータス（本番環境）] 列の [ネットワーク接続のテスト] をクリックします。
  [接続済み] と表示されている場合は、接続テストに合格しています。
データソースがネットワーク接続テストに合格したら、[完了] をクリックします。
新しく作成されたデータソースがデータソースリストに表示されます。

ステップ 2: DataWorks の SQL クエリ機能を使用して Tablestore データをクエリする

Tablestore は、Wide Column モデルや TimeSeries モデルなどのデータストレージモデルをサポートしています。 SQL クエリ操作は、インスタンスのモデルによって異なります。インスタンスのモデルに基づいて SQL クエリ操作を実行する必要があります。

DataWorks の DataAnalysis サービスの SQL クエリ機能は、Tablestore の SQL クエリ機能と同じ機能を提供します。詳細については、「SQL 機能」をご参照ください。

Wide Column モデルのインスタンスで SQL ステートメントを実行してデータをクエリする

データ分析ページに移動します。
1. DataWorks コンソールにプロジェクト管理者としてログインします。
2. 左側のナビゲーションウィンドウで、[データ分析] > [SQL クエリ] を選択します。
3. [SQL クエリ] ページで、リージョンを選択し、管理するワークスペースを選択して、[SQL クエリに移動] をクリックします。
SQL クエリファイルを作成します。
1. SQL クエリページの左側のナビゲーションウィンドウで、[マイファイル] の右側にあるプラスアイコンにポインターを移動し、[ファイルの作成] を選択します。
2. [ファイルの作成] ダイアログボックスで、ファイル名を入力し、[OK] をクリックします。
  左側のナビゲーションウィンドウに、作成されたファイルが表示されます。

作成したファイルの SQL エディターを開き、クエリするデータのデータソースに関する情報を設定します。

SQL クエリページの左側のナビゲーションウィンドウで、[マイファイル] をクリックし、作成したファイルをクリックします。表示される SQL エディターの右上隅にあるアイコンをクリックします。

表示されるダイアログボックスで、パラメーターを設定します。次の表にパラメーターを示します。

パラメーター	説明
ワークスペース	クエリするデータのワークスペース。ビジネス要件に基づいてワークスペースを選択します。
データソースタイプ	クエリするデータのデータソースのタイプ。 [tablestore] を選択します。
データソース名	クエリするデータのデータソースの名前。追加したデータソースを選択します。クエリするテーブルは、データソースに指定されたインスタンスに属しています。重要 [データソース名] ドロップダウンリストには、使用が許可されているデータソースのみが表示されます。他のデータソースを使用する場合は、管理者に連絡して、[セキュリティセンター] ページで必要な権限を付与してもらってください。詳細については、「データクエリおよび分析コントロール機能を使用する」をご参照ください。

[OK] をクリックします。

テーブルのマッピングテーブルを作成し、SQL ステートメントを実行します。
テーブルのマッピングテーブルが作成されている場合は、この手順をスキップできます。
重要
テーブルのマッピングテーブルを作成する場合は、マッピングテーブルのフィールドのデータタイプがテーブルのフィールドのデータタイプと一致していることを確認してください。詳細については、「SQL でのデータタイプマッピング」をご参照ください。
1. ファイルの SQL エディターで、マッピングテーブルを作成するための SQL ステートメントを記述します。詳細については、「テーブルのマッピングテーブルを作成する」をご参照ください。
  テーブルのマッピングテーブルを作成する場合は、マッピングテーブルの名前とプライマリキー列がテーブルと同じであることを確認してください。
  説明
  データテーブルに検索インデックスが作成されている場合は、検索インデックスのマッピングテーブルを作成できます。これにより、SQL ステートメントを実行して、検索インデックスに基づいてデータをクエリできます。詳細については、「検索インデックスのマッピングテーブルを作成する」をご参照ください。
  次の SQL ステートメントの例は、test_table という名前のテーブルのマッピングテーブルを作成する方法の例を示しています。
```
CREATE TABLE `test_table` (
    `pk` VARCHAR(1024), 
    `long_value` BIGINT(20), 
    `double_value` DOUBLE, 
    `string_value` MEDIUMTEXT, 
    `bool_value` BOOL, 
    PRIMARY KEY(`pk`)
);
```
2. SQL ステートメントをクリックし、ツールバーの [実行] をクリックします。
  実行結果は、SQL エディターの [結果] タブに表示されます。
SQL ステートメントを実行して、テーブル内のデータをクエリします。
1. ファイルの SQL エディターで、SELECT ステートメントを記述してデータをクエリします。詳細については、「データのクエリ」をご参照ください。
  次の SQL ステートメントの例は、test_table テーブル内のデータをクエリし、最大 20 行のデータを取得する方法の例を示しています。
```
SELECT `pk`, `long_value`, `double_value`, `string_value`, `bool_value` FROM test_table LIMIT 20;
```
2. SQL ステートメントをクリックし、ツールバーの [実行] をクリックします。
  実行結果は、SQL エディターの [結果] タブに表示されます。

TimeSeries モデルのインスタンスで SQL ステートメントを実行してデータをクエリする

データ分析ページに移動します。
1. DataWorks コンソールにプロジェクト管理者としてログインします。
2. 左側のナビゲーションウィンドウで、[データ分析] > [SQL クエリ] を選択します。
3. [SQL クエリ] ページで、リージョンを選択し、管理するワークスペースを選択して、[SQL クエリに移動] をクリックします。
SQL クエリファイルを作成します。
1. SQL クエリページの左側のナビゲーションウィンドウで、[マイファイル] の右側にあるプラスアイコンにポインターを移動し、[ファイルの作成] を選択します。
2. [ファイルの作成] ダイアログボックスで、ファイル名を入力し、[OK] をクリックします。
  左側のナビゲーションウィンドウに、作成されたファイルが表示されます。

作成したファイルの SQL エディターを開き、クエリするデータのデータソースに関する情報を設定します。

SQL クエリページの左側のナビゲーションウィンドウで、[マイファイル] をクリックし、作成したファイルをクリックします。表示される SQL エディターの右上隅にあるアイコンをクリックします。

表示されるダイアログボックスで、パラメーターを設定します。次の表にパラメーターを示します。

パラメーター	説明
ワークスペース	クエリするデータのワークスペース。ビジネス要件に基づいてワークスペースを選択します。
データソースタイプ	クエリするデータのデータソースのタイプ。 [tablestore] を選択します。
データソース名	クエリするデータのデータソースの名前。追加したデータソースを選択します。クエリするテーブルは、データソースに指定されたインスタンスに属しています。重要 [データソース名] ドロップダウンリストには、使用が許可されているデータソースのみが表示されます。他のデータソースを使用する場合は、管理者に連絡して、[セキュリティセンター] ページで必要な権限を付与してもらってください。詳細については、「データクエリおよび分析コントロール機能を使用する」をご参照ください。

[OK] をクリックします。

テーブルのマッピングテーブルを作成し、SQL ステートメントを実行します。
時系列テーブルを作成すると、システムは自動的に単一値モデルのマッピングテーブルと、時系列テーブルの時系列メタデータのマッピングテーブルを作成します。単一値モデルのマッピングテーブルの名前は、時系列テーブルの名前と同じです。時系列メタデータのマッピングテーブルの名前は、時系列テーブルの名前に ::meta を付けたものです。
複数値モデルのマッピングテーブルを使用して時系列テーブルの時系列データをクエリする場合は、複数値モデルのマッピングテーブルを作成する必要があります。複数値モデルのマッピングテーブルを使用して時系列データをクエリしない場合は、複数値モデルのマッピングテーブルを作成する必要はありません。
重要
テーブルのマッピングテーブルを作成する場合は、マッピングテーブルのフィールドのデータタイプがテーブルのフィールドのデータタイプと一致していることを確認してください。詳細については、「SQL でのデータタイプマッピング」をご参照ください。時系列テーブルのマッピングテーブルのフィールドのデータタイプの詳細については、「SQL での時系列テーブルのマッピングテーブル」をご参照ください。
1. ファイルの SQL エディターで、マッピングテーブルを作成するための SQL ステートメントを記述します。詳細については、「SQL での時系列テーブルのマッピングテーブル」をご参照ください。
  次の SQL ステートメントの例は、timeseries_table::muti_model という名前の複数値モデルのマッピングテーブルを時系列テーブルに作成する方法の例を示しています。マッピングテーブルのメトリックは、cpu、memory、disktop です。SQL ステートメントの例:
```
CREATE TABLE `timeseries_table::muti_model` (
  `_m_name` VARCHAR(1024), 
  `_data_source` VARCHAR(1024), 
  `_tags` VARCHAR(1024),
  `_time` BIGINT(20),
  `cpu` DOUBLE(10),
  `memory` DOUBLE(10),
  `disktop` DOUBLE(10),
  PRIMARY KEY(`_m_name`,`_data_source`,`_tags`,`_time`)
);
```
2. SQL ステートメントをクリックし、ツールバーの [実行] をクリックします。
  実行結果は、SQL エディターの [結果] タブに表示されます。
SQL ステートメントを実行して、テーブル内のデータをクエリします。
1. ファイルの SQL エディターで、SELECT ステートメントを記述してデータをクエリします。詳細については、「SQL の例」をご参照ください。
  - 単一値モデルのマッピングテーブルを使用してデータをクエリする
    次の SQL ステートメントの例は、時系列データテーブルでメトリックタイプが basic_metric であるデータをクエリする方法の例を示しています。
```
SELECT * FROM timeseries_table WHERE _m_name = "basic_metric" LIMIT 10;
```
  - 時系列メタデータのマッピングテーブルを使用してデータをクエリする
    次の SQL ステートメントの例は、時系列メタデータのマッピングテーブルでメトリック名が basic_metric である時系列をクエリする方法の例を示しています。
```
SELECT * FROM  `timeseries_table::meta` WHERE _m_name = "basic_metric" LIMIT 100;
```
  - 複数値モデルのマッピングテーブルを使用してデータをクエリする
    次の SQL ステートメントの例は、複数値モデルのマッピングテーブルを使用して、cpu 値が 20.0 より大きい時系列のメトリックに関する情報をクエリする方法の例を示しています。
```
SELECT cpu,memory,disktop FROM `timeseries_table::muti_model` WHERE cpu > 20.0 LIMIT 10;
```
2. SQL ステートメントをクリックし、ツールバーの [実行] をクリックします。
  実行結果は、SQL エディターの [結果] タブに表示されます。

料金ルール

Tablestore 料金

DataWorks で SQL ステートメントを実行して Tablestore リソースにアクセスする場合、SQL ステートメントに対して料金は発生しません。ただし、SQL ステートメントの実行中にテーブルスキャンやインデックスクエリなどの操作が実行された場合は、操作に対して料金が発生します。詳細については、「SQL クエリの課金対象項目」をご参照ください。

その他のリソース料金

DataWorks ツールを使用すると、特定の機能とリソースに対して課金されます。詳細については、「購入ガイド」をご参照ください。

Tablestore:Tablestore インスタンスを DataWorks に接続する