SQL クエリとデータ分析 - DataWorks - Alibaba Cloud ドキュメントセンター

データを迅速にクエリおよび分析するために、SQL ステートメントを使用して MaxCompute、EMR Hive、Hologres などのデータソースをクエリできます。このトピックでは、データソースに対して SQL クエリを実行する方法について説明します。

重要

このトピックは、DataAnalysis の新バージョンに適用されます。旧バージョンに関する説明は、「SQL クエリ (旧バージョン)」をご参照ください。ナビゲーションバーで DataAnalysis の新旧バージョンを切り替えることができます。

サポートされるデータソース

SQL クエリは、次のデータソースタイプをサポートしています：MaxCompute、Hologres、EMR、CDH、ADB for PostgreSQL、ADB for MySQL、ClickHouse、StarRocks、MySQL、PostgreSQL、Oracle、SQL Server、Doris、および SelectDB。

説明

MaxCompute のみ、直接接続とデータソース接続の両方でのクエリをサポートしています。他のデータソースタイプは、ご利用のワークスペース内のデータソースのクエリのみをサポートします。

データソースの権限

データソースの範囲

データソース接続モード：必要な権限を持つワークスペース内のデータソースからのみデータを選択できます。まず、ワークスペース管理者に依頼して、データアナリスト、開発者、O&M エンジニア、またはワークスペース管理者としてワークスペースに追加してもらう必要があります。
直接接続モード：ご利用の Alibaba Cloud アカウントがメンバーとなっている MaxCompute プロジェクトのみ選択できます。MaxCompute プロジェクトの権限に関する詳細については、「MaxCompute のユーザーと権限」をご参照ください。

データソースのアクセス権限

以下の 2 つのアクセス ID モードのいずれかを使用してデータソースにアクセスできます。

アクセス ID モード	説明	サポートされるデータソース	権限付与
Executor Identity	DataWorks にログインするために使用する Alibaba Cloud アカウントの ID です。	MaxCompute および Hologres。	指定された MaxCompute プロジェクトまたは Hologres インスタンスの管理者に依頼して、メンバー権限を付与してもらってください。
Data Source Default Access Identity	データソースの作成時に設定されたアクセス ID です。	この機能でサポートされているすべてのデータソース。	ご利用のアカウントがデータソースのデフォルトのアクセス ID でない場合は、ワークスペース管理者に依頼して、ご利用の Alibaba Cloud アカウントに権限を付与してもらってください。

重要

MaxCompute プロジェクトで IP アドレスホワイトリストが有効になっている場合は、DataAnalysis のホワイトリストにある IP アドレスを MaxCompute プロジェクトの IP アドレスホワイトリストに追加してください。

機能へのアクセス

DataWorks の DataAnalysis にログインし、対象のリージョンに切り替えてから、[DataAnalysis に移動] をクリックします。

ナビゲーションバーに Switch to New DataAnalysis が表示されている場合は、それをクリックして新バージョンに切り替えます。
ナビゲーションバーに Return to Legacy DataAnalysis が表示されている場合は、すでに新バージョンを使用しています。

SQL クエリの作成

[パーソナルディレクトリ] > My Files にカーソルを合わせ、 > [新しい SQL ファイル] をクリックします。
また、[新しいフォルダ] をクリックして、SQL クエリファイル用のカスタムフォルダ構造を作成することもできます。
SQL エディターで、SQL クエリを作成します。
重要
以下の方法でも SQL ステートメントを生成できます：
- [データカタログ] ページで、データカタログを追加した後、対象のテーブルを見つけ、テーブルを右クリックして [クエリ SQL の生成] を選択します。
- [共有ファイル] フォルダから共有された SQL クエリをコピーします。
- SQL コードを作成した後、ツールバーの Format ボタンをクリックしてコードをフォーマットします。
- SQL クエリは Copilot をサポートしています。ナビゲーションバーの右上隅にある Copilot アイコン () をクリックすると、コード生成やコード修正などの機能を使用して、コード作成を支援できます。Copilot はエディター内でのコード補完も提供し、効率を向上させます。
SQL の例
次の SQL ステートメントは、MaxCompute の公開 GitHub イベントデータをクエリします：
```
-- セッションレベルのスキーマ構文を有効にします。
SET odps.namespace.schema=true; 
-- dwd_github_events_odps テーブルから 100 行をクエリします。
SELECT * FROM bigdata_public_dataset.github_events.dwd_github_events_odps WHERE ds='${dt}' LIMIT 100;
```
説明
スキーマ構文が有効になっている MaxCompute プロジェクトをクエリする場合は、クエリ文の前に SET odps.namespace.schema=true; を追加する必要があります。これにより、セッションレベルのスキーマ構文が有効になり、クエリの失敗を防ぎます。
デフォルトでは、クエリは現在の Run Configuration で指定されたデータソースで実行されます。メンバーとなっている他の MaxCompute プロジェクトをクエリするには、クエリ文でプロジェクト名を明示的に指定する必要があります。たとえば、実行設定のコンピューティングリソースが MaxCompute A で、クエリ文が MaxCompute B (SELECT * FROM B.schema_name.table_name WHERE ****) を指定している場合、システムは A の実行エンジンを使用して B のデータをクエリします。
SQL クエリを作成した後、右側の Run Configuration をクリックして、Data Source や Script Parameters などの設定を行います。
- Type：SQL クエリの対象となるデータソースタイプを選択します。データソースタイプが MaxCompute の場合、コンピューティングクォータを設定できます。バッチ処理とインタラクティブシナリオの両方で、従量課金およびサブスクリプションの課金方法がサポートされています。MaxCompute クォータの管理方法に関する詳細については、「コンピューティングリソース (クォータ) の管理」をご参照ください。
- Computing Resource：SQL クエリの対象データソースを指定します。MaxCompute データのみをクエリする場合、直接接続またはデータソース接続がサポートされます。他のタイプのデータソースについては、権限を持つワークスペース内のデータソースからのみデータをクエリできます。権限に関する詳細については、「データソースの権限」をご参照ください。
- Script Parameters：SQL クエリでパラメータ変数を使用している場合、ランタイムでそれらに値を割り当てることができます。
  重要
  解析に失敗した場合は、左下隅の [管理] > [設定] に移動し、「解析」を検索して、[DataWorks ISP コードパラメータ機能を有効にする] チェックボックスをオンにしてください。

SQL エディターのツールバーで、Run をクリックします。また、Run ボタンの横にあるドロップダウンアイコンをクリックして実行モードを切り替えることもできます。シナリオに基づいて実行モードを選択できます。

実行モード	ユースケース	トリガー条件	適用エンジン
クエリモード (LIMIT 10000)	データを迅速にプレビューし、クエリロジックを検証します。このモードは、結果の小さなサンプルのみを表示する必要がある予備的なデータ探索に適しています。	クエリ結果が 10,000 行以下かつ 10 MB 以下の場合。	すべて
クエリモード (全データ)	分析またはエクスポートのために完全な結果セットを取得します。すべてのデータを処理および表示する必要がある場合、システムは自動的にこのモードをトリガーします。	クエリ結果が 10,000 行を超えるか、10 MB を超える場合。	すべて
一時テーブルモード	複数ステップの複雑なクエリで結果を再利用します。あるクエリの出力を後続のクエリの入力として使用できるため、開発とデバッグの効率が向上します。	クエリ結果が 10,000 行以下かつ 10 MB 以下の場合。結果は自動的に一時テーブルに書き込まれます。	MaxCompute のみ

SQL クエリの実行後、結果ページで [操作ログ]、[結果]、および対応する SQL コードを表示できます。
クエリ結果の右上隅にあるボタンをクリックすると、左右レイアウトと上下レイアウトを切り替えることができます。

クエリ結果の可視化

クエリ結果の左側にあるツールバーで、ボタンをクリックすると、結果から自動的にチャートが生成されます。

説明

チャートの上にある [Copilot] ボタンをクリックすると、DataWorks Copilot のインテリジェントなチャートとインサイト生成機能を使用できます。
Edit Chart ボタンをクリックして、チャートのスタイルを変更できます。

エクスポートと共有

重要

データをローカルファイルにエクスポートしてから、そのファイルを別のデータソースにインポートする必要がある場合は、Data Integration のバッチ同期タスクを使用してください。この方法は、より効率的で安定したデータ移行と同期を提供します。

SQL クエリ結果の右側にある Export をクリックします。次のエクスポートオプションがサポートされています：

ローカルファイル：クエリ結果を CSV ファイルとしてローカルコンピューターにダウンロードします。詳細は次の表をご参照ください。

項目	説明
ダウンロード制限	MaxCompute および EMR エンジンのみがサポートされています。詳細については、「データダウンロードの制限」をご参照ください。 MaxCompute プロジェクトでデータダウンロードを禁止するデータ保護メカニズムが有効になっている場合、DataAnalysis からのダウンロードは失敗します。
Scope	Only Data Displayed in Table または All Data のダウンロードを選択できます。 Only Data Displayed in Table：現在のページに表示されているデータのみをダウンロードします。デフォルトでは、最大 `10000` 行までダウンロードできます。 All Data：エクスポート制限内のすべてのクエリ結果をエクスポートします。
ダウンロード方法	Download After Approval または Download Without Approval を選択できます。承認付きダウンロード：この方法では、データをダウンロードするために承認リクエストが必要です。設定可能なリスク検知ルールを使用して潜在的なデータリスクを特定することで、セキュリティを確保するのに役立ちます。説明リスク検知ルールは、DataWorks Enterprise Edition のみでサポートされています。承認なしダウンロード：これはデフォルトの方法です。承認は必要ありません。

Object Storage Service (OSS)：クエリ結果を CSV や Parquet などの指定された形式で Object Storage Service (OSS) バケットにエクスポートします。このオプションは、大量のデータをアーカイブしたり、他のクラウド製品と統合したりするのに適しています。

この機能を初めて使用する際には、DataWorks に OSS リソースへのアクセス権限を付与する必要があります。[ファイルパス] ドロップダウンリストで、プロンプトのワンクリック承認リンクをクリックし、画面の指示に従って RAM 認可を完了してください。

パラメーター	説明
ファイルパス	右側のフォルダアイコンをクリックして、結果ファイルを保存する OSS バケットとディレクトリを選択します。
ファイル名	システムが自動的にファイル名を生成しますが、変更することもできます。
ファイル形式	ファイル形式を選択します。サポートされている形式：`csv`、`text`、`orc`、および `parquet`。
区切り文字	列を区切るために使用されるデリミタ。デフォルトのデリミタはカンマ (`,`) です。
エンコード形式	ファイルのエンコード形式。例：`UTF-8` または `GBK`。
CU	エクスポートタスクのコンピューティングユニット (CU) の数。デフォルト値：1。
リソースグループ	このエクスポートタスクを実行するサーバーレスリソースグループを選択します。リソースグループを選択しない場合、[DataAnalysis] > [システム管理] で設定された Data Integration リソースグループが使用されます。

パラメータを設定した後、[OK] をクリックしてエクスポートタスクを開始します。タスク実行ページでは、エクスポートの進捗状況、操作ログ、および設定詳細を表示できます。タスクが成功した後、OSS コンソールに移動して、エクスポートされたファイルをローカルコンピューターにダウンロードします。

DingTalk シート：結果を DingTalk シートにエクスポートします。詳細については、「スプレッドシート」をご参照ください。
ワークブックと共有：クエリデータをワークブックに保存して、さらに分析を行うことができます。また、ワークブックから最新の分析結果を他のユーザーと共有することもできます。