DataWorks のデータアップロード機能を使用すると、ローカルファイル、データ分析ワークブック、Object Storage Service (OSS) ファイル、HTTP ファイルから MaxCompute、EMR Hive、Hologres、StarRocks などのエンジンにデータをアップロードして、分析および管理できます。この機能は、データを活用してビジネスを迅速に推進するのに役立つ便利なデータ転送サービスを提供します。このトピックでは、データアップロード機能の使用方法について説明します。
注意事項
クロスボーダーデータアップロード (中国本土から中国本土以外、または異なる国やリージョン間でのデータ転送など) を行う場合は、事前に関連するコンプライアンスステートメントをお読みください。そうしない場合、データアップロードが失敗し、法的責任を問われる可能性があります。
データをアップロードする前に、テーブルヘッダーを英語に設定してください。テーブルヘッダーが中国語の場合、解析に失敗し、アップロードエラーが発生する可能性があります。
制限事項
リソースグループの制限:データアップロード機能では、スケジュールリソースグループとデータ統合リソースグループを指定する必要があります。
Serverless リソースグループ (推奨)、専用スケジューリングリソースグループ、データ統合専用リソースグループのみがサポートされています。 で、対応するエンジンのスケジュールリソースグループとデータ統合リソースグループを設定する必要があります。
選択したリソースグループは、宛先テーブルが存在する DataWorks ワークスペースにアタッチされている必要があります。データアップロードタスクで使用されるデータソースが、選択したリソースグループにネットワーク経由で接続できることを確認してください。
説明データ分析でエンジンのリソースグループを設定する方法については、「システム管理」をご参照ください。
データソースとリソースグループ間のネットワーク接続を確立する方法については、「ネットワーク接続ソリューション」をご参照ください。
専用リソースグループをワークスペースにアタッチする方法については、「専用スケジューリングリソースグループの使用」および「データ統合専用リソースグループの使用」をご参照ください。
テーブルの制限:
所有するテーブルにのみデータをアップロードできます。
内部テーブルまたは デフォルトカタログ (StarRocks の場合) 内のテーブルにのみデータをアップロードできます。
課金
データアップロードには、以下の料金が発生します。
データ転送料金。
新しいテーブルを作成する場合、コンピューティング料金とストレージ料金が請求されます。
上記の料金は、各エンジンによって請求されます。具体的な料金については、対応するエンジンの課金ドキュメントをご参照ください:MaxCompute の課金、Hologres の課金、E-MapReduce の課金、および EMR Serverless StarRocks プロダクトの課金。
データアップロードページへの移動
データアップロード/ダウンロードに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、[データアップロード/ダウンロードへ] をクリックします。
左側のナビゲーションウィンドウで、
アイコンをクリックして [データアップロード] ページに移動します。[データアップロード] をクリックし、画面の指示に従ってデータをアップロードします。
アップロードするファイルデータの選択
ローカルファイル、ワークブック、OSS、HTTP ファイルからデータをアップロードできます。必要に応じてデータソースを選択してください。
ファイルをアップロードする際に、必要に応じてダーティデータをフィルタリングするかどうかを指定します。
はい:ダーティデータが検出された場合、プラットフォームは自動的にそれを無視し、データのアップロードを続行します。
いいえ:ダーティデータが検出された場合、プラットフォームはそれを無視せず、データアップロードは中断されます。
ローカルファイル
アップロードしたいデータがローカルファイルにある場合は、この方法を選択します。
[データソース] を [ローカルファイル] に設定します。
[アップロードするデータを指定]:ローカルファイルを [ファイルを選択] エリアにドラッグします。
説明サポートされているファイル形式は
CSV、XLS、XLSX、JSONです。最大ファイルサイズはCSVファイルで5 GB、その他のファイル形式で100 MBです。デフォルトでは、ファイルの最初のシートがアップロードされます。ファイルから複数のシートをアップロードするには、各シートに対してテーブルを作成し、それをファイルの最初のシートにする必要があります。
SQL形式のファイルのアップロードはサポートされていません。
ワークブック
アップロードしたいデータが DataWorks データ分析ワークブックにある場合は、この方法を選択します。
OSS
アップロードしたいデータが OSS にある場合は、この方法を選択します。
前提条件:
OSS バケットを作成し、アップロードするデータをその中に保存していること。その後、OSS から対応するデータソースにデータをアップロードできます。
権限の問題を避けるため、データをアップロードする前に、Resource Access Management (RAM) を使用して、データアップロードに使用する Alibaba Cloud アカウントに宛先バケットへのアクセス権限を付与してください。
手順:
[データソース] を [Object Storage OSS] に設定します。
[アップロードするデータを指定]:
[バケットを選択] ドロップダウンリストから、アップロードするデータが保存されている宛先 OSS バケットを選択します。
説明現在の DataWorks ワークスペースと同じリージョンにあるバケットからのみデータをアップロードできます。
[ファイルを選択] エリアで、アップロードしたいファイルデータを選択します。
説明CSV、XLS、XLSX、JSON形式のファイルのみがサポートされています。
HTTP ファイル
アップロードしたいデータが HTTP ファイルにある場合は、この方法を選択します。
[データソース] を [HTTP ファイル] に設定します。
アップロードするデータの指定:
パラメーター
設定の説明
ファイルアドレス
ファイルデータが保存されているアドレス。
説明HTTP および HTTPS 形式のファイルアドレスがサポートされています。
ファイルタイプ
ファイルタイプは、アップロードしたファイルに基づいて自動的に検出されます。
CSV、XLS、XLSX形式のファイルがサポートされています。CSVファイルの最大サイズは 5 GB です。その他のファイルの最大サイズは 50 MB です。リクエストメソッド
[GET]、[POST]、[PUT] がサポートされています。データを取得するには GET を使用することを推奨しますが、具体的なメソッドは定義された許可リクエストメソッドに依存します。
高度なパラメーター
必要に応じて、[高度なパラメーター] セクションで [リクエストヘッダー] と [リクエストボディ] を設定することもできます。
宛先テーブルの設定
[宛先テーブルを設定] セクションで、データアップロードの [宛先エンジン] を選択し、選択したエンジンに関連するパラメーターを設定します。
宛先テーブルを設定する際は、データソースを選択するときに本番 (PROD) 環境と開発 (DEV) 環境を区別してください。間違った環境を選択すると、データはもう一方の環境にアップロードされます。
MaxCompute
MaxCompute の内部テーブルにデータをアップロードするには、次のパラメーターを設定します。
パラメーター | 設定の説明 | |
MaxCompute プロジェクト名 | 現在のリージョンにアタッチされている MaxCompute データソースを選択します。使用したいデータソースが見つからない場合は、現在のワークスペースに MaxCompute 計算リソースをアタッチして、同じ名前のデータソースを生成できます。 | |
宛先テーブル | [既存のテーブル] または [新規テーブル] を選択します。 | |
宛先テーブルを選択 | データが保存されるテーブル。キーワードでテーブルを検索できます。 説明 所有するテーブルにのみデータをアップロードできます。詳細については、「制限事項」をご参照ください。 | |
アップロードモード | 宛先テーブルにデータを追加する方法を選択します。
| |
テーブル名 | 新しいテーブルのカスタム名を入力します。 説明 MaxCompute エンジン用に新しいテーブルが作成されると、DataWorks 計算リソース用に設定された MaxCompute アカウント情報が使用されます。その後、テーブルは対応する MaxCompute プロジェクトに作成されます。 | |
テーブルタイプ | 必要に応じて [非パーティションテーブル] または [パーティションテーブル] を選択します。パーティションテーブルを選択した場合は、パーティションフィールドとその値を指定します。 | |
ライフサイクル | テーブルのライフサイクルを指定します。テーブルの有効期限が切れると、使用できなくなる場合があります。テーブルのライフサイクルの詳細については、「ライフサイクル」および「ライフサイクルアクション」をご参照ください。 | |
EMR HIVE
EMR Hive の内部テーブルにデータをアップロードするには、次のパラメーターを設定します。
パラメーター | 設定の説明 |
データソース | 現在のリージョンのワークスペースにアタッチされている EMR Hive データソース (Alibaba Cloud インスタンスモード) を選択します。 |
宛先テーブル | [既存のテーブル] にのみデータをアップロードできます。 |
宛先テーブルを選択 | データが保存されるテーブル。キーワードでテーブルを検索できます。 |
アップロードモード | 宛先テーブルにデータを追加する方法を選択します。
|
Hologres
Hologres の内部テーブルにデータをアップロードするには、次のパラメーターを設定します。
パラメーター | 設定の説明 |
データソース | 現在のリージョンのワークスペースにアタッチされている Hologres データソースを選択します。使用したいデータソースが見つからない場合は、現在のワークスペースに Hologres 計算リソースをアタッチして、同じ名前のデータソースを生成できます。 |
宛先テーブル | [既存のテーブル] にのみデータをアップロードできます。 |
宛先テーブルを選択 | データが保存されるテーブル。キーワードでテーブルを検索できます。 説明
|
アップロードモード | 宛先テーブルにデータを追加する方法を選択します。
|
プライマリキーの競合ポリシー | データアップロードによって宛先テーブルでプライマリキーの競合が発生した場合、以下のいずれかのポリシーを採用できます。
|
StarRocks
StarRocks の デフォルトカタログ のテーブルにデータをアップロードするには、次のパラメーターを設定します。
パラメーター | 設定の説明 |
データソース | 現在のリージョンのワークスペースにアタッチされている StarRocks データソースを選択します。 |
宛先テーブル | [既存のテーブル] にのみデータをアップロードできます。 |
宛先テーブルを選択 | データが保存されるテーブル。キーワードでテーブルを検索できます。 説明
|
アップロードモード | 宛先テーブルにデータを追加する方法を選択します。
|
高度なパラメーター | Stream Load リクエストパラメーターを設定できます。 |
アップロードするデータのプレビュー
宛先テーブルを設定した後、データプレビューに基づいてファイルエンコーディングとデータマッピングを調整できます。
最初の 20 行のデータのみをプレビューできます。
[ファイルエンコーディング]:データに文字化けが含まれている場合は、エンコード形式を切り替えることができます。
UTF-8、GB18030、Big5、UTF-16LE、UTF-16BEがサポートされています。データのプレビューと宛先テーブルフィールドの設定:
既存のテーブルへのデータアップロード:ソースファイルの列と宛先テーブルのフィールド間のマッピングを設定する必要があります。マッピングが設定されると、データをアップロードできます。[列名でマッピング] または [位置でマッピング] を選択できます。マッピングが完了した後、宛先テーブルのフィールド名をカスタマイズすることもできます。
説明ソースデータの列が宛先テーブルのフィールドにマッピングされていない場合、その列のデータはグレー表示され、アップロードされません。
ソースデータの列を宛先テーブルの複数のフィールドにマッピングすることはできません。
フィールド名とフィールドタイプは空にできません。そうしないと、データをアップロードできません。
新しいテーブルへのデータアップロード:[スマートフィールド生成] を使用してフィールド情報を自動的に入力するか、手動でフィールド情報を変更できます。
説明フィールド名とフィールドタイプは空にできません。そうしないと、データをアップロードできません。
EMR Hive、Hologres、StarRocks エンジンは、データアップロード中に新しいテーブルを作成することをサポートしていません。
[先頭行を無視]:通常は列名であるファイルデータの最初の行を宛先テーブルにアップロードするかどうかを指定します。
選択済み:ファイルの最初の行に列名が含まれている場合、最初の行は宛先テーブルにアップロードされません。
未選択:ファイルの最初の行にデータが含まれている場合、最初の行は宛先テーブルにアップロードされます。
データのアップロード
データをプレビューした後、左下隅の [データアップロード] ボタンをクリックしてデータをアップロードします。
次のステップ
データがアップロードされた後、左側のナビゲーションウィンドウで
アイコンをクリックして [データアップロード] ページに移動できます。作成したデータアップロードタスクを見つけて、必要に応じて次の操作を実行します。
アップロードを続行:[操作] 列で、[アップロードを続行] をクリックしてデータを再度アップロードします。
データのクエリ:[操作] 列で、[データのクエリ] をクリックしてデータをクエリおよび分析します。
アップロードデータの詳細を表示:宛先の [テーブル名] をクリックしてデータマップに移動し、宛先テーブルの詳細情報を表示します。詳細については、「一般的なデータのクエリと管理」をご参照ください。
付録:クロスボーダーデータアップロードに関するコンプライアンスステートメント
クロスボーダーデータアップロード (中国本土から中国本土以外、または異なる国やリージョン間でのデータ転送など) を行う場合は、事前に関連するコンプライアンスステートメントをお読みください。そうしない場合、データアップロードが失敗し、法的責任を問われる可能性があります。
クロスボーダーデータ操作により、クラウド上のビジネスデータが選択したリージョンまたはプロダクトのデプロイメントエリアに転送されます。このような操作が以下の要件に準拠していることを確認する必要があります。
クラウド上の関連ビジネスデータを処理する権利を有していること。
十分なデータセキュリティ保護技術とポリシーを採用していること。
データ転送が関連する法律および規制の要件に準拠していること。例えば、転送されるデータに、適用される法律によって転送または開示が制限または禁止されているコンテンツが含まれていないこと。
Alibaba Cloud は、データアップロード操作がクロスボーダーデータ転送につながる可能性がある場合、操作を実行する前に専門の法務またはコンプライアンス担当者に相談することを推奨します。クロスボーダーデータ転送が、適用される法律、規制、および規制ポリシーの要件に準拠していることを確認してください。例えば、個人情報主体から有効な権限付与を取得し、関連する契約条項の署名とファイリングを完了し、関連するセキュリティ評価およびその他の法的義務を完了する必要があります。
このステートメントに準拠せずにクロスボーダーデータ操作を実行した場合、対応する法的結果を負うことになります。また、Alibaba Cloud およびその関連会社に生じたいかなる損失についても責任を負うものとします。
関連ドキュメント
DataStudio は、ローカルの CSV またはテキストファイルから MaxCompute テーブルへのデータアップロードもサポートしています。詳細については、「データのアップロード」をご参照ください。
MaxCompute テーブルの操作の詳細については、「MaxCompute テーブルの作成と使用」をご参照ください。
Hologres テーブルの操作の詳細については、「Hologres テーブルの作成」をご参照ください。
EMR テーブルの操作の詳細については、「EMR テーブルの作成」をご参照ください。
よくある質問
リソースグループの設定の問題。
エラーメッセージ:現在のファイルソースまたは宛先エンジンでは、データアップロード用にリソースグループを設定する必要があります。ワークスペース管理者に連絡してリソースグループを設定してください。
ソリューション:データ分析でエンジンのリソースグループを設定する方法については、「システム管理」をご参照ください。
リソースグループのアタッチの問題。
エラーメッセージ:現在のワークスペース用に設定されたグローバルデータアップロードリソースグループは、アップロードテーブルが属するワークスペースにアタッチされていません。ワークスペース管理者に連絡してアタッチしてください。
ソリューション:システム管理で設定したリソースグループをワークスペースにアタッチできます。