DataWorks のデータアップロード機能を使用すると、ローカルファイル、データ分析のワークブック、Object Storage Service (OSS) ファイル、HTTP ファイルなどのソースからデータをインポートできます。このデータを MaxCompute、EMR Hive、Hologres、StarRocks などのエンジンにロードして、分析および管理を行うことができます。このトピックでは、この機能を使用してデータをアップロードする方法について説明します。
事前準備
タスクに越境データ操作 (例えば、中国本土から中国本土以外の場所へのデータ転送、または異なる国やリージョン間のデータ転送) が含まれる場合は、コンプライアンスステートメントを読み、理解しておく必要があります。これを怠ると、アップロードの失敗や法的責任につながる可能性があります。
ソースファイルでは英語の列ヘッダーを使用してください。中国語のヘッダーは解析の失敗やアップロードエラーの原因となる可能性があります。
制限事項
リソースグループの制限事項:データアップロード機能では、スケジューリング用リソースグループとデータ統合用リソースグループを指定する必要があります。
Serverless リソースグループ (推奨)、専用スケジューリングリソースグループ、またはデータ統合専用リソースグループのみを使用できます。これらのリソースグループは、 を選択して、対応するエンジン用に構成する必要があります。
選択したリソースグループを、送信先テーブルがある DataWorks ワークスペースにバインドする必要があります。また、選択したリソースグループがアップロードタスクのデータソースに接続できることを確認する必要があります。
説明データ分析でエンジンが使用するリソースグループを構成するには、「システム管理」をご参照ください。
データソースとリソースグループ間のネットワーク接続を確立するには、「ネットワーク接続ソリューション」をご参照ください。
専用リソースグループをワークスペースにバインドするには、「専用スケジューリングリソースグループの使用」および「データ統合専用リソースグループの使用」をご参照ください。
データアップロードに必要なテーブル権限:
MaxCompute テーブル (ODPS テーブル):テーブルの所有者である必要があります。DataWorks ワークスペースで特定のロールは必要ありません。
MaxCompute 以外のテーブル (Hologres、EMR Hive、StarRocks など):テーブルの所有者であり、DataWorks ワークスペースで特定のロールを持っている必要があります。
開発環境のテーブル:開発者ロールを持っている必要があります。
本番環境のテーブル:O&M ロールを持っている必要があります。
テーブルタイプの制限: 内部テーブルまたは [デフォルトカタログ] (StarRocks の場合) 内のテーブルにのみデータをアップロードできます。
課金
データアップロードには、以下の料金が発生する場合があります。
データ転送料金。
新しいテーブルを作成する場合、コンピューティングおよびストレージ料金が発生します。
これらの料金は、各コンピュートエンジンによって課金されます。詳細な料金情報については、各エンジンの課金ドキュメントをご参照ください。MaxCompute の課金、Hologres の課金、E-MapReduce の課金、およびEMR Serverless StarRocks プロダクトの課金。
データアップロードページへの移動
データアップロードとダウンロードに移動します。
DataWorks コンソールにログインします。DataWorks コンソール の上部ナビゲーションバーで、目的のリージョンを選択します。左側ナビゲーションウィンドウで、 を選択します。表示されるページで、[データのアップロードおよびダウンロードへ移動] をクリックします。
左側のナビゲーションウィンドウで、
アイコンをクリックして、Upload Data ページに移動します。Upload Data をクリックし、指示に従ってデータをアップロードします。
ソースファイルの選択
ローカルファイル、ワークブック、Object Storage Service (OSS)、または HTTP ファイルからデータをアップロードできます。ビジネスニーズに基づいてデータソースを選択してください。
ファイルをアップロードする際、ダーティデータをフィルタリングするかどうかを選択できます。
はい:ダーティデータが見つかった場合、プラットフォームは自動的にそれを無視し、アップロードを続行します。
いいえ:ダーティデータが見つかった場合、アップロードは停止します。
ローカルファイル
ローカルファイルに保存されているデータには、このオプションを使用します。
Data Source を Local File に設定します。
[Specify Data to Be Uploaded]の下で、ローカルファイルを[Select File]エリアにドラッグします。
説明サポートされている形式には、
CSV、XLS、XLSX、およびJSONがあります。最大ファイルサイズは、CSVファイルの場合は5 GB、その他のファイルタイプの場合は100 MBです。デフォルトでは、ファイルの最初のシートのみがアップロードされます。複数のシートをアップロードするには、各シートに個別のテーブルを作成し、そのシートをファイルの最初のシートにする必要があります。
SQLファイルのアップロードは現在サポートされていません。
ワークブック
アップロードするデータがDataWorks データ分析ワークブックにある場合は、このオプションを選択します。
OSS
アップロードするデータが Object Storage Service (OSS) に保存されている場合は、このオプションを選択します。
前提条件:
OSS バケットを作成し、アップロードするデータファイルをバケットに保存すると、OSS データを対応するデータソースにアップロードできます。
権限の問題を回避するために、アップロード用の Alibaba Cloud アカウントが送信先バケットへのアクセス権を持っていることを確認してください。詳細については、「権限とアクセスの制御の概要」をご参照ください。
手順:
Data Sourceを [OSS] に設定します。
Specify Data to Be Uploaded では:
[Select Bucket] ドロップダウンリストから、アップロードするデータが含まれている OSS バケットを選択します。
説明DataWorks ワークスペースと同じリージョンにあるバケットからのみデータをアップロードできます。
「Select File」エリアで、アップロードするデータファイルを選択します。
説明CSV、XLS、XLSX、およびJSONファイル形式のみがサポートされています。
HTTP ファイル
アップロードするデータが HTTP ファイルである場合は、このオプションを選択します。
[Data Source]を[HTTP File]に設定します。
パラメーターを設定します。Specify Data to Be Uploaded の下で:
パラメーター
説明
File URL
データファイルの URL。
説明HTTP および HTTPS URL の両方がサポートされています。
File Type
システムは自動的にファイルタイプを検出します。
サポートされているファイルタイプは
CSV、XLS、およびXLSXです。CSVファイルの最大ファイルサイズは 5 GB、その他のファイルタイプの場合は 50 MB です。Request Method
サポートされているメソッドは [GET]、[POST]、および [PUT] です。データの取得には GET が推奨されますが、必要なメソッドは、お使いのサーバーの構成によって異なります。
詳細パラメーター
必要に応じて、Request Header および Request Body を [詳細パラメーター] セクションで設定することもできます。
送信先テーブルの構成
「Configure Destination Table」セクションで、データのアップロード用の[ターゲットエンジン]を選択し、関連するパラメーターを設定します。
送信先テーブルを構成する際、データソースの本番 (PROD) 環境と開発 (DEV) 環境を区別する必要があります。誤った環境を選択すると、データが意図しない場所にアップロードされます。
MaxCompute
MaxCompute の内部テーブルにデータをアップロードする必要がある場合は、次の表に示すようにパラメーターを構成します。
パラメーター | 説明 | |
MaxCompute プロジェクト名 | 現在のリージョンにバインドされている MaxCompute データソースを選択します。必要なデータソースが見つからない場合は、MaxCompute 計算リソースを現在のワークスペースにバインドして、同じ名前のデータソースを生成できます。 | |
送信先テーブル | Existing Table または Create Table を選択できます。 | |
送信先テーブルの選択 | アップロードされたデータが保存されるテーブル。キーワードでテーブルを検索できます。 説明 所有するテーブルにのみデータをアップロードできます。詳細については、「制限事項」をご参照ください。 | |
アップロードモード | 送信先テーブルにデータを追加する方法を選択します。
| |
テーブル名 | 新しいテーブルのカスタム名を入力します。 説明 MaxCompute エンジンでテーブルを作成すると、システムは DataWorks 計算リソースから構成された MaxCompute アカウント情報を使用して、対応する MaxCompute プロジェクトにテーブルを作成します。 | |
テーブルタイプ | 必要に応じて、Non-partitioned Table または Partitioned Table を選択します。パーティションテーブルを選択する場合は、パーティション列とその値を指定する必要があります。 | |
ライフサイクル | テーブルの保持期間を指定します。この期間が期限切れになるとテーブルは削除されます。テーブルのライフサイクルに関する詳細については、「ライフサイクル」および「ライフサイクル操作」をご参照ください。 | |
EMR Hive
EMR Hive の内部テーブルにデータをアップロードする必要がある場合は、次の表に示すようにパラメーターを構成します。
パラメーター | 説明 |
データソース | 現在のワークスペースにバインドされている、ご利用のリージョンのEMR Hive データソース (Alibaba Cloud インスタンスモード) を選択します。 |
送信先テーブル | データは、Existing Tableにのみアップロードできます。 |
送信先テーブルの選択 | アップロードされたデータが保存されるテーブル。キーワードでテーブルを検索できます。 |
アップロードモード | 送信先テーブルにデータを追加する方法を選択します。
|
Hologres
Hologres の内部テーブルにデータをアップロードする必要がある場合は、次の表に示すようにパラメーターを構成します。
パラメーター | 説明 |
データソース | 現在のワークスペースにバインドされている、ご利用のリージョンの Hologres データソースを選択します。必要なデータソースが見つからない場合は、Hologres 計算リソースを現在のワークスペースにバインドして、同じ名前のデータソースを生成できます。 |
送信先テーブル | データをアップロードできるのは、Existing Table のみです。 |
送信先テーブルの選択 | アップロードされたデータが保存されるテーブル。キーワードでテーブルを検索できます。 説明
|
アップロードモード | 送信先テーブルにデータを追加する方法を選択します。
|
プライマリキー競合戦略 | 送信先テーブルのプライマリキーの競合を処理する戦略を選択します。
|
StarRocks
StarRocks の [デフォルト カタログ] 内のテーブルにデータをアップロードする必要がある場合は、以下の表に記載されているパラメーターを設定します。
パラメーター | 説明 |
データソース | 現在のワークスペースにバインドされている、ご利用のリージョンのStarRocks データソースを選択します。 |
送信先テーブル | データは Existing Table にのみアップロードできます。 |
送信先テーブルの選択 | アップロードされたデータが保存されるテーブル。キーワードでテーブルを検索できます。 説明
|
アップロードモード | 送信先テーブルにデータを追加する方法を選択します。
|
詳細パラメーター | Stream Load リクエストパラメーターを構成します。 |
データのプレビューとマッピングの構成
送信先テーブルを構成した後、データをプレビューし、必要に応じてファイルエンコーディングとデータマッピングを調整できます。
現在、最初の 20 行のデータのみをプレビューできます。
File Encoding Format: プレビューに文字化けが表示された場合は、エンコーディングを切り替えてください。サポートされているフォーマットには、
UTF-8、GB18030、Big5、UTF-16LE、およびUTF-16BEが含まれます。データのプレビューと送信先テーブル列の構成:
既存のテーブルへのデータのアップロード: ソースファイルの列と送信先テーブルの列の間のマッピングを設定する必要があります。サポートされているマッピング方法には、Mapping by Column Name および Mapping by Order が含まれます。マッピング後、送信先テーブルの列名をカスタマイズできます。
説明ソース列がマッピングされていない場合、そのデータはグレー表示され、アップロードされません。
ソース列と送信先列間の重複するマッピングは許可されていません。
列名と列タイプは空にすることはできません。そうしないと、データアップロードが失敗します。
新しいテーブルにデータをアップロードする: Intelligent Field Generation を使用して列情報を自動的に入力することも、列情報を手動で変更することもできます。
説明列名と列タイプは空にすることはできません。そうしないと、データアップロードが失敗します。
EMR Hive、Hologres、および StarRocks エンジンは、データアップロード中に新しいテーブルを作成することをサポートしていません。
Ignore First Row: データファイルの先頭行 (通常は列名) を送信先テーブルにアップロードするかどうかを指定します。
選択済み:最初の行に列名が含まれている場合、送信先テーブルにはアップロードされません。
クリア済み:最初の行にデータが含まれている場合、送信先テーブルにアップロードされます。
データのアップロード
設定を構成した後、左下隅のUpload Dataをクリックして、アップロードを開始します。
次のステップ
アップロードが成功した後、左側のナビゲーションウィンドウにある
アイコンをクリックして、Upload Data ページを開きます。作成したデータのアップロードタスクを見つけ、必要に応じて以下の操作を行います:
付録:越境アップロードに関するコンプライアンスステートメント
タスクに越境データ操作 (例えば、中国本土から中国本土以外の場所へのデータ転送、または異なる国やリージョン間のデータ転送) が含まれる場合は、事前にこのコンプライアンスステートメントを読み、理解しておく必要があります。これを怠ると、アップロードが失敗する原因となり、法的責任を負う可能性があります。
越境データ操作は、ご利用のクラウドビジネスデータを、選択したリージョンまたはプロダクトデプロイメントエリアに転送します。このような操作が以下の要件に準拠していることを確認する必要があります。
関連するクラウドビジネスデータを処理するために必要な権限を持っていること。
十分なデータセキュリティ保護技術とポリシーを実装していること。
データ転送がすべての適用される法律および規制に準拠していること。例えば、転送されたデータには、適用される法律によって転送または開示が制限または禁止されているコンテンツを含めてはなりません。
データアップロードに越境データ操作が含まれる場合は、続行する前に法務またはコンプライアンスの専門家に相談してください。越境データ転送がすべての適用される法律、規制、および規制ポリシーに準拠していることを確認する必要があります。これには、個人情報主体からの有効な同意の取得、関連する契約条件の署名と提出の完了、関連するセキュリティ評価の完了、およびその他の法的義務が含まれますが、これらに限定されません。
このコンプライアンスステートメントに違反する越境データ操作については、法的責任を負うものとします。さらに、Alibaba Cloud およびその関連会社が被った損失に対して責任を負うものとします。
関連ドキュメント
DataStudio (データ開発) も、ローカルの CSV またはテキストファイルを MaxCompute テーブルにアップロードすることをサポートしています。詳細については、「データのアップロード」をご参照ください。
MaxCompute テーブル操作の詳細については、「MaxCompute テーブルの作成と使用」をご参照ください。
Hologres テーブル操作の詳細については、「Hologres テーブルの作成」をご参照ください。
EMR テーブル操作の詳細については、「EMR テーブルの作成」をご参照ください。
よくある質問
リソースグループ構成の問題。
エラーメッセージ:ソースファイルまたは送信先エンジン用にリソースグループを構成する必要があります。ワークスペース管理者に連絡して構成してください。
ソリューション:データ分析でエンジンが使用するリソースグループを構成するには、「システム管理」をご参照ください。
リソースグループバインディングの問題。
エラーメッセージ:現在のワークスペースで構成されているグローバルデータアップロードリソースグループは、送信先テーブルがあるワークスペースにバインドされていません。ワークスペース管理者に連絡してバインドしてください。
ソリューション:システム管理で構成したリソースグループをワークスペースにバインドできます。