DataWorks のデータアップロード機能を使用すると、ローカルファイル、データ分析ワークブック、Object Storage Service (OSS) ファイル、HTTP ファイルなど、さまざまなソースから MaxCompute、EMR Hive、Hologres、StarRocks などのエンジンにデータをアップロードして、分析および管理できます。この便利なデータ転送サービスは、データを迅速に活用してビジネスの成長を促進するのに役立ちます。
事前準備
-
操作に国境を越えたデータ転送 (たとえば、中国本土から中国本土以外の場所へのデータ転送、または異なる国やリージョン間でのデータ転送) が含まれる場合は、まず 関連するコンプライアンスに関する声明 を読み、理解する必要があります。そうしないと、アップロードが失敗し、法的責任を問われる可能性があります。
-
ソースファイルでは英語のヘッダーを使用することを推奨します。中国語のヘッダーを使用すると、解析に失敗し、アップロードが正常に完了しない可能性があります。
制限事項
-
リソースグループの制限:データアップロード機能には、スケジューリング用リソースグループとデータ統合用リソースグループが必要です。
-
サーバーレスリソースグループ (推奨)、スケジューリング用専用リソースグループ、または データ統合用専用リソースグループ のみがサポートされています。 で、対応するエンジンにスケジューリング用リソースグループとデータ統合用リソースグループを設定する必要があります。
-
選択したリソースグループは、宛先テーブルの DataWorks ワークスペースにバインドする必要があります。また、選択したリソースグループとデータソース間のネットワーク接続を確保する必要もあります。
説明-
データ分析でエンジンが使用するリソースグループを設定するには、「システム管理」をご参照ください。
-
データソースとリソースグループ間のネットワーク接続を確立するには、「ネットワーク接続ソリューション」をご参照ください。
-
専用リソースグループをワークスペースにバインドするには、「スケジューリング用専用リソースグループの使用」および「データ統合用専用リソースグループの使用」をご参照ください。
-
-
-
テーブルの制限:
-
自分が所有するテーブルにのみデータをアップロードできます。
-
内部テーブルまたは [デフォルトカタログ] (StarRocks の場合) 内のテーブルにのみデータをアップロードできます。
-
課金
データのアップロードには、以下の料金が発生する場合があります:
-
データ転送料金。
-
新しいテーブルを作成すると、コンピューティング料金とストレージ料金が発生します。
これらの料金は、各コンピュートエンジンによって請求されます。詳細な価格情報については、各エンジンの課金ドキュメントをご参照ください:MaxCompute の課金、Hologres の課金、E-MapReduce の課金、および EMR Serverless StarRocks 製品の課金。
データアップロードページへの移動
データアップロード/ダウンロードに移動します。
DataWorks コンソールにログインします。上部のナビゲーションバーで、目的のリージョンを選択します。左側のナビゲーションウィンドウで、 を選択します。表示されたページで、[データアップロード/ダウンロードへ] をクリックします。
-
左側のナビゲーションウィンドウで、
アイコンをクリックして Upload Data ページに移動します。 -
Upload Data をクリックし、画面の指示に従ってデータをアップロードします。
ソースファイルの選択
ローカルファイル、ワークブック、Object Storage Service (OSS)、HTTP ファイルからデータをアップロードできます。ビジネスニーズに基づいてデータソースを選択してください。
ファイルをアップロードする際に、ダーティデータをフィルタリングするかどうかを選択できます。
-
はい:ダーティデータが見つかった場合、プラットフォームは自動的にそれを無視してアップロードを続行します。
-
いいえ:ダーティデータが見つかった場合、プラットフォームはそれを無視せず、アップロードは中断されます。
ローカルファイル
アップロードしたいデータがローカルファイルに保存されている場合は、このオプションを選択します。
-
Data Source を Local File に設定します。
-
Specify Data to Be Uploaded で、ローカルファイルを Select File エリアにドラッグします。
説明-
サポートされている形式は
CSV、XLS、XLSX、JSONです。最大ファイルサイズはCSVファイルで5 GB、その他のファイルタイプで100 MBです。 -
デフォルトでは、ファイルの最初のシートのみがアップロードされます。複数のシートをアップロードするには、各シートごとに個別のアップロードタスクを作成し、各アップロードで目的のシートがファイルの最初になるようにする必要があります。
-
現在、
SQLファイルのアップロードはサポートされていません。
-
ワークブック
アップロードしたいデータが DataWorks データ分析ワークブック にある場合は、このオプションを選択します。
Object Storage Service (OSS)
アップロードしたいデータが Object Storage Service (OSS) に保存されている場合は、このオプションを選択します。
前提条件:
-
OSS バケットを作成し、アップロードするデータファイルをバケットに保存していること。その後、OSS データを対応するデータソースにアップロードできます。
-
権限の問題を避けるため、アップロードに使用する Alibaba Cloud アカウントが、開始前に宛先バケットへのアクセス権を持っていることを確認してください。詳細については、「権限とアクセス制御の概要」をご参照ください。
手順:
-
Data Source を [Object Storage Service (OSS)] に設定します。
-
Specify Data to Be Uploaded で、以下のように設定します:
-
[バケットの選択] ドロップダウンリストから、アップロードするデータが含まれる OSS バケットを選択します。
説明DataWorks ワークスペースと同じリージョンにあるバケットからのみデータをアップロードできます。
-
Select File エリアで、アップロードしたいデータファイルを選択します。
説明CSV、XLS、XLSX、JSONファイル形式のみがサポートされています。
-
HTTP ファイル
アップロードしたいデータが HTTP ファイルの場合は、このオプションを選択します。
-
Data Source を HTTP File に設定します。
-
Specify Data to Be Uploaded でパラメーターを設定します:
パラメーター
説明
File URL
データファイルの URL。
説明HTTP と HTTPS の両方の URL がサポートされています。
File Type
システムがファイルタイプを自動的に検出します。
サポートされているファイルタイプは
CSV、XLS、XLSXです。最大ファイルサイズはCSVファイルで 5 GB、その他のファイルタイプで 50 MB です。Request Method
サポートされているメソッドは [GET]、[POST]、[PUT] です。データの取得には GET を使用することを推奨しますが、具体的なメソッドはサーバーが許可するリクエストメソッドに依存します。
[詳細パラメーター]
必要に応じて、[詳細パラメーター] セクションで Request Header と Request Body を設定することもできます。
宛先テーブルの設定
Configure Destination Table セクションで、データアップロードの [ターゲットエンジン] を選択し、関連するパラメーターを設定します。
宛先テーブルを設定する際は、データソースを選択するときに本番環境 (PROD) と開発環境 (DEV) を慎重に区別してください。間違った環境を選択すると、データが間違った場所にアップロードされます。
MaxCompute
MaxCompute の内部テーブルにデータをアップロードする必要がある場合は、次の表の説明に従ってパラメーターを設定します。
|
パラメーター |
説明 |
|
|
MaxCompute プロジェクト名 |
現在のリージョンにバインドされている MaxCompute データソースを選択します。必要なデータソースが見つからない場合は、現在のワークスペースに MaxCompute 計算リソースをバインド して、同じ名前のデータソースを生成できます。 |
|
|
宛先テーブル |
Existing Table または Create Table を選択できます。 |
|
|
|
宛先テーブルの選択 |
アップロードされたデータが保存されるテーブル。キーワードでテーブルを検索できます。 説明
自分が所有するテーブルにのみデータをアップロードできます。詳細については、「制限事項」をご参照ください。 |
|
アップロードモード |
宛先テーブルにデータを追加する方法を選択します。
|
|
|
|
テーブル名 |
新しいテーブルのカスタム名を入力します。 説明
MaxCompute エンジンでテーブルを作成すると、システムは設定された MaxCompute アカウントを使用して、対応する MaxCompute プロジェクトにテーブルを作成します。 |
|
テーブルタイプ |
必要に応じて Non-partitioned Table または Partitioned Table を選択します。パーティションテーブルを選択した場合は、パーティションフィールドとその値を指定する必要があります。 |
|
|
ライフサイクル |
テーブルの保持期間を指定します。この期間が過ぎると、テーブルは利用できなくなる可能性があります。テーブルのライフサイクルの詳細については、「ライフサイクル」および「ライフサイクル操作」をご参照ください。 |
|
EMR Hive
EMR Hive の内部テーブルにデータをアップロードする必要がある場合は、次の表の説明に従ってパラメーターを設定します。
|
パラメーター |
説明 |
|
データソース |
ご利用のリージョンで現在のワークスペースにバインドされている EMR Hive データソース (Alibaba Cloud インスタンスモード) を選択します。 |
|
宛先テーブル |
Existing Table にのみデータをアップロードできます。 |
|
宛先テーブルの選択 |
アップロードされたデータが保存されるテーブル。キーワードでテーブルを検索できます。 |
|
アップロードモード |
宛先テーブルにデータを追加する方法を選択します。
|
Hologres
Hologres の内部テーブルにデータをアップロードする必要がある場合は、次の表の説明に従ってパラメーターを設定します。
|
パラメーター |
説明 |
|
データソース |
ご利用のリージョンで現在のワークスペースにバインドされている Hologres データソースを選択します。必要なデータソースが見つからない場合は、現在のワークスペースに Hologres 計算リソースをバインド して、同じ名前のデータソースを生成できます。 |
|
宛先テーブル |
Existing Table にのみデータをアップロードできます。 |
|
宛先テーブルの選択 |
アップロードされたデータが保存されるテーブル。キーワードでテーブルを検索できます。 説明
|
|
アップロードモード |
宛先テーブルにデータを追加する方法を選択します。
|
|
プライマリキー競合時の戦略 |
宛先テーブルでのプライマリキーの競合を処理する戦略を選択します。
|
StarRocks
StarRocks の [デフォルトカタログ] 内のテーブルにデータをアップロードする必要がある場合は、次の表の説明に従ってパラメーターを設定します。
|
パラメーター |
説明 |
|
データソース |
ご利用のリージョンで現在のワークスペースにバインドされている StarRocks データソース を選択します。 |
|
宛先テーブル |
Existing Table にのみデータをアップロードできます。 |
|
宛先テーブルの選択 |
アップロードされたデータが保存されるテーブル。キーワードでテーブルを検索できます。 説明
|
|
アップロードモード |
宛先テーブルにデータを追加する方法を選択します。
|
|
詳細パラメーター |
Stream Load リクエストパラメーターを設定します。 |
データのプレビュー
宛先テーブルを設定した後、データをプレビューし、必要に応じてファイルエンコーディングとデータマッピングを調整できます。
現在、データの最初の 20 行のみをプレビューできます。
-
File Encoding Format:プレビューで文字化けが発生した場合は、エンコーディングを切り替えてください。サポートされている形式には
UTF-8、GB18030、Big5、UTF-16LE、UTF-16BEがあります。 -
データのプレビューと宛先テーブルフィールドの設定:
-
既存のテーブルへのデータアップロード:ソースファイルのフィールドと宛先テーブルのフィールド間のマッピングを設定する必要があります。サポートされているマッピング方法には、Mapping by Column Name と Mapping by Order があります。マッピング後、宛先テーブルのフィールド名をカスタマイズすることもできます。
説明-
ソースフィールドと宛先フィールドの間にマッピングがない場合、そのフィールドのデータはグレー表示され、アップロードされません。
-
ソースフィールドと宛先フィールド間の重複マッピングは許可されません。
-
フィールド名とフィールドタイプは空にできません。空にするとデータアップロードが失敗します。
-
-
新しいテーブルへのデータアップロード:Intelligent Field Generation を使用してフィールド情報を自動的に入力するか、手動でフィールド情報を変更できます。
説明-
フィールド名とフィールドタイプは空にできません。空にするとデータアップロードが失敗します。
-
EMR Hive、Hologres、StarRocks エンジンは、データアップロード中の新しいテーブルの作成をサポートしていません。
-
-
-
Ignore First Row:データファイルの最初の行 (通常はフィールド名) を宛先テーブルにアップロードするかどうかを指定します。
-
選択済み:最初の行にフィールド名が含まれている場合、それは宛先テーブルにアップロードされません。
-
クリア済み: 最初の行にデータが含まれている場合は、宛先テーブルにアップロードされます。
-
データのアップロード
データをプレビューした後、左下隅の Upload Data ボタンをクリックしてアップロードを開始します。
次のステップ
アップロードが成功した後、左側のナビゲーションウィンドウで
アイコンをクリックして Upload Data ページに移動できます。作成したデータアップロードタスクを見つけ、必要に応じて次の操作を実行します:
付録:国境を越えたデータ転送のコンプライアンス
操作に国境を越えたデータ転送 (たとえば、中国本土から中国本土以外の場所へのデータ転送、または異なる国やリージョン間でのデータ転送) が含まれる場合は、事前に関連するコンプライアンスに関する声明を読み、理解する必要があります。そうしないと、アップロードが失敗し、法的責任を問われる可能性があります。
国境を越えたデータ操作は、ご利用のクラウドビジネスデータを選択したリージョンまたは製品のデプロイメントエリアに転送します。このような操作が以下の要件に準拠していることを確認する必要があります:
-
関連するクラウドビジネスデータを処理するために必要な権限を持っていること。
-
十分なデータセキュリティ保護技術とポリシーを実装していること。
-
データ転送が、適用されるすべての法律および規制に準拠していること。たとえば、転送されるデータには、適用法によって転送または開示が制限または禁止されているコンテンツが含まれていてはなりません。
データアップロードが国境を越えたデータ転送になる場合は、続行する前に法律またはコンプライアンスの専門家に相談する必要があります。国境を越えたデータ転送が、適用されるすべての法律、規制、および規制ポリシー (たとえば、個人情報主体からの有効な同意の取得、関連する契約条件の署名と提出の完了、および関連するセキュリティ評価やその他の法的義務の完了) に準拠していることを確認してください。
このコンプライアンスに関する声明を遵守せずに国境を越えたデータ操作を行った場合、対応する法的結果を負うことになります。さらに、Alibaba Cloud およびその関連会社に生じたいかなる損失についても責任を負うものとします。
関連ドキュメント
-
データ開発 (DataStudio) は、ローカルの CSV またはテキストファイルを MaxCompute テーブルにアップロードすることもサポートしています。詳細については、「データのアップロード」をご参照ください。
-
MaxCompute テーブルの詳細については、「MaxCompute テーブルの作成と使用」をご参照ください。
-
Hologres テーブルの詳細については、「Hologres テーブルの作成」をご参照ください。
-
EMR テーブルの詳細については、「EMR テーブルの作成」をご参照ください。
トラブルシューティング
-
リソースグループの設定に関する問題。
エラーメッセージ:現在のソースファイルまたは宛先エンジンでは、データアップロード用にリソースグループを設定する必要があります。ワークスペース管理者に連絡してリソースグループを設定してください。
ソリューション:データ分析でエンジンが使用するリソースグループを設定するには、「システム管理」をご参照ください。
-
リソースグループのバインドに関する問題。
エラーメッセージ:現在のワークスペースで設定されているグローバルデータアップロードリソースグループは、アップロードテーブルが属するワークスペースにバインドされていません。ワークスペース管理者に連絡してバインドしてください。
ソリューション:システム管理で設定したリソースグループをワークスペースリソースグループとして バインド できます。