DataWorks のデータアップロード機能を使用すると、オンプレミスファイル、DataAnalysis ワークブック、Object Storage Service (OSS) オブジェクト、HTTP ファイルなどのデータを、MaxCompute、E-MapReduce (EMR) Hive、Hologres などのコンピューティングエンジンにアップロードして、分析および管理できます。 この機能は、使いやすいデータ転送サービスを提供し、データドリブンビジネスを迅速に実装するのに役立ちます。 このトピックでは、データアップロード機能を使用してデータをアップロードする方法について説明します。
注意事項
中国から中国外へのデータ送信、または異なる国または地域間のデータ送信など、国境を越えたデータ送信操作を実行する場合は、事前に関連するコンプライアンス宣言を理解し、遵守していることを確認してください。 そうしないと、データのアップロードに失敗したり、法的責任を問われる可能性があります。 詳細については、「付録:国境を越えたデータアップロードのコンプライアンスに関する声明」をご参照ください。
データをアップロードする前に、アップロードするデータのテーブルヘッダーを英語に設定することをお勧めします。 テーブルヘッダーが中国語の場合、データが解析されずにアップロードエラーが発生する可能性があります。
機能説明
データアップロード機能を使用すると、[オンプレミスファイル]、DataWorks DataAnalysis ワークブック、Object Storage Service (OSS) オブジェクト、および HTTP ファイルを [MaxCompute]、[EMR Hive]、[Hologres] コンピューティングエンジンのテーブルにアップロードできます。 さまざまなソースのデータをアップロードするための要件:
オンプレミスファイル:
CSV、XLS、XLSX、またはJSON形式のファイルをアップロードできます。CSVファイルをアップロードする場合、ファイルサイズは最大 5 GB です。 CSV ファイル以外のファイルをアップロードする場合、ファイルサイズは最大 100 MB です。デフォルトでは、ファイルの最初のシートのデータのみがアップロードされます。 ファイル内の複数のシートのデータをアップロードする場合は、シートごとに個別のファイルを作成し、データをアップロードするシートが作成されたファイルの最初のシートであることを確認してください。
SQL形式のファイルをアップロードすることはできません。
OSS オブジェクト:現在の DataWorks ワークスペースと同じリージョンのバケットからのみデータをアップロードできます。
制限事項
リソースグループ:データアップロードのために、スケジューリング用リソースグループと Data Integration 用リソースグループを指定する必要があります。
サーバーレスリソースグループ、専用スケジューリングリソースグループ、および データ統合専用リソースグループのみがサポートされています。 [データ分析] の [システム管理] ページで、コンピューティングエンジンの種類ごとに専用スケジューリングリソースグループまたは Data Integration 用リソースグループを選択する必要があります。

選択したリソースグループは、データを受信するために使用されるテーブルが存在する DataWorks ワークスペースに関連付けられている必要があります。 データアップロードタスクで使用されるデータソースが、選択したリソースグループに接続されていることを確認してください。
説明データ分析でコンピューティングエンジンのリソースグループを設定する方法については、「システム管理」をご参照ください。
リソースグループとデータソース間のネットワーク接続を確立する方法については、「リソースグループとデータソース間のネットワーク接続を確立する」をご参照ください。
専用リソースグループをワークスペースに関連付ける方法については、「専用スケジューリングリソースグループの作成と使用」および「データ統合専用リソースグループの作成と使用」をご参照ください。
テーブル:所有しているテーブルにのみデータをアップロードできます。 次のいずれかの方法を使用して、テーブルの所有者かどうかを確認できます。
データマップのテーブルの詳細ページに [テーブル所有者] が表示されている場合は、テーブルの所有者です。 テーブルの詳細を表示する方法については、「MaxCompute テーブルデータ」トピックの テーブルの詳細を表示する セクションをご参照ください。
アップロードされたデータを格納するテーブルを作成する場合、テーブルの所有者になります。 詳細については、このトピックの 作成したテーブルにデータをアップロードする セクションをご参照ください。
課金
データのアップロードには、次の料金が発生します。
データ転送料金
新しいテーブルの作成時のコンピューティングおよびストレージ料金
料金は、関連するコンピューティングエンジンサービスの請求書に含まれています。 課金の詳細については、関連するコンピューティングエンジンサービスの課金ルールに関する次のトピックをご参照ください:MaxCompute 課金概要、Hologres 課金概要、E-MapReduce 課金概要。
前提条件
アップロードするデータを格納するために必要なデータソースが追加されます。 その後、データソースのデータを分析および管理できます。 データソースを追加する方法については、「MaxCompute データソースを追加する」、「Hive データソースを追加する」、および「Hologres データソースを追加する」をご参照ください。
オプション。 [OSS] オブジェクトをアップロードする場合、次の条件を満たす必要があります。
OSS がアクティブ化され、バケットが作成されます。 アップロードするデータはバケットに格納されます。 OSS オブジェクトを関連するデータソースにアップロードできます。 詳細については、「バケットを作成する」および「オブジェクトをアップロードする」をご参照ください。
データのアップロードに使用する Alibaba Cloud アカウントに、デスティネーションバケットにアクセスするための権限が付与されます。 Alibaba Cloud アカウントに権限を付与する方法については、「アクセス制御」をご参照ください。
オプション。 [ワークブック] をアップロードする場合、次の条件を満たす必要があります。 ワークブックが作成され、データが DataAnalysis のワークブックにインポートされます。 詳細については、「ワークブックの作成と管理」および「ワークブックへのデータのインポート」をご参照ください。
[データのアップロード] ページに移動する
DataStudio ページに移動します。
DataWorks コンソール にログオンします。 上部のナビゲーションバーで、目的のリージョンを選択します。 左側のナビゲーションウィンドウで、 を選択します。 表示されたページで、ドロップダウンリストから目的のワークスペースを選択し、[データ開発に移動] をクリックします。
DataStudio ページの左上隅にある
アイコンをクリックし、 を選択します。[アップロードとダウンロード] ページの左側のナビゲーションウィンドウで、
アイコンをクリックして [データのアップロード] ページに移動します。[データのアップロード] をクリックし、画面の指示に従って目的のデータをアップロードします。
データのアップロード
DataWorks では、オンプレミスファイル、DataAnalysis ワークブック、OSS オブジェクト、および HTTP ファイルを MaxCompute、EMR Hive、または Hologres にアップロードできます。 アップロード設定は、アップロードするデータの種類によって異なります。
オンプレミスファイルをアップロードする
アップロードするデータを選択します。
[データソース]:[ローカルファイル] を選択します。
[アップロードするデータを指定]:[ファイルの選択] パラメーターの点線で囲まれた四角形の任意の領域をクリックしてオンプレミスファイルを選択するか、オンプレミスファイルを点線で囲まれた四角形にドラッグします。 次に、ダーティデータを削除するかどうかパラメーターを設定します。 有効な値:
はい:ダーティデータが識別された場合、プラットフォームはそれを無視してデータのアップロードを続行します。
いいえ:ダーティデータが識別された場合、プラットフォームはそれを無視せず、データのアップロードをブロックします。
説明CSV、XLS、XLSX、またはJSON形式のファイルをアップロードできます。CSVファイルをアップロードする場合、ファイルサイズは最大 5 GB です。 CSV ファイル以外のファイルをアップロードする場合、ファイルサイズは最大 100 MB です。デフォルトでは、ファイルの最初のシートのデータのみがアップロードされます。ファイル内の複数のシートのデータをアップロードする場合は、シートごとに個別のファイルを作成し、データのアップロード元のシートが、作成されたファイルの最初のシートであることを確認してください。
SQLフォーマットのファイルをアップロードすることはできません。ダーティデータ: たとえば、ファイル内のセルのデータが文字列型で、INT 型の宛先フィールドにマッピングされている場合、行のデータは書き込みに失敗し、ダーティデータとして識別されます。具体的なダーティデータは、プラットフォームの実際の判断ロジックに基づいて決定されます。
アップロードするデータを格納するテーブルを設定します。
アップロードするデータは、[既存のテーブル]または[新規テーブル]([指定のデータソース])に格納できます。
次の表にパラメーターを示します。
パラメーター
説明
コンピュートエンジン
MaxCompute、EMR Hive、または Hologres にのみデータをアップロードできます。
MaxCompute プロジェクト名またはデータソース
アップロードするデータを格納するプロジェクトまたはデータソース。必須パラメーターは、コンピュートエンジンのタイプによって異なります。DataWorks コンソールでパラメーターを確認できます。
説明コンピュートエンジン パラメーターを EMR HIVE に設定した場合、Alibaba Cloud インスタンスモードで追加されたデータソースのみを選択できます。
本番環境のプロジェクトは、開発環境のプロジェクトとは区別されます。
本番環境のプロジェクトを選択した場合、本番環境のテーブルのみをデスティネーション テーブルとして選択できます。
開発環境のプロジェクトを選択した場合、開発環境のテーブルのみをデスティネーション テーブルとして選択できます。
デスティネーション テーブル(既存のテーブルに設定)
デスティネーション テーブルの選択: アップロードするデータを格納するテーブルを選択します。キーワードを入力して目的のテーブルを検索できます。
説明所有しているテーブルにのみデータをアップロードできます。詳細については、このトピックの「制限」セクションをご参照ください。
アップロード方法: デスティネーション テーブルにデータを追加するために使用される方法。次のステップで設定するソースフィールドとデスティネーション フィールド間のマッピングに基づいて、このパラメーターを設定します。
最初にテーブルデータをクリアするにアップロード方法パラメーターを設定すると、システムはデスティネーション テーブルのデータをクリアしてから、すべてのデータをデスティネーション テーブルのマッピングされたフィールドにインポートします。
追加にアップロード方法パラメーターを設定すると、アップロードするデータがデスティネーション テーブルのマッピングされたフィールドに追加されます。
プライマリキーの競合に関するポリシー: データのアップロード中にデスティネーション テーブルでプライマリキーの競合を処理するために使用されるポリシー。有効な値:
無視: アップロードされたデータは無視されます。デスティネーション テーブルのデータは更新されません。
更新(置き換え): アップロードされたデータは、デスティネーション テーブルの古いデータをすべて上書きします。列マッピングが設定されていないフィールドには、NULL が強制的に書き込まれます。
更新: アップロードされたデータは、デスティネーション テーブルで列マッピングが設定されているフィールドデータのみを上書きします。
説明このパラメーターは、Hologres コンピュートエンジンにのみ必要です。
デスティネーション テーブル(テーブルの作成に設定)
テーブル名: 新しいテーブルの名前。
テーブルタイプ: 非パーティション テーブルまたはパーティション テーブルを選択します。パラメーターをパーティション テーブルに設定した場合は、パーティションフィールドとフィールドの値を指定する必要があります。
ライフサイクル: テーブルの有効期間。有効期間が経過すると、テーブルが使用できなくなる場合があります。テーブルのライフサイクルの詳細については、「ライフサイクル」および「ライフサイクル管理操作」をご参照ください。
説明データのアップロード ページで、EMR Hive または Hologres コンピュートエンジンのデスティネーション テーブル パラメーターをテーブルの作成に設定することはできません。データのアップロード ページでデスティネーション テーブル パラメーターのテーブルを選択する前に、DataStudio でテーブルを作成する必要があります。テーブルの作成方法については、「テーブルの管理」をご参照ください。
MaxCompute エンジンでテーブルを作成する場合は、DataWorks データソースで設定されている MaxCompute アカウント情報を使用します。次に、対応する MaxCompute プロジェクトにテーブルを作成します。
アップロードするデータのプレビューを行い、宛先テーブルのフィールドを指定します。
アップロードするデータと、データを格納する宛先テーブルを選択すると、データの詳細をプレビューし、ソースファイルのフィールドと宛先テーブルのフィールド間のマッピングを設定できます。マッピングを設定した後にのみ、データをアップロードできます。
説明最初の 20 件のデータレコードのみプレビューできます。
次の表にパラメーターを示します。パラメーター
説明
宛先テーブルが既存のテーブルに設定されている場合の宛先テーブルのフィールドの設定
データファイルのフィールドと宛先テーブルのフィールド間のマッピングを設定する必要があります。マッピングを設定した後にのみ、データをアップロードできます。マッピング方法は、[列名によるマッピング] と [順序によるマッピング] です。また、宛先テーブルでマッピングされたフィールドの名前を設定することもできます。
説明アップロードするデータと宛先フィールドの間にマッピングが存在しない場合、データは選択不可になり、アップロードされません。
1 対多のマッピングはサポートされていません。
ソースファイルのフィールド名とフィールドタイプのパラメーターを設定する必要があります。設定しないと、データをアップロードできません。
宛先テーブルがテーブルの作成に設定されている場合の宛先テーブルのフィールドの設定
[インテリジェントフィールド生成] をクリックすると、システムがフィールド情報を入力します。フィールド情報は手動で変更することもできます。
説明ソースファイルのフィールド名とフィールドタイプのパラメーターを設定する必要があります。設定しないと、データをアップロードできません。
[データのアップロード] ページで、EMR Hive または Hologres コンピュートエンジンの宛先テーブルパラメーターをテーブルの作成に設定することはできません。 DataStudio でテーブルを作成してから、[データのアップロード] ページで宛先テーブルパラメーターのテーブルを選択する必要があります。テーブルの作成方法については、「テーブルの管理」をご参照ください。
ファイルのエンコード形式
宛先テーブルにアップロードするデータに文字化けが含まれている場合は、他の使用可能なエンコード形式に切り替えることができます。有効な値:
UTF-8、GB18030、およびBig5。最初の行を無視する
データファイルの最初の行を宛先テーブルにアップロードするかどうかを指定します。ほとんどの場合、最初の行には列名が含まれています。
チェックボックスをオンにすると、ファイルの最初の行は宛先テーブルにアップロードされません。
チェックボックスをオフにすると、ファイルの最初の行は宛先テーブルにアップロードされます。
[データのアップロード] をクリックしてデータをアップロードします。
DataAnalysis ワークブックのアップロード
アップロードするデータを選択します。
[データソース] : [ワークブック] を選択します。
[アップロードするデータを指定] : 作成済みのワークブックを選択し、「ダーティデータを除外するかどうか」パラメーターを設定します。
はい: ダーティデータが識別された場合、プラットフォームはそれを無視してデータのアップロードを続行します。
いいえ: ダーティデータが識別された場合、プラットフォームはそれを無視せず、データのアップロードをブロックします。
説明ワークブックの作成方法とワークブックへのデータのインポート方法については、「ワークブックの作成と管理」および「ワークブックへのデータのインポート」をご参照ください。
ダーティデータ: たとえば、ファイル内のセルのデータが文字列型であるが、INT 型の宛先フィールドにマッピングされている場合、その行のデータは書き込みに失敗し、ダーティデータとして識別されます。具体的なダーティデータは、プラットフォームの実際の判断ロジックに基づいて決定されます。
アップロードするデータを格納するテーブルを設定します。
アップロードするデータは、[既存のテーブル] または [指定されたデータソース] の [新しいテーブル] に格納できます。

次の表にパラメーターを示します。
パラメーター
説明
[コンピュートエンジン]
MaxCompute、EMR Hive、または Hologres にのみデータをアップロードできます。
[MaxCompute プロジェクト名] または [データソース]
アップロードするデータを格納するプロジェクトまたはデータソース。必須パラメーターは、コンピュートエンジンのタイプによって異なります。DataWorks コンソールでパラメーターを確認できます。
説明コンピュートエンジン パラメーターを EMR HIVE に設定した場合、Alibaba Cloud インスタンスモードで追加されたデータソースのみを選択できます。
本番環境のプロジェクトは、開発環境のプロジェクトとは区別されます。
本番環境のプロジェクトを選択した場合、本番環境のテーブルのみを宛先テーブルとして選択できます。
開発環境のプロジェクトを選択した場合、開発環境のテーブルのみを宛先テーブルとして選択できます。
宛先テーブル(既存のテーブルに設定)
[宛先テーブルの選択] : アップロードするデータを格納するテーブルを選択します。キーワードを入力して目的のテーブルを検索できます。
説明所有しているテーブルにのみデータをアップロードできます。詳細については、このトピックの「制限」セクションをご参照ください。
[アップロード方法] : 宛先テーブルにデータを追加するために使用される方法。このパラメーターは、次のステップで設定するソースフィールドと宛先フィールド間のマッピングに基づいて設定します。
[最初にテーブルデータをクリア] に設定すると、システムは宛先テーブルのデータをクリアしてから、すべてのデータを宛先テーブルのマッピングされたフィールドにインポートします。
[追加] に設定すると、アップロードするデータが宛先テーブルのマッピングされたフィールドに追加されます。
[プライマリキーの競合に関するポリシー] : データのアップロード中に宛先テーブルでプライマリキーの競合を処理するために使用されるポリシー。有効な値:
[無視] : アップロードされたデータは無視されます。宛先テーブルのデータは更新されません。
[更新(置換)] : アップロードされたデータは、宛先テーブルの古いデータをすべて上書きします。列マッピングが設定されていないフィールドには、NULL が強制的に書き込まれます。
[更新] : アップロードされたデータは、宛先テーブルで列マッピングが設定されているフィールドデータのみを上書きします。
説明このパラメーターは、Hologres コンピュートエンジンの場合にのみ必須です。
宛先テーブル(テーブルの作成に設定)
[テーブル名] : 新しいテーブルの名前。
[テーブルタイプ] : [非パーティションテーブル] または [パーティションテーブル] を選択します。パラメーターをパーティションテーブルに設定した場合は、パーティションフィールドとフィールドの値を指定する必要があります。
[ライフサイクル] : テーブルの有効期間。有効期間が経過すると、テーブルが使用できなくなる可能性があります。テーブルのライフサイクルの詳細については、「ライフサイクル」および「ライフサイクル管理操作」をご参照ください。
説明「データのアップロード」ページで、EMR Hive または Hologres コンピュートエンジンの宛先テーブル パラメーターを「テーブルの作成」に設定することはできません。DataStudio でテーブルを作成してから、「データのアップロード」ページで宛先テーブル パラメーターのテーブルを選択する必要があります。テーブルの作成方法については、「テーブルの管理」をご参照ください。
MaxCompute エンジンでテーブルを作成する場合は、DataWorks データソースで設定されている MaxCompute アカウント情報を使用します。次に、対応する MaxCompute プロジェクトにテーブルを作成します。
アップロードするデータをプレビューし、宛先テーブルのフィールドを指定します。
アップロードするデータとデータを格納する宛先テーブルを選択した後、データの詳細をプレビューし、ソースファイルのフィールドと宛先テーブルのフィールド間のマッピングを設定できます。マッピングを設定した後でのみ、データをアップロードできます。
説明最初の 20 データ レコードのみプレビューできます。
次の表にパラメーターを示します。パラメーター
説明
宛先テーブルが既存のテーブルに設定されている場合の宛先テーブルのフィールドの設定
データファイルのフィールドと宛先テーブルのフィールド間のマッピングを設定する必要があります。マッピングを設定した後でのみ、データをアップロードできます。マッピング方法は、[列名によるマッピング] と [順序によるマッピング] です。宛先テーブルのマッピングされたフィールドの名前を設定することもできます。
説明アップロードするデータと宛先フィールドの間にマッピングが存在しない場合、データは選択不可になり、アップロードされません。
1 対多のマッピングはサポートされていません。
ソースファイルのフィールド名とフィールドタイプのパラメーターを設定する必要があります。設定しないと、データをアップロードできません。
宛先テーブルがテーブルの作成に設定されている場合の宛先テーブルのフィールドの設定
[インテリジェントフィールド生成] をクリックすると、システムがフィールド情報を入力します。フィールド情報は手動で変更することもできます。
説明ソースファイルのフィールド名とフィールドタイプのパラメーターを設定する必要があります。設定しないと、データをアップロードできません。
「データのアップロード」ページで、EMR Hive または Hologres コンピュートエンジンの宛先テーブル パラメーターを「テーブルの作成」に設定することはできません。DataStudio でテーブルを作成してから、「データのアップロード」ページで宛先テーブル パラメーターのテーブルを選択する必要があります。テーブルの作成方法については、「テーブルの管理」をご参照ください。
[ファイル エンコード形式]
宛先テーブルにアップロードするデータに文字化けが含まれている場合は、他の使用可能なエンコード形式に切り替えることができます。有効な値:
UTF-8、GB18030、Big5。[最初の行を無視]
データファイルの最初の行を宛先テーブルにアップロードするかどうかを指定します。ほとんどの場合、最初の行には列名が含まれています。
チェックボックスをオンにすると、ファイルの最初の行は宛先テーブルにアップロードされません。
チェックボックスをオフにすると、ファイルの最初の行は宛先テーブルにアップロードされます。
[データのアップロード] をクリックし、画面の指示に従って目的のデータをアップロードします。
OSS オブジェクトのアップロード
アップロードするデータを選択します。
[データソース]: [Alibaba Cloud OSS] を選択します。
[アップロードするデータを指定]: 作成したバケット内のオブジェクトを選択し、「ダーティデータを除去するかどうか」パラメーターを設定します。
はい: ダーティデータが識別された場合、プラットフォームはそれを無視してデータのアップロードを続行します。
いいえ: ダーティデータが識別された場合、プラットフォームはそれを無視せず、データのアップロードをブロックします。
説明現在の DataWorks ワークスペースと同じリージョンにあるバケットからのみデータをアップロードできます。バケットの作成方法については、「バケットを作成する」をご参照ください。
ダーティデータ: たとえば、ファイル内のセルのデータが文字列型であるが、INT 型の宛先フィールドにマッピングされている場合、その行のデータは書き込みに失敗し、ダーティデータとして識別されます。具体的なダーティデータは、プラットフォームの実際の判断ロジックに基づいて決定されます。
アップロードするデータを格納するテーブルを設定します。
アップロードするデータは、[既存のテーブル] または [新規テーブル] ([指定されたデータソース]) に格納できます。

次の表にパラメーターを示します。
パラメーター
説明
コンピュートエンジン
MaxCompute、EMR Hive、または Hologres にのみデータをアップロードできます。
MaxCompute プロジェクト名 または データソース
アップロードするデータを格納するプロジェクトまたはデータソース。必須パラメーターは、コンピュートエンジンのタイプによって異なります。DataWorks コンソールでパラメーターを確認できます。
説明コンピュートエンジン パラメーターを EMR HIVE に設定した場合、Alibaba Cloud インスタンスモードで追加されたデータソースのみを選択できます。
本番環境のプロジェクトは、開発環境のプロジェクトとは区別されます。
本番環境のプロジェクトを選択した場合、宛先テーブルとして本番環境のテーブルのみを選択できます。
開発環境のプロジェクトを選択した場合、宛先テーブルとして開発環境のテーブルのみを選択できます。
宛先テーブル (既存のテーブルに設定)
[宛先テーブルの選択]: アップロードするデータを格納するテーブルを選択します。キーワードを入力して目的のテーブルを検索できます。
説明所有しているテーブルにのみデータをアップロードできます。詳細については、このトピックの「制限」セクションをご参照ください。
[アップロード方法]: 宛先テーブルにデータを追加するために使用される方法。次のステップで設定する、ソースフィールドと宛先フィールド間のマッピングに基づいて、このパラメーターを設定します。
[最初にテーブルデータをクリア] に設定すると、システムは宛先テーブルのデータをクリアしてから、すべてのデータを宛先テーブルのマッピングされたフィールドにインポートします。
[追加] に設定すると、アップロードするデータが宛先テーブルのマッピングされたフィールドに追加されます。
[プライマリキーの競合に関するポリシー]: データのアップロード中に宛先テーブルでプライマリキーの競合を処理するために使用されるポリシー。有効な値:
[無視]: アップロードされたデータは無視されます。宛先テーブルのデータは更新されません。
[更新 (置換)]: アップロードされたデータは、宛先テーブルの古いデータをすべて上書きします。列マッピングが設定されていないフィールドには、NULL が強制的に書き込まれます。
[更新]: アップロードされたデータは、宛先テーブルで列マッピングが設定されているフィールドデータのみを上書きします。
説明このパラメーターは、Hologres コンピュートエンジンの場合にのみ必須です。
宛先テーブル (テーブルの作成に設定)
[テーブル名]: 新しいテーブルの名前。
[テーブルタイプ]: [非パーティションテーブル] または [パーティションテーブル] を選択します。パラメーターをパーティションテーブルに設定した場合は、パーティションフィールドとフィールドの値を指定する必要があります。
[ライフサイクル]: テーブルの有効期間。有効期間が経過すると、テーブルが使用できなくなる場合があります。テーブルのライフサイクルの詳細については、「ライフサイクル」および「ライフサイクル管理操作」をご参照ください。
説明データのアップロード ページで、EMR Hive または Hologres コンピュートエンジンの宛先テーブル パラメーターをテーブルの作成に設定することはできません。データのアップロード ページで宛先テーブル パラメーターのテーブルを選択する前に、DataStudio でテーブルを作成する必要があります。テーブルの作成方法については、「テーブルの管理」をご参照ください。
MaxCompute エンジンでテーブルを作成する場合は、DataWorks データソースで設定されている MaxCompute アカウント情報を使用します。次に、対応する MaxCompute プロジェクトにテーブルを作成します。
アップロードするデータをプレビューし、宛先テーブルのフィールドを指定します。
アップロードするデータと、データを格納する宛先テーブルを選択した後、データの詳細をプレビューし、ソースファイルのフィールドと宛先テーブルのフィールド間のマッピングを設定できます。マッピングを設定した後でのみ、データをアップロードできます。
説明最初の 20 件のデータレコードのみプレビューできます。
次の表にパラメーターを示します。パラメーター
説明
宛先テーブルが既存のテーブルに設定されている場合の宛先テーブルのフィールドの設定
データファイルのフィールドと宛先テーブルのフィールド間のマッピングを設定する必要があります。マッピングを設定した後でのみ、データをアップロードできます。マッピング方法は、[列名によるマッピング] と [順序によるマッピング] です。宛先テーブルのマッピングされたフィールドの名前を設定することもできます。
説明アップロードするデータと宛先フィールドの間にマッピングが存在しない場合、データは選択不可になり、アップロードされません。
1 対多のマッピングはサポートされていません。
ソースファイルのフィールド名とフィールドタイプのパラメーターを設定する必要があります。設定しないと、データをアップロードできません。
宛先テーブルがテーブルの作成に設定されている場合の宛先テーブルのフィールドの設定
[インテリジェントフィールド生成] をクリックすると、システムがフィールド情報を入力します。フィールド情報は手動で変更することもできます。
説明ソースファイルのフィールド名とフィールドタイプのパラメーターを設定する必要があります。設定しないと、データをアップロードできません。
データのアップロード ページで、EMR Hive または Hologres コンピュートエンジンの宛先テーブル パラメーターをテーブルの作成に設定することはできません。データのアップロード ページで宛先テーブル パラメーターのテーブルを選択する前に、DataStudio でテーブルを作成する必要があります。テーブルの作成方法については、「テーブルの管理」をご参照ください。
ファイルのエンコード形式
宛先テーブルにアップロードするデータに文字化けが含まれている場合は、他の使用可能なエンコード形式に切り替えることができます。有効な値:
UTF-8、GB18030、Big5。最初の行を無視
データファイルの最初の行を宛先テーブルにアップロードするかどうかを指定します。ほとんどの場合、最初の行には列名が含まれています。
チェックボックスをオンにすると、ファイルの最初の行は宛先テーブルにアップロードされません。
チェックボックスをオフにすると、ファイルの最初の行は宛先テーブルにアップロードされます。
[データのアップロード] をクリックしてデータをアップロードします。
HTTP ファイルのアップロード
アップロードするデータを選択します。
[データソース]: [HTTP ファイル] を選択します。
[アップロードするデータを指定]: 作成した HTTP ファイルの URL を [ファイル URL] フィールドに入力します。アップロードするファイルの種類に基づいて、[ファイルの種類] パラメーターが自動的に設定されます。[リクエストメソッド] を [GET]、[POST]、または [PUT] に設定し、ダーティデータを除去するかどうかを指定できます。
はい: ダーティデータが識別された場合、プラットフォームはそれを無視してデータのアップロードを続行します。
いいえ: ダーティデータが識別された場合、プラットフォームはそれを無視せず、データのアップロードをブロックします。
説明必要に応じて、[詳細パラメーター (オプション)] をクリックして、ビジネス要件に基づいて [リクエストヘッダー] パラメーターと [リクエスト本文] パラメーターを設定することもできます。
アップロードするデータを格納するテーブルを設定します。
アップロードするデータは、[既存のテーブル] または [指定されたデータソース] の [新しいテーブル] に格納できます。

次の表にパラメーターを示します。
パラメーター
説明
[コンピュートエンジン]
MaxCompute、EMR Hive、または Hologres にのみデータをアップロードできます。
[MaxCompute プロジェクト名] または [データソース]
アップロードするデータを格納するプロジェクトまたはデータソース。必要なパラメーターは、コンピュートエンジンの種類によって異なります。DataWorks コンソールでパラメーターを確認できます。
説明コンピュートエンジン パラメーターを EMR HIVE に設定した場合、Alibaba Cloud インスタンスモードで追加されたデータソースのみを選択できます。
本番環境のプロジェクトは、開発環境のプロジェクトとは区別されます。
本番環境のプロジェクトを選択した場合、本番環境のテーブルのみをデスティネーションテーブルとして選択できます。
開発環境のプロジェクトを選択した場合、開発環境のテーブルのみをデスティネーションテーブルとして選択できます。
デスティネーションテーブル (既存のテーブルに設定)
[デスティネーションテーブルの選択]: アップロードするデータを格納するテーブルを選択します。キーワードを入力して目的のテーブルを検索できます。
説明所有しているテーブルにのみデータをアップロードできます。詳細については、このトピックの「制限」セクションをご参照ください。
[アップロード方法]: デスティネーションテーブルにデータを追加するために使用される方法。次のステップで設定する、ソースフィールドとデスティネーションフィールド間のマッピングに基づいて、このパラメーターを設定します。
[最初にテーブルデータをクリア] にアップロード方法パラメーターを設定すると、システムはデスティネーションテーブルのデータをクリアしてから、すべてのデータをデスティネーションテーブルのマッピングされたフィールドにインポートします。
[追加] にアップロード方法パラメーターを設定すると、アップロードするデータがデスティネーションテーブルのマッピングされたフィールドに追加されます。
[プライマリキーの競合に関するポリシー]: データのアップロード中にデスティネーションテーブルでプライマリキーの競合を処理するために使用されるポリシー。有効な値:
[無視]: アップロードされたデータは無視されます。デスティネーションテーブルのデータは更新されません。
[更新 (置き換え)]: アップロードされたデータは、デスティネーションテーブルの古いデータをすべて上書きします。列マッピングが設定されていないフィールドには、NULL が強制的に書き込まれます。
[更新]: アップロードされたデータは、デスティネーションテーブルで列マッピングが設定されているフィールドデータのみを上書きします。
説明このパラメーターは、Hologres コンピュートエンジンの場合にのみ必須です。
デスティネーションテーブル (テーブルの作成に設定)
[テーブル名]: 新しいテーブルの名前。
[テーブルの種類]: [非パーティションテーブル] または [パーティションテーブル] を選択します。パラメーターをパーティションテーブルに設定した場合は、パーティションフィールドとフィールドの値を指定する必要があります。
[ライフサイクル]: テーブルの有効期間。有効期間が経過すると、テーブルが使用できなくなる可能性があります。テーブルのライフサイクルの詳細については、「ライフサイクル」および「ライフサイクル管理操作」をご参照ください。
説明データのアップロードページで、EMR Hive または Hologres コンピュートエンジンのデスティネーションテーブル パラメーターをテーブルの作成に設定することはできません。データのアップロードページでデスティネーションテーブル パラメーターのテーブルを選択する前に、DataStudio でテーブルを作成する必要があります。テーブルの作成方法については、「テーブルの管理」をご参照ください。
MaxCompute エンジンでテーブルを作成する場合は、DataWorks データソースで設定されている MaxCompute アカウント情報を使用します。次に、対応する MaxCompute プロジェクトにテーブルを作成します。
アップロードするデータをプレビューし、デスティネーションテーブルのフィールドを指定します。
アップロードするデータと、データを格納するデスティネーションテーブルを選択した後、データの詳細をプレビューし、ソースファイルのフィールドとデスティネーションテーブルのフィールド間のマッピングを設定できます。マッピングを設定した後でのみ、データをアップロードできます。
説明最初の 20 件のデータレコードのみプレビューできます。
次の表にパラメーターを示します。パラメーター
説明
デスティネーションテーブルが既存のテーブルに設定されている場合のデスティネーションテーブルのフィールドの設定
データファイルのフィールドとデスティネーションテーブルのフィールド間のマッピングを設定する必要があります。マッピングを設定した後でのみ、データをアップロードできます。マッピング方法は、[列名によるマッピング] と [順序によるマッピング] です。デスティネーションテーブルのマッピングされたフィールドの名前を設定することもできます。
説明アップロードするデータとデスティネーションフィールドの間にマッピングが存在しない場合、データは選択不可になり、アップロードされません。
1 対多のマッピングはサポートされていません。
ソースファイルのフィールド名パラメーターとフィールドの種類パラメーターを設定する必要があります。設定しないと、データをアップロードできません。
デスティネーションテーブルがテーブルの作成に設定されている場合のデスティネーションテーブルのフィールドの設定
[インテリジェントフィールド生成] をクリックすると、システムがフィールド情報を入力します。フィールド情報は手動で変更することもできます。
説明ソースファイルのフィールド名パラメーターとフィールドの種類パラメーターを設定する必要があります。設定しないと、データをアップロードできません。
データのアップロードページで、EMR Hive または Hologres コンピュートエンジンのデスティネーションテーブル パラメーターをテーブルの作成に設定することはできません。データのアップロードページでデスティネーションテーブル パラメーターのテーブルを選択する前に、DataStudio でテーブルを作成する必要があります。テーブルの作成方法については、「テーブルの管理」をご参照ください。
[ファイルのエンコード形式]
デスティネーションテーブルにアップロードするデータに文字化けが含まれている場合は、他の使用可能なエンコード形式に切り替えることができます。有効な値:
UTF-8、GB18030、Big5。[最初の行を無視]
データファイルの最初の行をデスティネーションテーブルにアップロードするかどうかを指定します。ほとんどの場合、最初の行には列名が含まれています。
チェックボックスをオンにすると、ファイルの最初の行はデスティネーションテーブルにアップロードされません。
チェックボックスをオフにすると、ファイルの最初の行はデスティネーションテーブルにアップロードされます。
[データのアップロード] をクリックしてデータをアップロードします。
次のステップ
データをアップロードした後、ビジネス要件に基づいて次の操作を実行できます。
データクエリ: DataAnalysis を使用してデータをクエリおよび分析できます。詳細については、「SQL クエリ」をご参照ください。
アップロードされたデータの詳細を表示する: データアップロード ページで、宛先テーブルの名前をクリックして DataMap ページに移動し、宛先テーブルの詳細を表示できます。詳細については、「共通データをクエリおよび管理する」をご参照ください。
付録: 国境を越えたデータアップロードに関するコンプライアンス声明
中国から中国国外へのデータ送信、または異なる国または地域間でのデータ送信など、国境を越えたデータ送信操作を実行する場合は、事前に関連するコンプライアンス宣言を理解し、遵守していることを確認してください。そうしないと、データのアップロードに失敗したり、法的責任を問われる可能性があります。
クラウド内のビジネスデータは、国境を越えたデータ操作を実行すると、選択したリージョンまたはプロダクト デプロイメント エリアに送信されます。関連する操作が以下の要件に準拠していることを確認する必要があります。
クラウド内の関連ビジネスデータを処理するために必要な権限を持っている。
適切なデータ セキュリティ保護技術と戦略を使用している。
データ送信操作は、関連する法律および規制に準拠している。たとえば、送信されるデータに、適用法によって送信または開示が制限または禁止されているコンテンツが含まれていない。
適用されるすべての法律、規制、および規制ポリシーへの準拠を確保するために、国境を越えたデータ送信を伴う可能性のあるデータアップロードを行う前に、専門の法律またはコンプライアンスに関するアドバイスを受けることをお勧めします。たとえば、個人情報の所有者から有効な許可を取得したり、関連する契約条項の承認とファイリングを完了したり、必要なセキュリティ評価の実施など、法的義務を果たすことができます。
このコンプライアンス声明に従わずに国境を越えたデータ操作を実行した場合、対応する法的結果を負うものとします。また、Alibaba Cloud とその関連会社が被った結果として生じる損失についても責任を負うものとします。
参照資料
DataStudio では、オンプレミスの CSV ファイルまたはテキストファイルのデータを MaxCompute テーブルにアップロードすることもできます。詳細については、「MaxCompute テーブルにデータをインポートする」をご参照ください。
MaxCompute テーブルで実行できる操作の詳細については、「MaxCompute テーブルを作成および管理する」をご参照ください。
Hologres テーブルで実行できる操作の詳細については、「Hologres テーブルを作成する」をご参照ください。
EMR テーブルで実行できる操作の詳細については、「EMR テーブルを作成する」をご参照ください。