ApsaraDB for SelectDB のデータ統合は、外部データをインスタンスデータベースにインポートするためのビジュアルツールです。このトピックでは、ApsaraDB for SelectDB のデータ統合機能の使用方法について説明します。
前提条件
ApsaraDB for SelectDB インスタンスを作成済みであること。詳細については、「インスタンスの作成」をご参照ください。
インスタンスのバージョンが 3.0.7 以降であること。
手順
ApsaraDB for SelectDB コンソールにログインします。
ページの左上隅で、インスタンスが配置されているリージョンを選択します。
[インスタンス] ページで、[インスタンス ID] をクリックして [インスタンス詳細] ページを開きます。
左側のナビゲーションウィンドウで、[データ開発と管理 (Studio)] > [データ統合] を選択します。
説明データ開発と管理を初めて使用する場合、お使いのコンピューターのパブリック IP アドレスをインスタンスの [webui_whitelist] グループに追加するように求められます。プロンプトをよく読み、[OK] をクリックします。
データ統合を初めて使用し、WebUI にログインしていない場合、ページは WebUI ログインページにリダイレクトされます。
admin アカウントを使用して WebUI にログインできます。
admin アカウントのパスワードがわからない、または忘れた場合は、リセットできます。詳細については、「アカウントのパスワードをリセットする」をご参照ください。
[統合] ページで、次の操作を実行できます。
データ統合タスクをまだ作成していない場合、前のステップを完了すると [ステージ統合] ページが表示されます。このページでは、統合タスクタイプを選択してタスクを作成することしかできません。
統合タスクを作成する。
サンプルデータ
サンプルデータは、分析データベースのパフォーマンスに関するベンチマークテストに使用されます。サンプルデータを作成するには、次のステップを実行します。
サンプルデータの型を選択します。
ページの右上隅にある [新規] をクリックします。[ステージ統合] ページで、サンプルデータの型を選択します。
サンプルデータ名
サンプルデータの説明
ClickBench
ClickBench データセット。
TPC-H
TPC-H データセット。
Github Demo
GitHub Event データセット。
SSB-FLAT
SSB-FLAT データセット。
[新規統合] ページで、次のパラメーターを設定し、[確認してインポート] ボタンをクリックします。
パラメーター
説明
例
統合名
データ統合タスクの名前。
test
コメント
データ統合タスクのコメント。
test comment
クラスター
データ統合タスクを実行するために使用されるクラスター。
new_cluster
サンプルデータサイズ
サンプルデータのサイズ。
1 GB など
Object Storage Service (OSS)
統合タイプを選択します。
ページの右上隅にある [新規] をクリックします。[ステージ統合] ページで、[オブジェクトストレージ] をクリックします。
パラメーターを設定します。
[新規統合] ページで、次のパラメーターを設定し、[OK] をクリックします。
パラメーター
説明
例
統合名
データ統合タスクの名前。
test
コメント
データ統合タスクのコメント。
test comment
バケット
OSS バケットの名前。
test_bucket_name
デフォルトのファイルパス
OSS 内のファイルのデフォルトパス。
N/A
認証
OSS へのアクセスを承認するメソッド。
アクセスキー
アクセスキー
お使いの Alibaba Cloud アカウントの AccessKey ID。
akdemo
シークレットキー
お使いの Alibaba Cloud アカウントの AccessKey Secret。
skdemo
詳細設定
ファイルの統合とインポートのデフォルトプロパティ。
N/A
ファイル設定
統合するファイルのプロパティ。
N/A
ファイルタイプ
OSS 内のファイルのタイプ。
有効な値: JSON、ORC、CSV、Parquet、およびシステムによる推奨。
JSON
圧縮メソッド
OSS 内のファイルの圧縮メソッド。
gz
列区切り文字
OSS ファイル内のデータの列区切り文字。
\t
行区切り文字
OSS ファイル内のデータの行区切り文字。
\n
ファイルサイズ
OSS から統合するファイルのサイズ制約。
無制限
インポート設定
統合されたファイルをインポートするためのデフォルト操作。
N/A
エラー時
続行: エラーが発生した場合でもデータのインポートを続行します。
中止: エラーが発生した場合、データのインポートを停止します。
カスタム: エラーが発生した場合、カスタムポリシーを使用してデータのインポートを続行します。
中止
厳格モード
有効: 列変換中に生成された不正なデータをフィルターで除外します。ここで、不正なデータとは次のものを指します:
ソースでは null ではなかったが、型変換後に null になるデータ。これには、関数によって計算された null 値は含まれません。
列に範囲制約がある場合、厳格モードは、正しく変換されるが指定された範囲外になるデータには影響しません。たとえば、型が `decimal(1,0)` でソースデータが `10` の場合、データは変換可能ですが範囲外です。厳格モードはこのデータに影響しません。
無効: 列変換中に生成された不正なデータをフィルターで除外しません。
有効
統合タスクの検索: [統合] ページで、右上隅にある検索アイコンをクリックします。検索ボックスに、見つけたい統合タスクの名前を入力します。
統合タスクの削除: [統合] ページの統合タスクのリストで、削除したいタスクを見つけ、[操作] 列の削除アイコンをクリックします。
説明統合タスクを削除しても、すでにインポートされたデータには影響しません。ただし、現在インポート中のデータには影響する可能性があります。
削除された統合タスクは回復できません。