全部产品
Search
文档中心

Migration Hub:Ikhtisar fitur

更新时间:Nov 10, 2025

Topik ini menjelaskan fitur dasar alat migrasi penjadwalan dalam Lakehouse Migration.

Ikhtisar fungsi

Lakehouse Migration (LHM) memungkinkan Anda memigrasikan pekerjaan dari mesin penjadwalan open source dan cloud lainnya ke DataWorks secara cepat.

  • Proses migrasi penjadwalan terdiri dari tiga langkah: mengekspor pekerjaan sumber, mengubah pekerjaan heterogen, dan mengimpor pekerjaan ke DataWorks. Hasil antara dapat diakses, sehingga memberikan Anda kontrol penuh atas migrasi tersebut.

  • Konfigurasi transformasi yang fleksibel mendukung berbagai mesin komputasi di DataWorks, seperti MaxCompute, EMR, dan Hologres.

  • Alat ini memiliki penerapan ringan yang hanya memerlukan lingkungan runtime JDK 17 dan konektivitas jaringan.

  • Keamanan data ditingkatkan karena migrasi berjalan secara lokal dan hasil antara tidak diunggah.

Diagram arsitektur:

Langkah-langkah migrasi penjadwalan

Alat migrasi penjadwalan LHM memigrasikan dan mengubah pekerjaan dari mesin penjadwalan apa pun ke DataWorks melalui proses tiga langkah.

  1. Mengekspor tugas penjadwalan dari Sumber migrasi (penemuan sumber).

Alat ini mengambil informasi tugas penjadwalan dari sumber dan menguraikannya ke dalam struktur data standar LHM untuk alur kerja penjadwalan. Langkah ini menstandarkan struktur data.

  1. Mengubah properti penjadwalan dari Sumber migrasi menjadi properti DataWorks.

Properti tugas penjadwalan sumber diubah menjadi properti tugas DataWorks, mencakup jenis tugas, pengaturan penjadwalan, parameter tugas, dan skrip untuk beberapa jenis tugas. Transformasi ini didasarkan pada struktur data standar LHM untuk alur kerja penjadwalan.

  1. Mengimpor tugas penjadwalan ke DataWorks.

Alat ini secara otomatis membangun definisi alur kerja DataWorks dan mengimpor tugas dengan memanggil kit pengembangan perangkat lunak (SDK) DataWorks. Alat ini secara otomatis menentukan apakah akan membuat atau memperbarui tugas, serta mendukung beberapa putaran migrasi dan sinkronisasi perubahan sumber.

Matriks kemampuan migrasi penjadwalan

Alat LHM saat ini mendukung migrasi otomatis tugas dari mesin penjadwalan berikut ke DataWorks.

Migrasi penjadwalan dari mesin open source ke DataWorks

Jenis sumber

Versi sumber

Jenis node yang didukung untuk transformasi

DolphinScheduler

1.x

Shell, SQL, Python, DataX, Sqoop, Spark (Java, Python, SQL), MapReduce, Conditions, Dependent, SubProcess

2.x

Shell, SQL, Python, DataX, Sqoop, HiveCLI, Spark (Java, Python, SQL), MapReduce, Procedure, HTTP, Conditions, Switch, Dependent, SubProcess

3.x

Shell, SQL, Python, DataX, Sqoop, SeaTunnel, HiveCLI, Spark (Java, Python, SQL), MapReduce, Procedure, HTTP, Conditions, Switch, Dependent, SubProcess (diganti nama menjadi SubWorkflow pada versi 3.3.0-alpha)

Airflow

2.x

EmptyOperator, DummyOperator, ExternalTaskSensor, BashOperator, HiveToMySqlTransfer, PrestoToMySqlTransfer, PythonOperator, HiveOperator, SqoopOperator, SparkSqlOperator, SparkSubmitOperator, SQLExecuteQueryOperator, PostgresOperator, MySqlOperator

AzkabanBeta

3.x

Noop, Shell, Subprocess

OozieBeta

5.x

Start, End, Kill, Decision, Fork, Join, MapReduce, Pig, FS, SubWorkflow, Java

HUEBeta

Latest

Fork, Join, OK, Error, Sqoop, Hive, Hive2, Shell

  • Latest mengacu pada versi terbaru per Mei 2025.

Migrasi penjadwalan dari mesin penjadwalan cloud lain ke DataWorks

Jenis sumber

Versi sumber

Jenis node yang didukung untuk transformasi

DataArts (DGC)

Latest

CDMJob, HiveSQL, DWSSQL, DLISQL, RDSSQL, SparkSQL, Shell, DLISpark, MRSSpark, DLFSubJob, RESTAPI, Note, Dummy

WeData

Latest

Shell, HiveSql, JDBCSql, Python, SparkPy, SparkSql, Foreach, ForeachStart, ForeachEnd, Offline Sync

Azure Data Factory (ADF)Beta

Latest

DatabricksNotebook, ExecutePipeline, Copy, Script, Wait, WebActivity, AppendVariable, Delete, DatabricksSparkJar, DatabricksSparkPython, Fail, Filter, ForEach, GetMetadata, HDInsightHive, HDInsightMapReduce, HDInsightSpark, IfCondition, Lookup, SetVariable, SqlServerStoredProcedure, Switch, Until, Validation, SparkJob

Migrasi penjadwalan dari EMR Workflow ke DataWorks

EMR Workflow

2024.03 (Latest)

Shell, SQL, Python, DataX, Sqoop, SeaTunnel, HiveCLI, Spark, ImpalaShell, RemoteShell, MapReduce, Procedure, HTTP, Conditions, Switch, Dependent, SubProcess

Jalur migrasi like-for-like DataWorks

Jenis sumber

Versi sumber

Jenis node yang didukung untuk transformasi

DataWorks

Versi baru

Semua node yang termasuk dalam alur kerja yang dijadwalkan secara berkala

DataWorks Spec

Versi baru

Semua node yang termasuk dalam alur kerja yang dijadwalkan secara berkala