Topik ini menjelaskan fitur dasar alat migrasi penjadwalan dalam Lakehouse Migration.
Ikhtisar fungsi
Lakehouse Migration (LHM) memungkinkan Anda memigrasikan pekerjaan dari mesin penjadwalan open source dan cloud lainnya ke DataWorks secara cepat.
Proses migrasi penjadwalan terdiri dari tiga langkah: mengekspor pekerjaan sumber, mengubah pekerjaan heterogen, dan mengimpor pekerjaan ke DataWorks. Hasil antara dapat diakses, sehingga memberikan Anda kontrol penuh atas migrasi tersebut.
Konfigurasi transformasi yang fleksibel mendukung berbagai mesin komputasi di DataWorks, seperti MaxCompute, EMR, dan Hologres.
Alat ini memiliki penerapan ringan yang hanya memerlukan lingkungan runtime JDK 17 dan konektivitas jaringan.
Keamanan data ditingkatkan karena migrasi berjalan secara lokal dan hasil antara tidak diunggah.
Diagram arsitektur:
Langkah-langkah migrasi penjadwalan
Alat migrasi penjadwalan LHM memigrasikan dan mengubah pekerjaan dari mesin penjadwalan apa pun ke DataWorks melalui proses tiga langkah.
Mengekspor tugas penjadwalan dari Sumber migrasi (penemuan sumber).
Alat ini mengambil informasi tugas penjadwalan dari sumber dan menguraikannya ke dalam struktur data standar LHM untuk alur kerja penjadwalan. Langkah ini menstandarkan struktur data.
Mengubah properti penjadwalan dari Sumber migrasi menjadi properti DataWorks.
Properti tugas penjadwalan sumber diubah menjadi properti tugas DataWorks, mencakup jenis tugas, pengaturan penjadwalan, parameter tugas, dan skrip untuk beberapa jenis tugas. Transformasi ini didasarkan pada struktur data standar LHM untuk alur kerja penjadwalan.
Mengimpor tugas penjadwalan ke DataWorks.
Alat ini secara otomatis membangun definisi alur kerja DataWorks dan mengimpor tugas dengan memanggil kit pengembangan perangkat lunak (SDK) DataWorks. Alat ini secara otomatis menentukan apakah akan membuat atau memperbarui tugas, serta mendukung beberapa putaran migrasi dan sinkronisasi perubahan sumber.
Matriks kemampuan migrasi penjadwalan
Alat LHM saat ini mendukung migrasi otomatis tugas dari mesin penjadwalan berikut ke DataWorks.
Migrasi penjadwalan dari mesin open source ke DataWorks
Jenis sumber | Versi sumber | Jenis node yang didukung untuk transformasi |
DolphinScheduler | 1.x | Shell, SQL, Python, DataX, Sqoop, Spark (Java, Python, SQL), MapReduce, Conditions, Dependent, SubProcess |
2.x | Shell, SQL, Python, DataX, Sqoop, HiveCLI, Spark (Java, Python, SQL), MapReduce, Procedure, HTTP, Conditions, Switch, Dependent, SubProcess | |
3.x | Shell, SQL, Python, DataX, Sqoop, SeaTunnel, HiveCLI, Spark (Java, Python, SQL), MapReduce, Procedure, HTTP, Conditions, Switch, Dependent, SubProcess (diganti nama menjadi SubWorkflow pada versi 3.3.0-alpha) | |
Airflow | 2.x | EmptyOperator, DummyOperator, ExternalTaskSensor, BashOperator, HiveToMySqlTransfer, PrestoToMySqlTransfer, PythonOperator, HiveOperator, SqoopOperator, SparkSqlOperator, SparkSubmitOperator, SQLExecuteQueryOperator, PostgresOperator, MySqlOperator |
AzkabanBeta | 3.x | Noop, Shell, Subprocess |
OozieBeta | 5.x | Start, End, Kill, Decision, Fork, Join, MapReduce, Pig, FS, SubWorkflow, Java |
HUEBeta | Latest | Fork, Join, OK, Error, Sqoop, Hive, Hive2, Shell |
Latest mengacu pada versi terbaru per Mei 2025.
Migrasi penjadwalan dari mesin penjadwalan cloud lain ke DataWorks
Jenis sumber | Versi sumber | Jenis node yang didukung untuk transformasi |
DataArts (DGC) | Latest | CDMJob, HiveSQL, DWSSQL, DLISQL, RDSSQL, SparkSQL, Shell, DLISpark, MRSSpark, DLFSubJob, RESTAPI, Note, Dummy |
WeData | Latest | Shell, HiveSql, JDBCSql, Python, SparkPy, SparkSql, Foreach, ForeachStart, ForeachEnd, Offline Sync |
Azure Data Factory (ADF)Beta | Latest | DatabricksNotebook, ExecutePipeline, Copy, Script, Wait, WebActivity, AppendVariable, Delete, DatabricksSparkJar, DatabricksSparkPython, Fail, Filter, ForEach, GetMetadata, HDInsightHive, HDInsightMapReduce, HDInsightSpark, IfCondition, Lookup, SetVariable, SqlServerStoredProcedure, Switch, Until, Validation, SparkJob |
Migrasi penjadwalan dari EMR Workflow ke DataWorks
EMR Workflow | 2024.03 (Latest) | Shell, SQL, Python, DataX, Sqoop, SeaTunnel, HiveCLI, Spark, ImpalaShell, RemoteShell, MapReduce, Procedure, HTTP, Conditions, Switch, Dependent, SubProcess |
Jalur migrasi like-for-like DataWorks
Jenis sumber | Versi sumber | Jenis node yang didukung untuk transformasi |
DataWorks | Versi baru | Semua node yang termasuk dalam alur kerja yang dijadwalkan secara berkala |
DataWorks Spec | Versi baru | Semua node yang termasuk dalam alur kerja yang dijadwalkan secara berkala |