Topik ini menjawab pertanyaan yang sering diajukan mengenai pekerjaan Ingesti Data yang didukung oleh Flink CDC.
Referensi cepat
| Symptom | Phase | Severity | Link |
|---|---|---|---|
JobManager OOM dengan nilai metrik SnapshotSplits yang tinggi | Snapshot | Critical | FAQ 1 |
| TaskManager OOM saat hanya tersisa sedikit shard | Snapshot | Critical | FAQ 3 |
| JobManager OOM saat pemulihan state selama pembacaan inkremental | Incremental | Critical | FAQ 2 |
Tidak ada data baru setelah perubahan skema tanpa lock menggunakan pt-osc | Schema change | High | FAQ 4 |
| Ketidaksesuaian tipe kolom Transform setelah perubahan skema tanpa lock | Schema change | High | FAQ 5 |
| Pekerjaan gagal memulihkan dari titik simpan sebelum perubahan skema | State recovery | High | FAQ 6 |
Fase snapshot
FAQ 1: JobManager OOM selama fase snapshot
Severity: Critical | Phase: Snapshot | Affected versions: Semua versi mesin VVR
Gejala
Pekerjaan berulang kali restart selama fase snapshot.
Log JobManager berisi stack trace
OutOfMemoryError(OOM).Pada tab Alarm, metrik
Num of remaining SnapshotSplitsdanNum of processed SnapshotSplitsmenunjukkan nilai yang sangat tinggi.

Penyebab
Selama fase snapshot, source MySQL menyimpan semua metadata shard tabel ke dalam state pekerjaan Flink. Jika pekerjaan menangani volume data yang besar atau menggunakan ukuran shard yang sangat kecil, JobManager membuat jumlah shard yang berlebihan. Hal ini mengonsumsi terlalu banyak memori dan menyebabkan JobManager kehabisan memori.
Solusi
Tingkatkan sumber daya memori yang dialokasikan untuk JobManager.
Sesuaikan parameter berikut untuk menambah memori heap dan off-heap JobManager:
jobmanager.memory.heap.sizejobmanager.memory.off-heap.size
FAQ 3: TaskManager OOM menjelang akhir fase snapshot
Severity: Critical | Phase: Snapshot | Affected versions: Semua versi mesin VVR
Gejala
TaskManager kehabisan memori pada akhir fase snapshot, biasanya saat hanya tersisa sedikit shard.
Pencarian log TaskManager untuk
using select statementmenunjukkan bahwa kueri tak terbatas terakhir melibatkan volume data yang sangat besar.
Penyebab
Pembacaan data yang berkepanjangan selama fase snapshot menyebabkan akumulasi data inkremental yang signifikan untuk shard terakhir atau beberapa shard terakhir. Saat TaskManager memproses shard besar yang terakumulasi ini, ia kehabisan memori.
Solusi
Atur opsi berikut:
scan.incremental.snapshot.unbounded-chunk-first.enabled: trueJalankan ulang snapshot.
Fase inkremental
FAQ 2: JobManager OOM selama pemulihan state di fase inkremental
Severity: Critical | Phase: Incremental | Affected versions: VVR 11.1 atau lebih lama
Gejala
Pekerjaan memasuki fase inkremental tetapi gagal selama pemulihan state.
Log JobManager menunjukkan OOM.
Penyebab
Versi VVR 11.1 dan sebelumnya mungkin tidak membersihkan informasi skema tabel yang dipertahankan dari state pekerjaan secara tepat setelah transisi dari fase snapshot ke fase inkremental. Informasi skema yang tersisa ini menumpuk dan menyebabkan OOM saat pekerjaan memulihkan state-nya dari checkpoint.
Solusi
Lakukan upgrade ke VVR 11.2 atau versi yang lebih baru.
Perubahan skema
FAQ 4: Tidak ada data baru setelah perubahan skema tanpa lock menggunakan pt-osc
Severity: High | Phase: Schema change | Affected versions: VVR 11.1 atau lebih lama
Gejala
Pekerjaan terus berjalan tanpa restart setelah perubahan skema tabel tanpa lock.
Metrik
CurrentFetchTimeLagberjalan sesuai ekspektasi, menunjukkan bahwa data sedang diambil.Source MySQL berhenti menghasilkan data baru dan metrik
CurrentEmitTimeLagberhenti diperbarui.
Penyebab
Versi VVR 11.1 dan sebelumnya tidak dapat menangani event perubahan DDL yang dihasilkan oleh alat perubahan skema tanpa lock seperti pt-osc secara benar. Hal ini menyebabkan pipa data macet setelah perubahan skema.
Solusi
Lakukan upgrade ke VVR 11.2 atau versi yang lebih baru.
Atur opsi berikut:
scan.parse.online.schema.changes.enabled: true
FAQ 5: Ketidaksesuaian tipe kolom Transform setelah perubahan skema tanpa lock
Severity: High | Phase: Schema change | Affected versions: VVR 11.1 atau lebih lama
Gejala
Pekerjaan tiba-tiba restart setelah perubahan skema tabel tanpa lock (misalnya, menggunakan
pt-osc).Log operator Transform menunjukkan error ketidaksesuaian tipe kolom.
Penyebab
Ini merupakan isu yang diketahui pada VVR 11.1. Jika volume data yang signifikan dimasukkan ke dalam tabel selama operasi perubahan skema tanpa lock, mesin dapat menghasilkan event yang tidak dapat diurai.
Solusi
Lakukan upgrade ke VVR 11.2 atau versi yang lebih baru.
Lakukan restart stateful dari titik simpan yang dibuat sebelum perubahan skema tanpa lock.
Pemulihan state
FAQ 6: Pekerjaan gagal memulihkan dari titik simpan sebelum perubahan skema
Severity: High | Phase: State recovery | Affected versions: VVR 11.1 atau lebih lama
Gejala
Restart stateful dari titik simpan yang dibuat sebelum perubahan skema tabel gagal.
Pesan error menunjukkan pengecualian ketidaksesuaian skema tabel saat mengonsumsi log biner.
Penyebab
Versi VVR 11.1 dan sebelumnya tidak mendukung restart stateful dari titik simpan yang berisi skema tabel yang tidak kompatibel.
Solusi
Lakukan upgrade ke VVR 11.2 atau versi yang lebih baru.
Setelah upgrade, restart pekerjaan dari titik simpan sebelum perubahan skema.