E-MapReduce (EMR) では、レガシーストレージタイプ(Built-in MySQL または Unified Metabases)に保存された Hive メタデータを Data Lake Formation (DLF) に移行できます。Alibaba Cloud EMR は 2020 年に新しいストレージタイプとして DLF Unified Metadata を導入し、より優れた統合メタデータサービスを提供しています。本ドキュメントでは、移行のタイミング、DLF の機能、および 4 段階の移行プロセスについて説明します。
移行のタイミング
ご利用のクラスターが以下のいずれかに該当する場合は、DLF への移行を実施してください。
ご利用のクラスターが Built-in MySQL を使用している場合:オンプレミスの MySQL データベースがスタンドアロンモードで動作しており、高可用性を保証できず、サービス中断が発生しやすくなります。
ご利用のクラスターが Unified Metabases を使用している場合:このストレージタイプは段階的に廃止されます。クラスターは、新しい EMR コンソールで利用可能な DLF Unified Metadata に切り替える必要があります。
ご利用のクラスターが ApsaraDB RDS を使用している場合:移行は任意ですが、ストレージパフォーマンスとスケーラビリティが向上します。
DLF のメリット
DLF は、フルマネージドで高可用性かつ高性能なメタデータサービスです。複数の Hive メタストアバージョンと互換性があり、EMR 内のオープンソースコンピュートエンジンと統合されています。主な機能は以下のとおりです。
データプロファイリング、データ探索、データレイク管理
データ権限管理
MaxCompute、Databricks DataInsight (DDI)、Hologres との統合
詳細については、「DLF 概要」をご参照ください。
移行プロセス
Alibaba Cloud EMR チームおよび DLF チームが移行全体をサポートします。以下の表に、各フェーズの内容、手順、および所要時間を示します。
移行中(フェーズ 2)は、すべてのクラスタータスクを一時停止する必要があります。タスクのダウンタイムは約 30 分を見込んでください。
| フェーズ | 手順 | 担当者 | 所要時間 |
|---|---|---|---|
| 1. 事前準備 |
| EMR チーム + お客様 | 2 時間 |
| 2. 移行 | 1. 実行中のタスクを一時停止し、メタデータサービスを停止します。2. 既存のメタデータをバックアップします。3. メタデータ移行機能を使用してメタデータを DLF に移行し、移行が想定どおりに実行されたか確認します。4. Type パラメーターを DLF Unified Metadata に設定します。5. 一時停止していたタスクを再開します。 | EMR チーム + お客様 | 30 分 |
| 3. 確認 | 少なくとも 1 週間、タスク実行を監視します。タスクが想定どおりに実行される場合は、移行は完了です。問題が発生した場合は、オンラインで修正するか、ロールバックを実施するかを判断します(フェーズ 4 を参照)。 | EMR チーム + お客様 | 1 週間 |
| 4. ロールバック(オプション) | 1. 実行中のタスクを一時停止します。2. DLF と Hive メタストアのメタデータを比較し、増分データを Hive メタストアに書き戻します。3. Type パラメーターを Unified Metabases に設定します。4. Hive メタストアを起動します。5. 一時停止していたタスクを再開し、結果を検証します。 | EMR チーム + お客様 | 30 分 |
サポートの受け方
移行を開始するには、グループ番号 33719678 を検索して DingTalk グループに参加してください。エンジニアが連絡を取り、移行計画を立てます。