問題の説明
Alibaba Cloud Linux 2を実行し、次のプロパティを持つElastic Compute Service (ECS) インスタンスでシステム障害が発生しました。
- イメージ:Alibaba Cloud Linux 2.1903 LTS 64 ビット
- カーネル: kernel-4.19.91-23.al7以前
次のコールスタック情報は、システム障害時に表示されます。
[ 332.057218] ウォッチドッグ: バグ: ソフトロックアップ-CPU#7は11秒間立ち往生! [split_v2:28356]
[332.057219] mousedev isst_if_common hid_generic usbhid
[332.057223] CPU: 3 PID: 28336 Comm: split_v2 Kdump: ロードされた汚染されていない4.19.91-19.1.al7.x86_64 #1
[332.057507] カーネルパニック-同期しない: softlockup: hung tasks
[332.057508] DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400
[332.057510] CPU: 6 PID: 28355 Comm: split_v2 Kdump: loaded Tainted: G L 4.19.91-19.1.al7.x86_64 #1
[332.057513] cp_new_stat + 0x1 3d/0x160
[332.057514] RDX: 000000c000100000 RSI: 000000c000100000 RDI: 0000000000000019
[332.057515] トレースを呼び出す:
[332.057516] ハードウェア名: Alibaba Cloud ECS、BIOS 8a46cfe 2014年4月1日
[332.057518] __se_sys_newfstat + 0x 2e/0x40
[332.057518] トレースを呼び出す:
[332.057519] コード: 89 d1 c1 e9 03 83 e2 07 f3 48 a5 89 d1 f3 a4 31 c0 0f 0f 01 ca c3 0f 1f 80 00 00 00 00 0f 01 cb 83 fa 40 0f 82 70 ff ff ff ff 89 d1> a4 31 c0 0f 01 ca c3 66 2e 0f 1f 1f 84 00 00 00 00 00 00 00 f 01 cb 83
[332.057521] RBP: 00007eff1201bf10 R08: 00007eff1201c700 R09: 00007eff1201c700
[332.057523] do_syscall_64 + 0x 5b/0x1b0
[332.057524] <IRQ>
[332.057525] RSP: 0018:ffffa389886efde8 EFLAGS: 00050206
[332.057529] dump_stack + 0x6 6/0x8b
[332.057531] R10: 00007eff1201c9d0 R11: 0000000000000246 R12: 0000000000000000
[332.057534] パニック + 0xd 8/0x24c
[332.057535] RAX: 000000c000100090 RBX: ffffa389886efee8 RCX: 0000000000000090
[332.057536] R13: 0000000000801000 R14: 0000000000000000 R15: 00007eff1201c700
[332.057539] __do_page_fault + 0x1 1d/0x470
[332.057540] ? 0xffffffffc0477000
[332.057541] RDX: 0000000000000090 RSI: ffffa389886efdf8 RDI: 000000c000100000
[332.057552] watchdog_timer_fn + 0x25 3/0x260
[332.057555] entry_SYSCAL_64_after_hwframe + 0x4 4/0x a9
[332.057556] ? softlockup_fn + 0x4 0/0x40
[332.057557] RBP: 000000c000100000 R08: 0000000000000000 R09: 0000000000000000
[332.057559] __hrtimer_run_queues + 0xeb/0x250
[332.057560] R10: ffff8bfb1690a310 R11: ffff8bfb1f01a6c8 R12: ffff8bfaee04df00
[332.057562] hrtimer_interrupt + 0x12 2/0x270
[332.057563] RIP: 0033:0x7eff1b11e3a4
[332.057564] R13: 0000000000000000 R14: 0000000000000000 R15: 0000000000000000
[332.057566] smp_apic_timer_interrupt + 0x 6a/0x140
[332.057568] do_page_fault + 0x3 2/0x140
[332.057570] apic_timer_interrupt + 0xf/0x20
[332.057572] _copy_to_user + 0x2 2/0x30
[332.057573] コード: 00 f7 d8 64 89 02 48 83 c8 ff c3 66 2e 0f 1f 84 00 00 00 00 00 90 ff 01 89 f0 77 48 63 f8 89 d6 b8 05 00 00 0f 05 <48> 3d 00 ff f0 ff 77 18 f3 c3 66 90 48 8b 05 99 7a 2d 00 64 c7 00 00
[332.057574] </IRQ>
[332.057575] RSP: 002b:00007eff1181aed8 EFLAGS: 00000246
[332.057578] RIP: 0010 :__ do_page_fault + 0x22 7/0x470
[332.057579] ORIG_RAX: 0000000000000005
[332.057580] コード: 00 48 83 c4 30 5b 5d 41 5c 41 5d 41 5e 41 5f c3 f6 85 91 00 00 02 41 bf 14 00 00 0f 84 c5 fe ff ff fb 66 0f 1f 44 00 00 <e9> b9 fe ff ff ff ff f6 85 88 00 00 00 00 03 75 0d f6 85
[332.057582] cp_new_stat + 0x1 3d/0x160
[332.057583] RSP: 0018:ffffa389886f7ca0 EFLAGS: 00000202 ORIG_RAX: ffffffffffff13
[332.057585] __se_sys_newfstat + 0x 2e/0x40
[332.057586] RAX: 0000000000000000 RBX: 0000000000000002 RCX: ffffffff93a00ae0
[332.057587] RAX: ffffffffffffda RBX: 0000000000000000 RCX: 00007eff1b11e3a4
[332.057588] RDX: 0000000000000000 RSI: 0000000000000002 RDI: ffffa389886f7d38
[332.057589] do_syscall_64 + 0x 5b/0x1b0
[332.057590] RBP: ffffa389886f7d38 R08: 0000000000000000 R09: 0000000000000000
[332.057591] RDX: 000000c000100000 RSI: 000000c000100000 RDI: 0000000000000009
[332.057592] R10: 0000000000000000 R11: 0000000000000000 R12: 000000c000100000
[332.057594] entry_SYSCAL_64_after_hwframe + 0x4 4/0x a9
[332.057595] R13: ffff8bfb168bd940 R14: ffff8bfaeee04af80 R15: 0000000000000014
[332.057597] RIP: 0033:0x7eff1b11e3a4
[332.057599] async_page_fault + 0x 1e/0x30
[332.057601] ? restore_regs_and_return_to_kernel + 0x2 5/0x25
[332.057602] RBP: 00007eff1181af10 R08: 00007eff1181b700 R09: 00007eff1181b700
[332.057602] コード: 00 f7 d8 64 89 02 48 83 c8 ff c3 66 2e 0f 1f 84 00 00 00 00 00 90 ff 01 89 f0 77 48 63 f8 89 d6 b8 05 00 00 0f 05 <48> 3d 00 ff f0 ff 77 18 f3 c3 66 90 48 8b 05 99 7a 2d 00 64 c7 00 00
[332.057604] do_page_fault + 0x3 2/0x140
[332.057606] RIP: 0010:copy_user_enhanced_fast_string + 0xe/0x20
[332.057607] R10: 00007eff1181b9d0 R11: 0000000000000246 R12: 0000000000000000
[332.057608] コード: 89 d1 c1 e9 03 83 e2 07 f3 48 a5 89 d1 f3 a4 31 c0 0f 0f 01 ca c3 0f 1f 80 00 00 00 00 0f 01 cb 83 fa 40 0f 82 70 ff ff ff ff 89 d1> a4 31 c0 0f 01 ca c3 66 2e 0f 1f 1f 84 00 00 00 00 00 00 00 f 01 cb 83
[332.057609] async_page_fault + 0x 1e/0x30
[332.057610] R13: 0000000000801000 R14: 0000000000000000 R15: 00007eff1181b700
[332.057612] RIP: 0010:copy_user_enhanced_fast_string + 0xe/0x20
[332.057613] RSP: 002b:00007eff08808ed8 EFLAGS: 00000246
[332.057614] コード: 89 d1 c1 e9 03 83 e2 07 f3 48 a5 89 d1 f3 a4 31 c0 0f 0f 01 ca c3 0f 1f 80 00 00 00 00 0f 01 cb 83 fa 40 0f 82 70 ff ff ff ff 89 d1> a4 31 c0 0f 01 ca c3 66 2e 0f 1f 1f 84 00 00 00 00 00 00 00 f 01 cb 83
[332.057615] ORIG_RAX: 0000000000000005
[332.057616] RSP: 0018:ffffa389886f7de8 EFLAGS: 00050206
[332.057617] RAX: ffffffffffffda RBX: 0000000000000000 RCX: 00007eff1b11e3a4
[332.057618] RAX: 000000c000100090 RBX: ffffa389886f7ea8 RCX: 0000000000000090
[332.057619] RDX: 000000c000100000 RSI: 000000c000100000 RDI: 0000000000000024
[332.057620] RDX: 0000000000000090 RSI: ffffa389886f7df8 RDI: 000000c000100000
[332.057621] RSP: 0018:ffffa389886ffde8 EFLAGS: 00050206
[332.057623] RBP: 000000c000100000 R08: 0000000000000000 R09: 0000000000000000
[332.057624] RBP: 00007eff08808f10 R08: 00007eff08809700 R09: 00007eff08809700
[332.057625] R10: ffff8bfb1690b810 R11: ffff8bfb1f01a6c8 R12: ffff8bfaee04af80
[332.057626] R10: 00007eff088099d0 R11: 0000000000000246 R12: 0000000000000000
[332.057627] R13: 0000000000000000 R14: 0000000000000000 R15: 0000000000000000
[332.057628] R13: 0000000000801000 R14: 0000000000000000 R15: 00007eff08809700
[332.057630] _copy_to_user + 0x2 2/0x30
[332.057631] RAX: 000000c000100090 RBX: ffffa389886ffea8 RCX: 0000000000000090
[332.057632] cp_new_stat + 0x1 3d/0x160
[332.057633] RDX: 0000000000000090 RSI: ffffa389886ffdf8 RDI: 000000c000100000
[332.057634] RBP: 000000c000100000 R08: 0000000000000000 R09: 0000000000000000
[332.057635] __se_sys_newfstat + 0x 2e/0x40
[332.057636] R10: ffff8bfb1690ad10 R11: ffff8bfb1f01a6c8 R12: ffff8bfaee048000
[332.057637] do_syscall_64 + 0x 5b/0x1b0
[332.057638] R13: 0000000000000000 R14: 0000000000000000 R15: 0000000000000000
[332.057640] entry_SYSCAL_64_after_hwframe + 0x4 4/0x a9
[332.057642] _copy_to_user + 0x2 2/0x30
[332.057643] RIP: 0033:0x7eff1b11e3a4
[332.057645] cp_new_stat + 0x1 3d/0x160
[332.057646] コード: 00 f7 d8 64 89 02 48 83 c8 ff c3 66 2e 0f 1f 84 00 00 00 00 00 90 ff 01 89 f0 77 48 63 f8 89 d6 b8 05 00 00 0f 05 <48> 3d 00 ff f0 ff 77 18 f3 c3 66 90 48 8b 05 99 7a 2d 00 64 c7 00 00
[332.057647] __se_sys_newfstat + 0x 2e/0x40
[332.057648] RSP: 002b:00007eff08007ed8 EFLAGS: 00000246 ORIG_RAX: 0000000000000005
[332.057651] do_syscall_64 + 0x 5b/0x1b0
[332.057652] RAX: ffffffffffffda RBX: 0000000000000000 RCX: 00007eff1b11e3a4
[332.057654] entry_SYSCAL_64_after_hwframe + 0x4 4/0x a9
[332.057655] RDX: 000000c000100000 RSI: 000000c000100000 RDI: 000000000000002e
[332.057656] RIP: 0033:0x7eff1b11e3a4
[332.057657] RBP: 00007eff08007f10 R08: 00007eff08008700 R09: 00007eff08008700
[332.057658] コード: 00 f7 d8 64 89 02 48 83 c8 ff c3 66 2e 0f 1f 84 00 00 00 00 00 90 ff 01 89 f0 77 48 63 f8 89 d6 b8 05 00 00 0f 05 <48> 3d 00 ff f0 ff 77 18 f3 c3 66 90 48 8b 05 99 7a 2d 00 64 c7 00 00
[332.057659] R10: 00007eff080089d0 R11: 0000000000000246 R12: 0000000000000000
[332.057660] RSP: 002b:00007eff07806ed8 EFLAGS: 00000246 ORIG_RAX: 0000000000000005
[332.057662] R13: 0000000000801000 R14: 0000000000000000 R15: 00007eff08008700
[332.057663] RAX: ffffffffffffda RBX: 0000000000000000 RCX: 00007eff1b11e3a4
[332.057663] RDX: 000000c000100000 RSI: 000000c000100000 RDI: 000000000000001e
[332.057664] RBP: 00007eff07806f10 R08: 00007eff07807700 R09: 00007eff07807700
[332.057665] R10: 00007eff078079d0 R11: 0000000000000246 R12: 0000000000000000
[332.057665] R13: 0000000000801000 R14: 0000000000000000 R15: 00007eff0780770 0
原因
デフォルトでは、Alibaba Cloud Linux ECSインスタンスでトランスペアレント巨大ページ (THP) 機能が有効になっています。 メモリのガベージコレクション (GC) 中に、システムはMADV_NOHUGEPAGEを呼び出してTHP機能を無効にし、MADV_FREEを呼び出して4KBサイズのページをいくつかリリースし、オペレーティングシステムの透明な巨大ページをカットします。 他のカーネルプロセスでページフォルト例外が発生した場合、ページはCPUリソースを占有し、透過的な巨大ページをカットするスケジューリングプロセスを完了することができません。 このプロセスは中断され、終了できません。 ページフォールトのプロセスは、透明な巨大なページを切断するプロセスが終了するのを常に待機し、ソフトロックにつながります。 Alibaba Cloud Linuxインスタンスが /proc/sys/kernel/softlockup_panicで設定されている場合、SOFT LOCKUPはカーネル障害をトリガーします。
説明
以下の点にご注意ください。
- インスタンス設定やデータの変更などのリスクの高い操作を実行する前に、データのセキュリティを確保するために、インスタンスのディザスタリカバリ機能とフォールトトレランス機能を確認することを推奨します。
- ECSやApsaraDB RDSインスタンスなどのインスタンスの設定とデータを変更できます。 インスタンス設定またはデータを変更する前に、スナップショットを作成するか、RDSログバックアップを有効にすることを推奨します。
- ユーザーに権限を付与した場合、またはAlibaba Cloud管理コンソールでログオンアカウントやパスワードなどの機密情報を送信した場合は、情報をタイムリーに変更することを推奨します。
次の手順を実行して、問題をトラブルシューティングできます。
- ECS インスタンスにログインします。 詳細については、「概要」をご参照ください。
- 次のコマンドを実行して、次のソリューションのいずれかがシステムカーネルのバージョンに適用できるかどうかを確認します。
次のような出力が返される場合、次のソリューションのいずれかがシステムカーネルのバージョンに適用されます。uname -r4.19.91-19.1.al7.x86_64 - システムカーネルのバージョンに基づいて、次のいずれかのソリューションを選択します。
- 4.19.91-19.1.al7.x86_64より前のカーネルバージョンの場合、次の手順を実行できます。
- 次のコマンドを実行して、オペレーティングシステムのカーネルを最新バージョンに更新します。
yum update kernel - 次のコマンドを実行して、新しいカーネルバージョンを有効にするためにサーバーを再起動します。
reboot - 問題が解決しない場合は、次のコマンドを実行してカーネルのホットパッチをインストールします。
- 次のコマンドを実行して、オペレーティングシステムのカーネルを最新バージョンに更新します。
- V4.19.91-19.1.al7.x86_64からal7.x86_64までのカーネルバージョンの場合、次のコマンドを実行してカーネルのホットパッチをインストールできV4.19.91-23。
yum install -y kernel-hotfix-5902278-'uname -r | awk -F "-" '{print $NF}''
- 4.19.91-19.1.al7.x86_64より前のカーネルバージョンの場合、次の手順を実行できます。
適用範囲
- ECS