容器升级内核及重启后遇到的问题

前景描述

公司10台物理服务器,系统为Redhat7.9,因安装K8S,需将内核升级至3.10.0-1060以上,并修改相关参数,否则会造成内存泄露问题。

操作步骤

需要用到的升级包及顺序如下

linux-firmware-20190429-72.gitddde598.el7.noarch.rpm

kernel-tools-libs-3.10.0-1062.4.1.el7.x86_64.rpm

kernel-tools-3.10.0-1062.4.1.el7.x86_64.rpm

kernel-headers-3.10.0-1062.4.1.el7.x86_64.rpm

kernel-devel-3.10.0-1062.4.1.el7.x86_64.rpm

kernel-3.10.0-1062.4.1.el7.x86_64.rpm

容器升级内核及重启后遇到的问题插图

问题汇总

  • 重启后服务器长时间无法SSH链接且无法PING通,登陆BMC控制台查看,发现已进入系统引导界面并卡在“start crash recovery kernel arming.ails.nt. certficates”
  • 通过卡主此行描述得知“Crash Recovery与kdump服务有关”,进行查阅资料得知需在/etc/default/grub中加入“crashkernel”参数
  • 我的服务器grub文件中未发现自动配置的“crashkernel=auto”参数,所以缺少此参数,故重启后停留在“start crash recovery kernel arming.ails.nt. certficates”界面。

Kdump服务及CrashKernel参数

kdump
  • 什么是kdump
    kdump是一种先进的基于 kexec 的内核崩溃转储机制。当系统崩溃时,kdump 使用 kexec 启动到第二个内核。第二个内核通常叫做捕获内核,以很小内存启动以捕获转储镜像。第一个内核保留了内存的一部分给第二内核启动用。由于 kdump 利用 kexec 启动捕获内核,绕过了 BIOS,所以第一个内核的内存得以保留。这是内核崩溃转储的本质。
  • 什么是Kexec?
    kexec 是一个快速启动kernel的机制,它运行在某一正在运行的kernel中,启动一个新的kernel(这里是crash kernel),而且不用重新经过BIOS 就可以完成启动。因为一般BIOS都会花费很长的时间,尤其是在大型并且同时连接许多外部设备的Server上的环境下,BIOS会花费更多的时间。
CrashKernel
  • 如果系统的内存 <= 8 GB 对kdump kernel不会保留任何内容;也就是说,crashkernel=auto 等于关掉了机器上的kdump功能。
  • 如果系统的内存 > 8 GB 但是 <= 16 GB,crashkernel=auto会保留256M,等同于crashkernel=256M;
  • 如果系统内存> 16GB, crashkernel=auto会保留512M, 等同于crashkernel=512M

解决方法

1.开机进入系统引导菜单界面,并进入单用户模式
2.进入单用户后进行如下操作:

mount -o remount,rw /sysroot
chroot /sysroot
vim /etc/default/grub

3.在lv或硬盘分区quiet前加入“crashkernel=512M”即可。

阅读剩余
THE END
诺言博客