cpu 使用率高告警处理
一、报警内容
时间: 2022-04-28 16:26:35
状态: 异常
指标: cpu 使用率高
当前共1个,异常1个,新增影响1个
影响机器:
IP: 10.214.* 当前值: 9.3592
二、可能影响
- 造成线上业务游戏卡顿
- 机器死机
三、问题定位
- 一般原因是因为部署了超过CPU核心数的游戏进程
四、处理方式
- 检查机器的cpu核心数,部署适当的游戏进程
(1)登入对应机器,执行以下命令,检查机器的CPU核心数 lscpu | grep "CPU(s)" | head -1 (2)检查机器的游戏进程数,看是否超过CPU的核心数,如果是,则减少游戏进程 (3)若游戏火爆,是16核心数的机器,可找运营大佬,申请升级规格,否则申请新增机器
- 如果机器已经卡死,则向运营大佬反馈情况,之后由运营大佬提单到SRE处理;
ps.强烈建议一台机器不要部署超过cpu数的game进程