最近遇到一个服务器(Ubuntu Server 18.04 LTS 64位)负载几千的值,但是CPU使用率并不是很高。如下图:
一开始以为是平台显示问题,但是远程到服务器以后,发现服务器就是这么高的负载值:
实际上也没有什么等待CPU的进程:
过了十多分钟这个负载值还在增加:
感觉这个系统负载出现了bug,是在叠加,根据1分钟、5分钟和15分钟最近三十天的监控数据,发现负载快到1万的时候,就会重新叠加计算。
提交了工单,让售后帮忙分析是什么原因,但是他们也找不到原因。
第二天发现负载重新开始叠加了:
但是平台历史负载监控显示并不是从0开始重新叠加的:
无意间发现另外一个dev环境的服务器也是一样的问题:
直接重启了这台dev的服务器以后就正常了:
第一次遇到这么离奇的事情,个人猜测是有什么bug导致,大概率是zombie进程的问题。