服务器时间同步我一直使用的cn.ntp.org.cn,使用了差不多五六年的时间一直没有出现过问题。
ntp.org.cn也不是什么盈利组织创办,能提供这样的免费服务,实属不易。
但是今天早上出现的灾难性故障,不得不使我更换ntp服务器地址。
早上起床查看钉钉报警就是各种服务状态不稳定的告警,由于是非生产环境,本身会自动重启,所以就没有在意,打算去公司以后再具体查看原因。
可是还未到公司就接到电话说生产环境创建的订单时间全部为2000年,一开始还不相信(因为所有服务器都有时间同步),到公司以后登陆服务器查看,好几台服务器时间的确变为了2000年。
导致的结果就是:
1、线上业务出现操作报错。
2、日志系统无法正常查询今天的部分日志。
3、新增的订单时间全部为2000年。
4、监控数据缺失。
5、大部分业务功能基本处于不可用状态。
然后马上找了一个可用节点手动进行同步,时间正常以后,再修复数据库时间错误的记录。
最后找到了阿里云提供的NTP服务器,进行所有服务器的地址替换。
到此此次故障才得以完全解决。
故障解决以后,去查看监控数据,发现今天凌晨4点10分左右开始就出现监控数据断断续续丢失的情况。
经排查发现是由*方糖科技*提供的节点223.113.103.191故障导致的时间同步出现错误。
由于DNS解析原因,有些服务器会间断的解析到223.113.103.191导致故障,这个从监控数据的丢失就看得出来。
最后推荐几个NTP服务器地址:
阿里云内网(专有网络VPC内网):ntp.cloud.aliyuncs.com,这个服务器地址阿里云是这样介绍的:
ntp.cloud.aliyuncs.com服务器提供分布式的一级时钟源,适用于金融、通讯、科研和天文等以时间精度核心的生产行业。
腾讯云内网:
time1.tencentyun.com
time2.tencentyun.com
time3.tencentyun.com
time4.tencentyun.com
time5.tencentyun.com
公网:
阿里云:
ntp.aliyun.com
ntp1.aliyun.com
ntp2.aliyun.com
ntp3.aliyun.com
ntp4.aliyun.com
ntp5.aliyun.com
ntp6.aliyun.com
ntp7.aliyun.com
腾讯云:
time1.cloud.tencent.com
time2.cloud.tencent.com
time3.cloud.tencent.com
time4.cloud.tencent.com
time5.cloud.tencent.com
其他还有很多教育机构的NTP服务器,这里就不列出来了,毕竟阿里和腾讯云属于商业机构,为自己产品提供的时间同步服务稳定性和精度是有保障的。