由于证书的实效限制,因证书过期忘记更换出现的故障屡见不鲜,而且影响都比较严重,用户量越大,灾难性越强。 既然大家都知道证书的破坏力,那么为什么过期问题还是前仆后继的
由于证书的实效限制,因证书过期忘记更换出现的故障屡见不鲜,而且影响都比较严重,用户量越大,灾难性越强。
既然大家都知道证书的破坏力,那么为什么过期问题还是前仆后继的出现呢?
分析看,一来证书是一个正常时期少有人关注的东西,只有过期了才知道他的破坏力,容易忽视轻敌。二来在互联网企业,随着业务线的增长,证书可能成百上千,再加上最初的使用没有做好规划,在这个背景下,叠加业务调整、人员流动,证书一多管理上的漏洞马上被触发,特别是有些完全依靠纯人肉管理的更是极不靠谱。
在小爱,我们结合巡检(运维中台)+告警(open-falcon)的方式来管理证书,按周巡检,并且把证书巡检设计到了小爱运维中台,杜绝一切漏网之鱼,业务巡检界面如下(感谢兴耀同学的开发付出),我们对所有证书剩余天数做了top排序,并进行了异常标色,黄色代表要开始关注了(<30天过期),红色(<15天过期)代表要重点关注着手处理了:
这样还是不够的,比如说证书本身没过期,但域名下面有多个vip,其中有一个vip的证书忘记更新了,这时巡检会产生的效果图如下:
可以看到红框圈起来的vip证书还有3天过期,但其他的vip还有690天过期,有个vip成了漏网之鱼,巡检发现后立马处理。
在制度设计上,每周一由oncall同学进行巡检,并将要更新的证书通过jira分发下去,负责更新的同学更新后再到这儿DoubleCheck形成闭环,通过这套组合拳,证书忘记更新的问题基本不再担心,希望对现在的你有所帮助。
©本站文章(技术文章和tank手记)均为社长"矢量比特"工作.实践.学习中的心得原创或手记,请勿转载!
欢迎扫描关注微信公众号【运维网咖社】
社长"矢量比特",曾就职中软、新浪,现任职小米,致力于DevOps运维体系的探索和运维技术的研究实践. |