
赴杭、记一次阿里现场故障处理的出差
首先声标题没有打错、也不包含任何付航
写在前面
博主是某互联网小厂的实施运维工程师,负责实施交付私有化软件系统,博主的公司是一家在线saas平台,购买方案中提供私有化部版本部署与运维,其中客户包含阿里巴巴
本文记录分享了一次客户(阿里)私有化线上环境发生故障后博主出差前往现场处理解决的过程与感想
大致过程
周五临近下班的时候,客服收到用户问题反馈,博主团队介入排查,第一次定位了问题原因并执行了缓解操作,开始对问题梳理根除方案
次周周一,高峰时期仍然有客户上报问题,博主团队经过排查没有具体进展,考虑从扩容资源的角度出发,于当晚和客户侧运维协同完成了扩容操作
周二,高峰期客户仍然上报问题,再次排查后定位到了本次故障的客因之一,实施了修复,同时随高峰期退去,情况好转
周三,上午对以上故障进行了第一次复盘,下午高峰期仍然收到客户问题,当晚再次进行了资源扩容与近期更新的回滚(避免业务因素),同时派博主前往客户现场进行处理
周四,博主抵达杭州阿里总部,上午在博主出差路上的这段时间由Team leader继续远程跟进排查,找到了人工手动运维缓解的方法,下午博主开始在现场进行人工运维缓解故障,同时博主在现场,Team leader在线上和阿里、阿里云相关同学共同进行问题排查,其中包含P8大佬,最终在晚上定位到事故根因,磁盘故障、需要文件迁移
周五,博主再次人肉运维了一天,同时和阿里同学准备文件迁移的物料与方案,随后在下午低峰期后台启动了全量迁移任务
周六,上午查看迁移任务已经完成,比预期快了1/3的时间,随后抓紧梳理了增量迁移和切换方案并执行,于晚上凌晨1点和内部团队完成迁移回归
周日,西湖边逛了逛
这不是博主第一次现场处理故障,也不算第一次来杭州,却是第一次到杭州的阿里总部,这次的故障一方面让博主和团队归档了很多经验教训,一方面让博主本人开阔了眼界,见识到了阿里工作流程的完善、沟通、协同的效率,这些经验博主会好好思考如何提炼与总结,运用到团队与岗位上
照片留念
博主到访的位置是阿里西溪园区的C区,单单C区都超级大,由于时间原因,博主仅在园区内1/10的地方简单看了看。下面是访客大厅、马云小屋的一些照片:
访客大厅门外
访客大厅前台
访客大厅楼梯
访客大厅咖啡角
马云小屋
更多照片可在 图片册-旅行 内查看
- 感谢你赐予我前进的力量