本人工作6人,负责过基础平台众多产品,踩坑无数
现根据回忆总结下遇到的坑与如何才能避开这些坑的方法
通知
- 被依赖中间件或运维做任何服务端改动需通知
项目发布
- 发布必须紧跟线上涉及系统的监控情况,有情况里面回滚
- 灰度必须逐步放量,不可着急,留够时间
- 禁止周六发布功能,只能发布紧急故障修复
项目开发
- 灰度控制必须加对比监控
- 禁止加入最新中间件与运维产品,不吃螃蟹
- 慢SQL禁止,必须看自己表索引是否增加
- 对关键case做单元测试,web也要,要验证数据的正确性
日常
- 自动清理日志脚本
- 线上异常日志需要实时关注
- web需要打印出请求的头信息便于追踪
- 三方渠道需要管理,提前做好数量问题、打通准备
- 提供接口调用文档,列出哪些禁止行为,比如私自遍历uid调用