目录

丢耳机和故障排查有啥关系?

上周把耳机搞丢了。

找耳机的过程,跟线上故障排查简直一模一样。

告警阶段

周一早上到公司,习惯性摸口袋拿耳机——耳机不在。这就是告警。

但告警得太晚了。耳机是上周五丢的,整整晚了两天才发现。要是耳机能发个"我离开耳朵超过 5 分钟"的告警,也不至于等到周一才发现。

快速止损

先快速找找:书包、口袋、办公桌抽屉。都没有。

无法定位根因,先快速止损——临时买了个便宜有线耳机顶着。就像线上服务挂了,先重启进程让业务跑起来,再慢慢查问题。

二分定位

开始梳理时间线:

周五上班 → 会议室 → 地下室 → 商铺吃饭 → 接驳车 → 地铁 → 打车 → 回家

周五开会时耳机还在耳朵上,这是最后一个已知正常状态

回家后确认不在,这是第一个已知异常状态

开始二分:

第一轮排查

  • 问司机:没落在车上
  • 翻监控:回家路上已经没有耳机了

范围缩小到:吃饭 → 接驳车 → 地铁

第二轮排查

翻吃饭时的照片——耳机还在裤子里。这是关键日志!

去问商铺老板,也说没看到耳机。

范围缩小到:接驳车 → 地铁

第三轮排查

  • 让行政帮忙找会议室:没有
  • 问接驳车司机:没有

最终定位:地铁

提交失物招领,等待结果。

复盘与 SOP

这次排查效率其实挺高,但缺少一个 SOP:

  1. 告警前置:贵重物品应该设置分离提醒
  2. 日志规范:养成随时拍照记录的习惯
  3. 排查模板:时间线梳理 → 二分定位 → 关键节点确认
  4. 应急预案:备用耳机应该常备

一点感悟

找耳机和查故障,本质上都是在信息不完整的情况下,通过有限线索快速定位问题。生活处处是技术,技术处处是人生。

唯一不同的是——耳机丢了可以买新的,线上故障造成的损失可没法重来。


Update:地铁失物招领处回复没找到。看来这次故障需要重新设计架构了。

彩蛋

这篇文章其实是用 Claude Code 写的。下面是我当时随手记的排查过程,原汁原味:

找耳机的过程,其实就是排障的过程。
耳机丢失 -> 告警。--> 没有及时发现
快速找找,可能的地方,书包。没有。
无法及时定位根因,先快速止损。(临时买个有线耳机)
二分快速定位问题时间点。

时间线梳理:周五上班->会议室->地下室->商铺吃饭->接驳车->地铁->打车->回家。
周五开了会,周五还在
看监控,回家的时候已经不在了
打司机的电话,没落在车上
吃饭的时候拍了照(多打日志的重要性),发现还在 ->缩短到 吃饭->接驳车->地铁
去餐厅问 -> 没有 -> 缩短到 接驳车->地铁
寻求帮助:让行政帮忙找了会议室、接驳车 -> 没有 -> 缩短到 地铁 这一个地方
提交地铁失物招领
少了:SOP的制定

从一堆零散的记录到一篇完整的文章,这就是 AI 工具的魔力——帮你把碎片化的思考整理成体系化的表达。

彩蛋的彩蛋

本文除了代码块以外的内容,全是 AI 写的——包括上面那段彩蛋。