天才一秒记住【热天中文网】地址:https://www.rtzw.net
雨还没下出来,空气闷得发黏。
还没人意识到真正的问题有多大。
到了晚上十一点半。
韩路一睡前又刷了一眼微博。
掛了两天的话题#鼎盛推荐系统崩了#,热度已经下去了。
一个新的话题,#鼎盛崩了#,衝到了热搜第一。
他点进去。
二十分钟前,鼎盛系三款核心app集体闪退,用户打开就白屏。
推荐系统的崩溃没有触发熔断。
坏掉的模块像传染病一样顺著调用链往上爬,拖垮了依赖它的內容分发、搜索、首页加载,最后整条链路全死了。
十一点十五分鼎盛发了紧急公告。
十一点四十分,app陆续恢復上线,他们手动把推荐系统整个切掉了。
微博上有人贴了恢復后的截图。
首页乾乾净净,没有“猜你喜欢”
,没有个性化推荐,没有千人千面。
就一个光禿禿的货架。
“这是2015年的app吧?”
“鼎盛的推荐系统呢?去哪了?”
“切了。
不切整个app都用不了,你选哪个?”
韩路一打开视界。
【事件性质:系统级故障(无熔断→全链路雪崩)】
【根因:画像格式不適配→解析异常堆积→內存泄漏触发oom→数据管道断裂→23%用户画像错乱→推荐模块崩溃未熔断→级联击穿全链路】
【影响范围:宕机期间全量用户(峰值约1200万在线),当前降级运行中】
【当前状態:手动切断推荐模块,app降级运行】
【预测恢復周期:版本回退至原架构,约14天】
跟他的判断一模一样。
三月中旬他扫那个外包需求时看到的d-评级,一百四十个bug,就指向这个结局。
当时看到的是七十二小时。
从周一上午全量上线到周二晚上全线崩溃,还不到四十八小时。
比原本预估的还快了一天。
……
天亮之后的事,像多米诺骨牌。
有人翻出了韩路一一个月前那篇《推荐系统架构改造的七个经典陷阱》,发了一条帖子——
“兄弟们!
nullpointer是预言家!
一个月前精准描述了鼎盛今天的崩溃路径,七个陷阱全踩了!”
“什么预言家,是重生者!”
“不是全踩。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!