nuomiphp
正在加载…
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
腾讯云发布 0408 故障报告
BeiChuanAlex
随着时间的发展,人员不断流动,系统越来越大,业务越来越复制,代码越来越多,数据越来越多,导致的结果就是没人能了解全局了,所以这肯定不是最后一次故障,以后还是会有的。
w3cll
BeiChuanAlex
那就重构 🐶
weijancc
结果是因为升级 API 导致的... 是不是该抓一个程序员来祭天
kincaid
weijancc
yysy 拉个程序员祭天意义不大 hhh
alanhe421
循环依赖的解决办法不就是再引入一个 C ,解开 AB 的相互依赖?
StinkyTofus
alanhe421
#8 没有用的, 谁都知道问题的解决办法, 但是随着人员流动, 系统越来越庞大, 所有的机制都会维护不到位。
tigerstudent
alanhe421
#8 那以后的 C ,不就成了现在的 B ?
zmzeng12
API 不兼容导致了事故,但灰度机制不足才导致事故扩大到了全网。
hongfs
贴一下去年阿里云
https://help.aliyun.com/noticelist/articleid/1064981333.html
crackidz
挺好的,发一个故障分析,起码态度到位了
okaysir
复杂度提升导致崩溃度增加。国内 IT 界甚至这届人类体系都是这趋势。
xmumiffy
“期间共有 1957 个客户报障” 控制台都打不开了,是怎么报障的,只有有客户经理的才能算受到影响?
yanpj1992
xmumiffy
估计工单系统还正常吧
totoro52
有人要打包走人了
xmumiffy
yanpj1992
工单在控制台里面,整个控制台当时都 502/504/internal error 了
caqiko
题外话,你们的 100 元代金券到账了吗?
dys0327
caqiko
#17 没有
huixia0010
caqiko
并没有
saveai
caqiko
没有,我问了客服,他们说未受到影响。。。。
frankilla
xmumiffy
#12 我当时就用的在线客服报障的啊
weeei
xmumiffy
我们是通过企业微信群报的
panisertoller
xmumiffy
api 错误会被系统统计到,所以可以得到错误人数,再加上后续主动报障的工单。就算出来了。
Hopetree
我看了一个文章,是关于服务状态监控的,他们的服务状态监控就是个摆设,状态有延迟也就算了,还不全(比如服务 A 挂了也影响到了 B ,他们的状态里面没有显示 B 的异常)
gotosre
Hopetree
摆设, 肯定是摆设, 1. 状态不及时更新 2. 对外公布异常/故障要层层审批
xiaket
相比于国外厂商的 PIR, 这个故障分析很是避重就轻, 避实就虚.
Yuesh1
xiaket
不知道为什么在周末发,希望不是我的恶意揣测
louisxxx
同时回滚到旧版本,并重启 API 后台服务,但此时因为承载 API 服务的容器平台也依赖 API 服务才能提供调度能力,即发生了循环依赖。
这是哪个脑残设计的自己把自己锁死在房间里的架构?
GenericT
louisxxx
不都这样吗?还记得 Facebook 不,机房的锁也是内网控制的,内网挂了机房连门都进不去。
GarethChu
100 元代券都还没到账
xierqii
互联网公司循环依赖太常见了。比如去年 yuque 故障、阿里云故障、滴滴故障,其背后都和循环依赖有关系。一个关键服务挂掉后,其他服务没法直接恢复。
wheat0r
GenericT
#24 cf 去年 11 月 PDX-04 停电故障,据说配电室门禁是由配电室供电的
下一页 »