nuomiphp
正在加载…
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
腾讯云发布 0408 故障报告
zmzeng12
API 不兼容导致了事故,但灰度机制不足才导致事故扩大到了全网。
hongfs
贴一下去年阿里云
https://help.aliyun.com/noticelist/articleid/1064981333.html
crackidz
挺好的,发一个故障分析,起码态度到位了
okaysir
复杂度提升导致崩溃度增加。国内 IT 界甚至这届人类体系都是这趋势。
xmumiffy
“期间共有 1957 个客户报障” 控制台都打不开了,是怎么报障的,只有有客户经理的才能算受到影响?
yanpj1992
xmumiffy
估计工单系统还正常吧
totoro52
有人要打包走人了
xmumiffy
yanpj1992
工单在控制台里面,整个控制台当时都 502/504/internal error 了
StinkyTofus
alanhe421
#8 没有用的, 谁都知道问题的解决办法, 但是随着人员流动, 系统越来越庞大, 所有的机制都会维护不到位。
caqiko
题外话,你们的 100 元代金券到账了吗?
dys0327
caqiko
#17 没有
huixia0010
caqiko
并没有
saveai
caqiko
没有,我问了客服,他们说未受到影响。。。。
frankilla
xmumiffy
#12 我当时就用的在线客服报障的啊
weeei
xmumiffy
我们是通过企业微信群报的
panisertoller
xmumiffy
api 错误会被系统统计到,所以可以得到错误人数,再加上后续主动报障的工单。就算出来了。
Hopetree
我看了一个文章,是关于服务状态监控的,他们的服务状态监控就是个摆设,状态有延迟也就算了,还不全(比如服务 A 挂了也影响到了 B ,他们的状态里面没有显示 B 的异常)
gotosre
Hopetree
摆设, 肯定是摆设, 1. 状态不及时更新 2. 对外公布异常/故障要层层审批
xiaket
相比于国外厂商的 PIR, 这个故障分析很是避重就轻, 避实就虚.
Yuesh1
xiaket
不知道为什么在周末发,希望不是我的恶意揣测
louisxxx
同时回滚到旧版本,并重启 API 后台服务,但此时因为承载 API 服务的容器平台也依赖 API 服务才能提供调度能力,即发生了循环依赖。
这是哪个脑残设计的自己把自己锁死在房间里的架构?
GenericT
louisxxx
不都这样吗?还记得 Facebook 不,机房的锁也是内网控制的,内网挂了机房连门都进不去。
GarethChu
100 元代券都还没到账
xierqii
互联网公司循环依赖太常见了。比如去年 yuque 故障、阿里云故障、滴滴故障,其背后都和循环依赖有关系。一个关键服务挂掉后,其他服务没法直接恢复。
wheat0r
GenericT
#24 cf 去年 11 月 PDX-04 停电故障,据说配电室门禁是由配电室供电的
odifjg9384hg
没进过大厂, 不知道他们备份机制是怎么样的, 我们上线前都会备份当前版本为 docker1, 即将上线的版本是 docker2, 上线完成后的版本是 docker3, 出现依赖问题就全部回滚为 docker1, 几年从没出过问题
hancai2
odifjg9384hg
报告里面说了都嘛,回滚依赖于平台的 API ,而 API 又故障了,最终是靠运维手动回滚的。 你们公司应该就是纯手工回滚 docker2 , 就不存在这种循环依赖了。
frankilla
之前不是有人在吹外国怎么怎么样,国内怎么怎么样。。。听的我直犯恶心,现在腾讯发问了,不知道这类人怎么回复。
Rehtt
frankilla
这个吗 https://s.v2ex.com/t/1030870
esee
100 代金券说好要给,最后都不舍得给,抠门的要死
kun775
esee
是的,拖了 5 天,最后说故障期间没有登录记录,不给券,RTM ,我打算迁移服务到阿里云了
« 上一页
下一页 »