nuomiphp
正在加载…
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
腾讯云发布 0408 故障报告
kincaid
hugi
人家运维公司说不清楚,不知道有没有当时的大佬现身说法了,https://news.sina.cn/gn/2021-12-22/detail-ikyamrmz0473496.d.html
standchan
跟滴滴的那个有点像,升级出现问题后回滚困难。强行回滚时候又发现互相依赖的问题。
BeiChuanAlex
随着时间的发展,人员不断流动,系统越来越大,业务越来越复制,代码越来越多,数据越来越多,导致的结果就是没人能了解全局了,所以这肯定不是最后一次故障,以后还是会有的。
w3cll
BeiChuanAlex
那就重构 🐶
weijancc
结果是因为升级 API 导致的... 是不是该抓一个程序员来祭天
kincaid
weijancc
yysy 拉个程序员祭天意义不大 hhh
alanhe421
循环依赖的解决办法不就是再引入一个 C ,解开 AB 的相互依赖?
StinkyTofus
alanhe421
#8 没有用的, 谁都知道问题的解决办法, 但是随着人员流动, 系统越来越庞大, 所有的机制都会维护不到位。
tigerstudent
alanhe421
#8 那以后的 C ,不就成了现在的 B ?
zmzeng12
API 不兼容导致了事故,但灰度机制不足才导致事故扩大到了全网。
hongfs
贴一下去年阿里云
https://help.aliyun.com/noticelist/articleid/1064981333.html
crackidz
挺好的,发一个故障分析,起码态度到位了
okaysir
复杂度提升导致崩溃度增加。国内 IT 界甚至这届人类体系都是这趋势。
xmumiffy
“期间共有 1957 个客户报障” 控制台都打不开了,是怎么报障的,只有有客户经理的才能算受到影响?
yanpj1992
xmumiffy
估计工单系统还正常吧
totoro52
有人要打包走人了
xmumiffy
yanpj1992
工单在控制台里面,整个控制台当时都 502/504/internal error 了
caqiko
题外话,你们的 100 元代金券到账了吗?
dys0327
caqiko
#17 没有
huixia0010
caqiko
并没有
saveai
caqiko
没有,我问了客服,他们说未受到影响。。。。
frankilla
xmumiffy
#12 我当时就用的在线客服报障的啊
weeei
xmumiffy
我们是通过企业微信群报的
panisertoller
xmumiffy
api 错误会被系统统计到,所以可以得到错误人数,再加上后续主动报障的工单。就算出来了。
Hopetree
我看了一个文章,是关于服务状态监控的,他们的服务状态监控就是个摆设,状态有延迟也就算了,还不全(比如服务 A 挂了也影响到了 B ,他们的状态里面没有显示 B 的异常)
gotosre
Hopetree
摆设, 肯定是摆设, 1. 状态不及时更新 2. 对外公布异常/故障要层层审批
xiaket
相比于国外厂商的 PIR, 这个故障分析很是避重就轻, 避实就虚.
Yuesh1
xiaket
不知道为什么在周末发,希望不是我的恶意揣测
louisxxx
同时回滚到旧版本,并重启 API 后台服务,但此时因为承载 API 服务的容器平台也依赖 API 服务才能提供调度能力,即发生了循环依赖。
这是哪个脑残设计的自己把自己锁死在房间里的架构?
GenericT
louisxxx
不都这样吗?还记得 Facebook 不,机房的锁也是内网控制的,内网挂了机房连门都进不去。
GarethChu
100 元代券都还没到账
下一页 »