4 月 8 日騰訊云出現(xiàn)大范圍故障,騰訊此次故障主要影響產(chǎn)品控制臺(tái)例如用戶無(wú)法通過(guò) Web 界面對(duì)服務(wù)器或其他產(chǎn)品進(jìn)行操作,云公原因當(dāng)然由于是布月并產(chǎn)鄭州二七外圍女兼職伴游服務(wù)vx《192-1819-1410》提供外圍女上門(mén)服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá) API 問(wèn)題實(shí)際上也無(wú)法通過(guò) API 執(zhí)行各類操作。
此次故障對(duì)于服務(wù)器等產(chǎn)品本身是日大容性沒(méi)有影響的,即服務(wù)器仍然是范圍正常運(yùn)行的只不過(guò)用戶無(wú)法執(zhí)行操作,其他產(chǎn)品例如 CDN 和域名解析等也是故障同理。

昨天騰訊云公眾號(hào)發(fā)布 4 月 8 日的升級(jí)生兼生循故障復(fù)盤(pán)及情況說(shuō)明,簡(jiǎn)單來(lái)說(shuō)是問(wèn)題發(fā)布新版 API 時(shí)出現(xiàn)了兼容性錯(cuò)誤:
故障的直接原因是云 API 服務(wù)行版本向前兼容性考慮不夠和配置數(shù)據(jù)灰度機(jī)制不足的問(wèn)題。本次 API 升級(jí)過(guò)程中,環(huán)依鄭州二七外圍女兼職伴游服務(wù)vx《192-1819-1410》提供外圍女上門(mén)服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)由于新版本的賴藍(lán)接口協(xié)議發(fā)生變化,在后臺(tái)發(fā)布新版本之后對(duì)于舊版本前端傳來(lái)的點(diǎn)網(wǎng)數(shù)據(jù)處理邏輯異常,導(dǎo)致生成了一條錯(cuò)誤的騰訊配置數(shù)據(jù)。
由于灰度機(jī)制不足導(dǎo)致異常數(shù)據(jù)快速擴(kuò)散到了全網(wǎng)地域,云公原因造成整體 API 使用異常。布月并產(chǎn)
然后還有循環(huán)依賴問(wèn)題:
發(fā)生故障后按照標(biāo)準(zhǔn)回滾方案將服務(wù)后臺(tái)和配置數(shù)據(jù)同時(shí)回滾到舊版本并重啟 API 后臺(tái)服務(wù),日大容性但此時(shí)因?yàn)槌休d API 服務(wù)的容器平臺(tái)也依賴 API 服務(wù)才能提供調(diào)度能力,即發(fā)生了循環(huán)依賴 (需要安裝 WinRAR 時(shí)下載網(wǎng)站給你了個(gè) WinRAR.rar)
發(fā)生循環(huán)依賴的后果就是服務(wù)無(wú)法自動(dòng)拉起,最終運(yùn)維通過(guò)手工啟動(dòng)方式才讓 API 服務(wù)重啟,完成了整個(gè)故障的恢復(fù)。
針對(duì)此次問(wèn)題騰訊云也汲取教訓(xùn)制定了改進(jìn)措施:
改進(jìn)措施里就有針對(duì)循環(huán)依賴問(wèn)題的解決方案,包括提供優(yōu)化服務(wù)部署架構(gòu),通過(guò)分層架構(gòu)、代碼審查和監(jiān)控等手段,避免 API 服務(wù)中存在的循環(huán)依賴問(wèn)題。
同時(shí)還要提供 API 服務(wù)逃生通道,當(dāng)故障發(fā)生后可以提供調(diào)用方法快速切換。
針對(duì) Status 頁(yè)面的透明度問(wèn)題:
透明度問(wèn)題目前是國(guó)內(nèi)云計(jì)算提供商都存在的問(wèn)題,即問(wèn)題發(fā)生后狀態(tài)頁(yè)面還顯示一切正常,這讓很多用戶看了狀態(tài)頁(yè)后以為是自己?jiǎn)栴}。
騰訊云此次故障狀態(tài)頁(yè)同樣沒(méi)有及時(shí)更新,原因是狀態(tài)頁(yè)也依賴 API,但此時(shí) API 已經(jīng)寄了,所以騰訊云計(jì)劃將狀態(tài)頁(yè)解除對(duì)云 API 等云服務(wù)的依賴,確保云服務(wù)故障時(shí)狀態(tài)頁(yè)依然能準(zhǔn)確及時(shí)傳遞 故障信息。




.gif)
.gif)
.gif)
.gif)
.gif)
.gif)
.gif)
.gif)
.gif)
.gif)



