微軟服務(wù)中斷原因公布:Azure測(cè)試正常上線(xiàn)后故障
昨天微軟大量在線(xiàn)服務(wù)尤其是商業(yè)性服務(wù)出現(xiàn)中斷,中斷持續(xù)時(shí)間從2019年11月20日 00:57 UTC到03:30 UTC。這些在線(xiàn)服務(wù)出現(xiàn)中斷的原因在于Microsoft Azure 故障,微軟大量服務(wù)全部都運(yùn)行在自家的共有云計(jì)算平臺(tái)上。所以在云計(jì)算平臺(tái)出現(xiàn)故障后這些在線(xiàn)服務(wù)無(wú)法訪問(wèn)其服務(wù)器和邊緣節(jié)點(diǎn),對(duì)于用戶(hù)發(fā)出的訪問(wèn)請(qǐng)求也無(wú)法處理。
測(cè)試期間未發(fā)現(xiàn)故障但上線(xiàn)后出現(xiàn)故障:
微軟公布的Microsoft Azure 云計(jì)算平臺(tái)故障初步調(diào)查結(jié)果顯示,安全入口出現(xiàn)故障導(dǎo)致數(shù)據(jù)無(wú)法交付邊緣節(jié)點(diǎn)。安全入口是微軟云計(jì)算平臺(tái)提供的安全可信的連接點(diǎn),所有數(shù)據(jù)通過(guò)這個(gè)入口進(jìn)入云計(jì)算平臺(tái)再分發(fā)到邊緣節(jié)點(diǎn)。微軟表示這個(gè)入口為該公司全局網(wǎng)絡(luò)提供邊緣緩存和網(wǎng)絡(luò)服務(wù),因此在出現(xiàn)故障后也影響到微軟大量的在線(xiàn)服務(wù)。該公司表示并非所有的服務(wù)都受到這次故障的影響,因?yàn)楸O(jiān)測(cè)到故障后部分服務(wù)啟動(dòng)故障自動(dòng)遷移得以快速恢復(fù)。而出現(xiàn)故障的安全入口在定期部署的初始安全檢查中并未出現(xiàn)問(wèn)題,于是微軟工程師將服務(wù)推送到生產(chǎn)環(huán)境運(yùn)行。
故障發(fā)生后該服務(wù)啟動(dòng)回滾:
監(jiān)測(cè)到故障后微軟工程師迅速將安全入口服務(wù)回滾到舊版本,在緊急故障無(wú)法找到原因時(shí)回滾是最快的解決辦法。微軟表示在2019年11月20日02:40UTC完成回滾流程 , 此后受影響的服務(wù)逐漸開(kāi)始恢復(fù)并在03:30UTC完成恢復(fù)。還有少部分在線(xiàn)服務(wù)的恢復(fù)時(shí)間比預(yù)期要長(zhǎng)因此用戶(hù)訪問(wèn)可能還有問(wèn)題,不過(guò)隨著時(shí)間的推移目前均已恢復(fù)正常。最后微軟表示將在72小時(shí)內(nèi)發(fā)布Microsoft Azure FrontDoor安全入口故障的詳細(xì)調(diào)查信息確定故障的具體原因。