在剛過去的2023年,運維圈發(fā)生了不少令人矚目的事件,尤其在年末各互聯(lián)網(wǎng)大廠猶如在玩一個“蘿卜蹲”的游戲,一個接一個地爆發(fā)了各種黑天鵝事件,造成了極大的影響。因此應(yīng)急災(zāi)備管理的建設(shè)與重要價值再一次在運維圈熱烈討論了起來,本篇我們將著重針對企業(yè)的信息系統(tǒng)應(yīng)急關(guān)鍵業(yè)務(wù)流程和活動進(jìn)行詳細(xì)說明。
01. 信息系統(tǒng)應(yīng)急災(zāi)備管理的關(guān)鍵業(yè)務(wù)價值流
說到信息系統(tǒng)應(yīng)急的業(yè)務(wù)價值流,其實非常簡單,就是“事前——事中——事后”,即“故障事前預(yù)防——故障事中調(diào)度——故障事后改進(jìn)”三個環(huán)節(jié),讓人很容易聯(lián)想到消防演練和消防救援的關(guān)系,沒錯,就是這么簡單的邏輯,如下圖所示:
通過上圖可以總結(jié)出 ,如果事前我們沒有做好充足的準(zhǔn)備工作,不進(jìn)行常態(tài)化的演練;如果對事故采取一種得過且過的態(tài)度,缺乏深入分析和必要的應(yīng)急能力,事故發(fā)生時,就會手足無措,當(dāng)火勢進(jìn)一步蔓延,導(dǎo)致財產(chǎn)更大的損失。相反,如果我們做好充足的預(yù)防,針對每一次演練及故障詳細(xì)分析、反思與總結(jié),才能讓組織具備完善的應(yīng)急能力,在故障發(fā)生時就會做到快速控制火勢蔓延,舉重若輕,了然于胸。
02. 信息系統(tǒng)應(yīng)急災(zāi)備管理的活動
站在應(yīng)急管理的視角來看:
通過以上兩層架構(gòu)我們可以看到,應(yīng)急的建設(shè)底座需要建設(shè)相應(yīng)的管理規(guī)范和組織能力,同時確保信息系統(tǒng)的底層IaaS支持相關(guān)的應(yīng)急或災(zāi)備活動,本次我們暫且不談;詳細(xì)聊一聊上層的各種對象,并沿著用戶旅程觀察所開展的具體活動。
1)故障事前預(yù)防
① 預(yù)案及場景的梳理及建設(shè)
實現(xiàn)應(yīng)急預(yù)案及場景的線上建設(shè),審批發(fā)布、跟蹤、留痕等管理,解決應(yīng)急預(yù)案及場景分散在各運維人員手中無統(tǒng)一歸檔、版本不一致等問題。
針對不同企業(yè)內(nèi)部的應(yīng)急組織,預(yù)案及場景大多情況下分為“業(yè)務(wù)線”“和“專業(yè)線”進(jìn)行管理,對應(yīng)企業(yè)內(nèi)部的應(yīng)用運維組和基礎(chǔ)架構(gòu)組等情況,因此在建設(shè)預(yù)案及場景的活動時,不僅需要考慮不同類型記錄的相關(guān)要素,也需要進(jìn)行權(quán)限控制。
② 自動化流程的編排
針對不同的場景,除了制定相應(yīng)的處置流程,還可以制定業(yè)務(wù)驗證流程,在應(yīng)急演練和任務(wù)執(zhí)行時,驗證自動化的可用性。
③ 應(yīng)急演練
為了讓所有的應(yīng)急成員能夠更好地掌握應(yīng)急知識,讓預(yù)案及場景長效保鮮,需要通過不同的形式進(jìn)行常態(tài)化演練。應(yīng)急用戶在平臺上上報演練計劃,并經(jīng)過審批,在相應(yīng)演練窗口進(jìn)行實戰(zhàn)演練/模擬演練/桌面演練,隨著演練場景的成熟,用戶可通過混沌工程、無損演練的方式,挖掘信息系統(tǒng)可能存在的風(fēng)險,提高系統(tǒng)的健壯性與穩(wěn)定性。
2)故障事中調(diào)度
① 故障發(fā)現(xiàn)
通過可觀測體系及時地發(fā)現(xiàn)系統(tǒng)故障,同時也為業(yè)務(wù)提供反饋渠道。
② 應(yīng)急響應(yīng)
通過應(yīng)急管理平臺頁面發(fā)現(xiàn)有異常事件,確認(rèn)業(yè)務(wù)影響范圍,并通過多維數(shù)據(jù)的匯聚和統(tǒng)計進(jìn)行分析,多維數(shù)據(jù)涵蓋近期是否有相關(guān)業(yè)務(wù)的變更,是否有高危操作,是否有歷史相同類似應(yīng)急場景,并立即進(jìn)行一次業(yè)務(wù)的健康性檢查,最終確定是否為應(yīng)急事件并啟動應(yīng)急流程。
③ 應(yīng)急會商
根據(jù)影響的業(yè)務(wù)及范圍,通過應(yīng)急組織或其他不同職責(zé)劃分,選取應(yīng)急處置人員,多渠道在線即時IM溝通,反饋問題及處置意見,解決在應(yīng)急組織過程中信息通知、共享方式分散的問題。
④ 應(yīng)急決策
根據(jù)啟動的應(yīng)急事件所展示的故障特征,啟動依據(jù)等要素,快速判斷是否有應(yīng)急場景及自動化處置流程與之匹配,如有,則快速執(zhí)行,驗證業(yè)務(wù)可用性;若沒有,則需快速討論出手動恢復(fù)方案,并確定處置風(fēng)險進(jìn)行故障上報。
⑤ 應(yīng)急通告
在故障處置環(huán)節(jié),需要定期以故障簡報機(jī)制定時反饋故障應(yīng)急進(jìn)展,直到故障完全恢復(fù),同步確定是否需要進(jìn)行輿情聯(lián)動,并進(jìn)行故障復(fù)盤準(zhǔn)備。
3)故障事后改進(jìn)
① 故障復(fù)盤
故障應(yīng)急結(jié)束后,應(yīng)當(dāng)在最短時間內(nèi)對故障根因、測試過程、變更過程和應(yīng)急過程進(jìn)行復(fù)盤,并列出改進(jìn)建議,持續(xù)跟蹤。例如故障定級,處置時間的長短等因素可能決定了故障的影響面和影響范圍,如果處置足夠快,可以允許故障等級降低級別,即故障等級低于事件等級,反之也可以提高故障等級。
故障復(fù)盤應(yīng)盡量實現(xiàn)不再發(fā)生此故障,如因架構(gòu)問題無法短時間內(nèi)解決時,應(yīng)保證遇到問題能夠快速恢復(fù)。在復(fù)盤及整改過程中,通過應(yīng)急過程的快照,詳細(xì)回溯處理過程,多層次分析原因,統(tǒng)計可以量化的業(yè)務(wù)影響,最終制定優(yōu)化措施并再次交由專家評審。
② 培訓(xùn)管理
建立完善的線上培訓(xùn)通知、執(zhí)行、考核機(jī)制,實現(xiàn)應(yīng)急組織全員的技能持續(xù)提升。
③ 持續(xù)運營
結(jié)合信息系統(tǒng)平臺的演練、應(yīng)急處置等多方面情況,進(jìn)行能力評估。企業(yè)應(yīng)當(dāng)設(shè)置不同維度的應(yīng)急運營指標(biāo),定期組織開展應(yīng)急能力評估,發(fā)掘故障應(yīng)急的薄弱環(huán)節(jié),集中力量,針對性地改善、提高應(yīng)急能力。
應(yīng)急管理是一個融合了配置、觀測、執(zhí)行、流程、智能分析技術(shù)能力、管理規(guī)范、組織能力的綜合體系。
以上,就是針對整個應(yīng)急體系全生命周期總結(jié)的價值流及價值流中的核心活動,希望每個企業(yè)都能夠?qū)⒆约旱膽?yīng)急能力提升得更加完善,不再發(fā)生業(yè)務(wù)中斷,更好地提供服務(wù)。
ITSM運營:服務(wù)請求管理持續(xù)改進(jìn)
查看詳細(xì)
AI驅(qū)動IT運維轉(zhuǎn)型:從審批流到AI工作流
查看詳細(xì)
國產(chǎn)化替代實踐:嘉為藍(lán)鯨全棧智能觀測中心對比IBM Tivoli
查看詳細(xì)
嘉為藍(lán)鯨平臺:三位一體,打造云原生數(shù)字化基座
查看詳細(xì)
嘉為藍(lán)鯨DevOps研發(fā)效能管理平臺:AI賦能研運,效能再進(jìn)化
查看詳細(xì)
ITSM運營:事件管理持續(xù)改進(jìn)
查看詳細(xì)
申請演示