01. 業(yè)務連續(xù)性與信息系統(tǒng)應急之間的關系
談到業(yè)務連續(xù)性,相信大家并不陌生,業(yè)務連續(xù)性管理是保障企業(yè)業(yè)務持續(xù)運轉的重要組成部分。通過字面意思來解讀,無論業(yè)務連續(xù)性管理(BCM,Business Continuity Management)還是業(yè)務連續(xù)性管理體系(BCMS,BCM,Business Continuity Management System)都可認為是一套完整的業(yè)務連續(xù)性組織能力的管理框架,與其他許多管理領域都有著密切的關聯,如下圖所示:
其中的應急管理領域,顧名思義指的是面對突發(fā)事件時,快速響應并緊急采取有效措施,將損失降低到最小的相關活動。進一步延伸,可擴展到事前的預防與事后的復盤改進與持續(xù)優(yōu)化。應急管理全過程概括如下:
早在2011年,《商業(yè)銀行業(yè)務連續(xù)性監(jiān)管指引》(銀監(jiān)發(fā)[2011]104號)中明確提出了“商業(yè)銀行應當開展業(yè)務連續(xù)性風險評估,識別業(yè)務連續(xù)運營所需的關鍵資源,分析資源所面臨的各類威脅以及資源自身的脆弱性,確定資源的風險敞口。關鍵資源應當包括關鍵信息系統(tǒng)及其運行環(huán)境,關鍵的人員、業(yè)務場地、業(yè)務辦公設備、業(yè)務單據以及供應商等”。并且隨著云原生、分布式等技術的快速發(fā)展,金融單位核心系統(tǒng)的不斷升級和迭代,企業(yè)和組織對于IT系統(tǒng)的依賴程度越來越高,IT 風險與業(yè)務風險相互交叉,疊加發(fā)生的可能性不但存在而且有不斷增強的趨勢。一旦業(yè)務信息系統(tǒng)出現問題,將帶來無法估量的嚴重影響:
1)服務中斷
信息系統(tǒng)故障可能導致金融單位的服務中斷,無法正常提供客戶所需的金融服務,如轉賬、支付、查詢賬戶余額等。這會給客戶帶來不便,并可能導致客戶流失。
2)數據丟失或泄露
信息系統(tǒng)故障可能導致金融單位的數據丟失或泄露,包括客戶的個人信息、賬戶信息、交易記錄等。這會對客戶的隱私和安全造成威脅,可能導致金融詐騙等問題。
3)業(yè)務延誤和損失
信息系統(tǒng)故障可能導致金融單位的業(yè)務延誤和損失。例如,無法及時處理交易請求、無法準確計算利息和費用等,這會影響金融單位的運營效率和盈利能力。
4)聲譽損害
信息系統(tǒng)故障可能對金融單位的聲譽造成損害。客戶對金融單位的信任和滿意度可能受到影響,而且媒體和公眾對于信息系統(tǒng)故障的報道和評論可能進一步損害金融單位的聲譽。
因此我們在此處主要談論業(yè)務連續(xù)性管理和信息系統(tǒng)應急之間的關系。
① 關聯性
業(yè)務連續(xù)性包含了信息系統(tǒng)應急。信息系統(tǒng)應急主要解決業(yè)務中斷的重要事件應急和災難級別的應急活動。而超出了業(yè)務業(yè)務連續(xù)性管理的部分事件,就是我們日常碰見的一些高頻事件了。
② 管理對象
業(yè)務連續(xù)性關注整個組織的管理運營從而支撐業(yè)務的正常運轉。而信息系統(tǒng)應急管理,主要關注圍繞著“事前——事中——事后”的操作對象中。
02. 企業(yè)信息系統(tǒng)應急成熟度等級
2023年5月23日國家市場監(jiān)督管理總局與國家標準化管理委員會聯合發(fā)布了重新修訂發(fā)布了《信息技術服務數據中心業(yè)務連續(xù)性等級評級準則》。通過解讀,我們認為落實在信息系統(tǒng)應急上的能力成熟度建設同樣也分為幾個等級,如下所示:
03. 企業(yè)信息技術應急管理現狀與影響
目前大部分企業(yè)的信息系統(tǒng)應急水平還處于起始級或基礎級,在應急事中存在以下現狀:
這些現狀都可能導致我們應急事中的處置環(huán)節(jié)時間延長,輕則耽誤了業(yè)務對外提供服務,影響了企業(yè)的正常運營。重則需要需要向監(jiān)管單位進行述職并接受嚴厲的大額罰單,甚至還需要處理不斷發(fā)酵的輿情。例如今年年中,某地證監(jiān)局就對某券商公司的業(yè)務中斷事件開具罰單,并要求于3個月內完成整改工作并向某地證監(jiān)局報送整改報告,同時對信息技術中心行政負責人采取出具警示函的行政監(jiān)管措施。
04. 企業(yè)需要如何管理應急
事實上,事情的本質就是我們能夠通過工具體系和管理規(guī)范,確保專家經驗沉淀的預案保持良好的時效性,工具能力的有效聯動并輔以管理規(guī)范的有效驅動,就能大大縮短我們的應急處置時長,保障業(yè)務的連續(xù)性。
*注釋*:
MTBF:平均無故障時間
MTTI:平均調查時間
MTTK:平均故障定位時長
MTTF:平均故障處理時長
MTTV:平均故障確認時間
MTTR:平均響應時間
通過提升MTBF時間,降低MTTR時間,就可以有效的管理應急全流程。這里我們總結了以下“1-2-3-4”設計原則:
基于這個設計原則,我們可以更好的理解應急管理的建設目標,也明白支撐應急系統(tǒng)事中快速的響應,決策需要的數據來源,從而通過逐步迭代,小步快跑的模式,建設一套完整應急框架體系、應急管理綜合解決方案。通過常態(tài)化的應急演練及運營優(yōu)化思想,進而形成高時效性的應急預案庫, 保障在重大突發(fā)事件出現時,應急處置及時有效,縮短故障歷時,降低業(yè)務影響,有效防范和化解業(yè)務風險,最大程度減少該事件帶來的損失。
展望未來,希望在大數據和AIOps人工智能的能力加持下,真正實現根因快速定位,進一步提升不同部門和專業(yè)間的協(xié)作和配合能力,以應對更復雜的問題和事件,使整個數據中心的應急能力更上一層樓,為業(yè)務提供更好的保駕護航能力。
每個企業(yè)應當考慮哪些因素可以使我們建設信息系統(tǒng)應急的“事前——事中——事后”環(huán)節(jié)卓有成效,又當在每個環(huán)節(jié)開展哪些活動,我們的微信公眾號下一篇連載:應急災備管理系列文章(二)——信息系統(tǒng)應急災備管理的關鍵業(yè)務價值流和活動,敬請期待!
申請演示