隨著業(yè)務支撐要求的變化,和技術架構的升級,運維管理建設模式跟之前也有了很大區(qū)別,場景上更注重主動工作、防范風險,而體系上更注重賦能組織、平臺化、一體化。
因而,我們基于過去幾年的大量客戶實踐,分享一些場景的工程落地,包括可觀測、大規(guī)模發(fā)布、災備應急、服務敏捷化等,并進一步分享如何把這些能力賦能給客戶,把運維能力的產品化和組織賦能關聯(lián)起來。
* 注:以下內容整理自:嘉為科技運維產品及解決方案負責人 張敏 于嘉為藍鯨2022研運一體創(chuàng)新峰會的精彩分享——《從場景工程,到運維賦能》。
01. 運維的熵減:場景工程
1)熵減,降低運維體系的復雜性
熵是一個熱力學概念,表示體系的混亂程度。熵增表示系統(tǒng)越來越混亂,熵減則表示系統(tǒng)歸于有序。在沒有外力作用的情況下,一切事物都是從有序向無序發(fā)展,最終形成熵死。而要使混亂往有序發(fā)展,就需要做熵減,通過不斷做功,增加有效能量。
運維是一個復雜的體系,主要體現(xiàn)在兩個方面。
一方面是管理體系帶來的復雜性。不同的組織架構、工作流程、工具平臺和技術路線、文化氛圍等,都可能導致運維的低效和不完善,例如人員能力高低、流程復雜度不一、工具建設的煙囪化豎井化等。
另一方面則是技術對象變化帶來的復雜性。例如云原生、微服務、國產化信創(chuàng)適配等,技術對象的更新迭代、規(guī)模發(fā)展及橫縱的復雜性,都讓運維這一保障性工作變得復雜。
如果沒有有效的管理規(guī)劃和技術規(guī)劃,運維體系必然會走向混亂。我們需要不斷有效做功,進行熵減,讓運維體系歸于有序。
2)有效做功:分級分域場景模型
怎么做熵減呢?
我們可以從經典運維原理(PPTR)出發(fā),制定符合企業(yè)個性的管理體系,統(tǒng)一組織保障、流程管控、標準規(guī)范,然后選擇匹配的工具平臺和技術架構,設計滿足企業(yè)需求的運維場景,最后逐步進行PDCA循環(huán)演進。
聽起來很簡單,但是在這個演進的過程中會遇到一個很大的問題,就是我們知道了如何做運維管理,也建設了很多工具系統(tǒng),但是仍舊不知道現(xiàn)在運維的薄弱點。
問題出在從管理體系落地到工具系統(tǒng)的過程中間,我們要找準連接點。這個連接點即場景。
企業(yè)運維的場景非常多,可以大到做業(yè)務連續(xù)保障管理,也可以小到一個告警的豐富。如果沒有對場景進行有效梳理,將會導致后續(xù)系統(tǒng)建設越發(fā)混亂。
基于過去幾年的實踐,我們總結出了一套分級分域的場景模型,能很好的解決這個問題。
L1:運維價值
最頂層,找到想要實現(xiàn)的運維價值,也即管理目標,例如業(yè)務連續(xù)性保障、IT服務滿意度、IT運營等等;
L2:運維領域
找到價值目標以后,需要梳理運維領域,思考通過哪些運維領域的組合,能夠實現(xiàn)此運維價值。例如要實現(xiàn)業(yè)務連續(xù)性保障這一價值,不能單單只做監(jiān)控,而是需要有應急管理、災備管理、故障管理,還有風險變更管控等等,通過多領域的組合配套,才能實現(xiàn)業(yè)務連續(xù)性保障的運維價值。
L3:運維活動
運維領域確定以后,就到運維活動。例如故障管理領域,對應需要做故障發(fā)現(xiàn)、故障定位、故障恢復、故障預防與改進等活動。
L4:運維操作
運維活動再往下是更細節(jié)的運維操作,例如告警源接入、多告警的標準化、如何進行告警收斂、告警分級、事件分派及對應處置,如何聯(lián)動自動化做故障自愈、如何聯(lián)動ITSM做事件委派,告警自動關閉等。
我們將管理目標拆解,逐層拆分后再進行工具落地。曾經在項目中遇到過有客戶希望將監(jiān)控指標放到CMDB里面去建設,這種情況就是沒有梳理清楚場景。CMDB就應該聚焦在對象和配置,而IT對象的各種指標和狀態(tài)應該放到監(jiān)控里,最后將監(jiān)控與CMDB做關聯(lián),這才是有效的做功。
3)一體化、平臺化建設的必要性
從2004年起,嘉為就開始面向企業(yè)提供IT運維服務,并于2016年正式發(fā)布嘉為藍鯨自動化運維解決方案。經過多年的實踐,我們落地了很多運維場景,也愈發(fā)認識到一體化和平臺化建設的重要性。
一體化,指的是管理一體、流程一體、工具一體,最后形態(tài)是以一體化運維工具系統(tǒng)支撐企業(yè)的運維場景。以自動化發(fā)布為例,運維團隊通過開源的或者自研的工具就可以完成編排發(fā)布。但是當遇到發(fā)布規(guī)模變大,或者即有傳統(tǒng)發(fā)布又有容器發(fā)布的復雜情況,或是需要編排多種發(fā)布策略的時候,就會發(fā)現(xiàn)搞不定了,因為這涉及到多種工具體系的聯(lián)動。底層需要依賴CMDB、需要作業(yè)Agent管控、需要可以聯(lián)動容器調動K8S,上層需要封裝多種發(fā)布策略的邏輯,最終才能形成適應各種情況的自動化發(fā)布。這就是落地的一體化形態(tài),如果我們建設單個領域能力的時候沒有考慮到聯(lián)動,就會形成煙囪。
而平臺化,指的是可持續(xù)發(fā)展。運維場景會隨著技術對象和管理要求的變化而不斷發(fā)展,怎么保證現(xiàn)有建設的能力體系和工具平臺能夠滿足這種發(fā)展呢?我們通過PaaS模式做平臺化建設,來滿足可持續(xù)發(fā)展的需要。
4)場景到工程的設計方法:MSCP
有了管理目標、梳理好了場景以后,我們是否就可以進行工程落地了呢?并不是。
經過我們多年的實踐,我們總結出了一套從場景到工程的設計方法:管理(M)、場景(S)、能力(C)、產品(P)。
起點,是管理(M)
我們希望達到的管理目標、配套的制度規(guī)范、對應的組織崗位能力體系、工作流程、工程落地、度量改進,這是一個不斷做功的過程。
其次,是場景(S)
如ITOM、ITSM等經典的運維場景。
再次,是能力(C)
場景到產品中間很重要的一步,是要將能力進行抽象和解耦。我們推薦的最好的解耦方式,就是PaaS。將可復用的能力沉淀為原子,通過API方式調用原子能力和聯(lián)動第三方能力;同時提供開發(fā)框架等,便于進行自定義擴展。
最后,形成產品(P)
基于PaaS自定義開發(fā)形成產品,實現(xiàn)可持續(xù)的延展。
如下是我們做的兩個客戶案例,通過MSCP方法指導,最終實現(xiàn)從管理到產品的軟件落地:
第一個案例,是大規(guī)模發(fā)布的場景,應該算是國內除了BAT這幾家互聯(lián)網公司以外,企業(yè)級發(fā)布規(guī)模最大的一個場景了。
客戶有業(yè)務系統(tǒng)100+、主機節(jié)點5萬+、K8S集群的主機節(jié)點5千+,需要實現(xiàn)高質量、高安全、高效率的統(tǒng)一發(fā)布。
最后產品落地,納管主機實例5W+,容器實例11W+,制定應用發(fā)布管理規(guī)范,實現(xiàn)對軟件交付全流程統(tǒng)一管控;實現(xiàn)CI CD CO全流程貫通、提升發(fā)布質量和效率。
第二個案例,是一家大型銀行,ITSM替換的場景。
客戶的業(yè)務系統(tǒng)有200+、主機節(jié)點3千+,用戶數(shù)特別多,需要替換掉之前4大的傳統(tǒng)巨石型ITSM管理系統(tǒng),并且滿足ISO標準。
最后產品落地,服務內部運維用戶1000+,業(yè)務用戶10000+,制定關鍵運維管理活動流程規(guī)范,滿足ISO20000合規(guī),實現(xiàn)事件管理閉環(huán),提升問題處置效率80%,有效的變更管控,減少變更事故風險。
場景到工程的設計方法MSCP,是我們實踐的總結,希望能夠給企業(yè)的運維建設帶來一些思考。
5)數(shù)字化運維場景活動藍圖
談了方法,我們來看下嘉為對數(shù)字化運維場景活動的定義。
最上層,是我們運維的本質和價值:用戶和業(yè)務支撐。下方,是ITSM、ITOM和ITOA活動。其中最重要的是1+4個域:觀測域、配置域、作業(yè)域、服務域,以及生態(tài)域。而對當前AIOps的能力和實踐,我們的看法是,這是一個技術補充,仍然回歸到運維管理層面,也就是我們定義的AIOps in Ops。
采用PaaS平臺技術架構打造生態(tài),實現(xiàn)觀測、配置、作業(yè)、服務整體協(xié)同的一體化。通過ITOA不斷持續(xù)運營改進,從而把我們的管理體系、對應場景、對應能力、對應工程產品完整落地到IT運維系統(tǒng),提升組織能力。
02. 運維組織能力內化的三個步驟
組織能力提升對于運維來說特別重要。運維組織的能力不能僅僅依托于內部幾個老專家,技術對象的復雜、管理要求的復雜、外部數(shù)字化轉型加內部技術架構變化等因素,都需要我們將運維作為一個體系去思考。
如何系統(tǒng)性建設我們的運維能力呢?我們跟隨一個大的股份制銀行客戶經過近五年的組織打造,抽象了三個步驟
1)第一步:激活組織
運維組織激活其實是一件很困難的事情,運維本身干的活特別苦逼,某種程度上講往往也是比較被動的。
激活組織的起點,從讓運維人員有成就感開始,而成就感則來源于持續(xù)的自我提升。建設側重點要從如何快速處理故障轉向如何減少故障,圍繞服務連續(xù)性和主動管理,持續(xù)建設運維能力。
讓組織的成員看到有奔頭,看到有改變,這樣才能激活人更大的創(chuàng)造力和求變的能力。
2)第二步:可持續(xù)建設+可擴展建設
企業(yè)IT運維建設最大的浪費,是歷史投資無法被保護的浪費。所以,我們需要采取可持續(xù)+可擴展的建設模式。
我們可以采用能力+場景的抽象架構,也就是PaaS化的架構,抽象和解耦能力沉淀于底層,在上層去構建場景和工具,適配多環(huán)境多對象。同時不同的場景工具之間聯(lián)動作業(yè),形成真正的管理閉環(huán),滿足現(xiàn)在和未來的需要。
3)第三步:提升生產力,改變生產關系
具體怎么落地?關鍵點在于給不同類型的運維人員,找到發(fā)揮價值的位置。
團隊中工作多年的運維專家,對運維的管理、聯(lián)動和執(zhí)行理解非常深刻,適合轉型做運維規(guī)劃;團隊中有編碼基礎、腳本基礎的運維工程師,可以轉型運維開發(fā),基于平臺提供的開發(fā)框架、低代碼、原子能力等,快速組裝工具系統(tǒng),由此實現(xiàn)運維體系的自生長。
通過這三個步驟,就能夠讓整個運維團隊,實現(xiàn)從活力到能力,最后提升生產力的轉變。
03. 與客戶共贏
長期深耕行業(yè),以客戶為中心,加上我們對管理經驗和工程產品的抽象,形成了目前嘉為1+7的運維產品體系。
基于騰訊藍鯨PaaS平臺沉淀共性能力,可持續(xù)可擴展地進行運維體系建設;嘉為自研的配置管理、可觀測產品、IT服務管理、自動化運維、多云管理、數(shù)據(jù)與智能中心、數(shù)據(jù)運營中心等,一體化聯(lián)動。
同時,我們也會秉持MSCP方法論,從管理實踐、行業(yè)場景、架構設計到工具工程去進行長期的產品戰(zhàn)略規(guī)劃,持續(xù)輸出價值,與客戶共贏。
最后,我們希望與客戶一起共贏,客戶可以用新的運維模式更好支撐業(yè)務,嘉為則用新的方法以及對應的工具體系,幫助客戶進一步提升運維價值,與客戶一起改變運維行業(yè),一起走得更遠。
申請演示