發(fā)布日期:2022-11-24 17:40:18
嘉為長期深耕于AD領(lǐng)域,對AD的規(guī)劃、建設(shè)、升級、運維管理、災(zāi)難恢復(fù)、故障處理等均有實踐經(jīng)驗,建立起了理念、技術(shù)、方案和人才的豐富儲備,能夠?qū)崿F(xiàn)AD在企業(yè)內(nèi)部的從無到有,從有到優(yōu)。
然而并非所有企業(yè)都能成功建立起了合適的AD運維模式,其運維人員也不得不面對一個個“傷筋動骨”的AD故障。
下面將通過講述某科技公司,以非良性AD運維模式為誘因,AD域內(nèi)所有域控均發(fā)生故障,必須進行林恢復(fù)的真實案例,與大家共同分享嘉為在AD領(lǐng)域的實踐經(jīng)驗。
01. 案例背景
1)故事的起點——常規(guī)恢復(fù)手段失效
2022年6月13日,該企業(yè)IT管理員突然發(fā)現(xiàn),在企業(yè)內(nèi)部的無線網(wǎng)絡(luò)無法正常認證連接,部分服務(wù)器的DNS無法解析域名。
在經(jīng)過簡單排查后發(fā)現(xiàn),出現(xiàn)異常的客戶端,其DNS服務(wù)器均指向主域控(指PDC角色所有者,這臺主域控同時也是提供內(nèi)部證書服務(wù)的CA服務(wù)器),隨后IT管理員臨時將DNS服務(wù)、應(yīng)用LDAP連接從主域控遷移到同站點同機房的另一臺域控制器上,同時臨時取消了無線網(wǎng)絡(luò)的認證規(guī)則。
暫時恢復(fù)業(yè)務(wù)后,IT管理員按照日常方式,重新搭建了域控制器,以此來替代舊服務(wù)器,但將新服務(wù)器升級為域控時卻出現(xiàn)了新的報錯,報錯中提到新服務(wù)器無法加入域,同時DNS注冊異常。
在將常規(guī)手段全部嘗試了一遍無果后,管理員開始尋求外部協(xié)助。
02. 雷厲風行,嘉為迅速介入
1)故障初步排查——提供常見恢復(fù)方案
2022年6月15日晚,該企業(yè)管理員通過集團總部聯(lián)系到嘉為服務(wù)團隊,嘉為立即提供了遠程支持,通過遠程連接到AD域環(huán)境后,發(fā)現(xiàn)以下問題:
經(jīng)過上述檢查后,嘉為技術(shù)人員以業(yè)務(wù)恢復(fù)為第一原則,做出以下判斷:
2)尷尬而危險的平衡——更高的恢復(fù)要求
2022年6月16日凌晨,在提交初步解決方案后,嘉為技術(shù)團隊與開始域IT管理員溝通實施細節(jié),卻發(fā)現(xiàn)遠程實施該方案存在著以下不可預(yù)估的風險:
由于當前主要業(yè)務(wù)功能未受到很大影響,于是約定當日下午到企業(yè)現(xiàn)場進行故障處理。經(jīng)過現(xiàn)場溝通,我們對其AD域故障事件的復(fù)雜性有了全面的認知:
① 恢復(fù)方案不能中斷業(yè)務(wù):主域控無法停機,任何涉及重啟的修復(fù)操作不在考慮范圍之內(nèi)。
② 恢復(fù)方案受復(fù)雜環(huán)境影響大:AD域環(huán)境混亂,恢復(fù)方案需要排除的影響點過多,其中包括:
③ 恢復(fù)方案的時間壓力大:618期間,業(yè)務(wù)流量大,連續(xù)性要求高,當前僅一臺域控制器提供認證,隨時可能發(fā)生業(yè)務(wù)中斷,必須盡快恢復(fù)。
既不能停機,又沒有AD健康備份的保障,再加上參差不齊的服務(wù)器配置、復(fù)雜難捋的網(wǎng)絡(luò)環(huán)境以及業(yè)務(wù)高峰的現(xiàn)實壓力,此時這套AD系統(tǒng),正處在一個尷尬而危險的平衡點,隨時有可能繃斷。
在對故障信息有了以上清晰的認知后,嘉為團隊提出了一個新的解決方案,用過隔離輔助域控,進行林恢復(fù)。
3)新方案的制定——保障業(yè)務(wù)連續(xù)穩(wěn)健恢復(fù)
2022年6月17日上午,嘉為團隊再一次對企業(yè)AD域環(huán)境進行了深度調(diào)研,獲取各個域控的基本信息、應(yīng)用角色以及受損情況。
針對域控上的服務(wù)角色,如DHCP、DPS、CA等,分別制定了遷移方案,以此形成了服務(wù)器信息調(diào)研表、拓撲圖,故障恢復(fù)流程、checklist、恢復(fù)備案等合一的AD環(huán)境故障恢復(fù)方案。
同時與企業(yè)AD管理員、網(wǎng)絡(luò)管理員、應(yīng)用管理員等幾乎所有相關(guān)的IT管理員溝通,并組織了多次的方案討論,最終確定了恢復(fù)方案。
在最終確定的恢復(fù)方案中,高版本的輔助域控將作為恢復(fù)基點,在隔離環(huán)境中執(zhí)行以下操作:
確保林恢復(fù)完成后,再進行一系列的域控搭建、服務(wù)角色遷移、脫域計算機處理等操作:
4)新方案的執(zhí)行——些許波折,成功執(zhí)行
2022年6月18日晚。所有人到崗待命,開始執(zhí)行恢復(fù)方案。
然而在準備隔離環(huán)境域控制器第一步時,就發(fā)生了令氣壓驟增的情況,原定計劃需要使用生產(chǎn)環(huán)境的輔助域控進行裸機備份,再將裸機備份還原到隔離環(huán)境中,進行修復(fù)。
然而,企業(yè)整體環(huán)境中的虛擬化平臺資源極少,大部分服務(wù)器均為物理機,在進行裸機備份還原的過程中,客戶提供的虛擬機始終無法成功還原備份。
在經(jīng)過2小時的嘗試后,嘉為團隊決定采用備份還原驗證域生產(chǎn)服務(wù)器恢復(fù)并行的策略,即將備份提供給嘉為,讓其使用其他可用環(huán)境還原驗證,同時將一臺生產(chǎn)環(huán)境的輔助域控制器進行隔離,進行恢復(fù)操作。
這樣的決定,雖然稍微提高了對生產(chǎn)環(huán)境服務(wù)器的風險,但范圍可以接受(限定在1臺輔助域控制器)。終于在次日凌晨3點,成功在隔離環(huán)境中執(zhí)行了林恢復(fù),應(yīng)用接入認證正常,常規(guī)域服務(wù)功能驗證正常。
凌晨6點時,其他站點的輔助域控制器進行了替換,服務(wù)角色特逐步開始遷移,終于在員工上班前,所有角色完成了遷移并通過了功能驗證。完成上述工作后,企業(yè)AD域的基本業(yè)務(wù)均已恢復(fù),AD域的可用性得到保障,所有人都松了一口氣。
03. 案例示警
針對上述AD域故障恢復(fù)案例,我們可以提供一些具體的建議或建設(shè)范疇:
正如開頭所說,AD是一套在許多企業(yè)內(nèi)部落地的的基礎(chǔ)架構(gòu)系統(tǒng),許多事件的參考信息可以很便捷地在網(wǎng)絡(luò)上查閱,有關(guān)特定事件的處理、特定的功能實現(xiàn)也有齊備的文檔參考,但這僅僅只能提高運維人員處理特定問題的能力,卻無法在AD運維的整體邏輯上提供保障。
實際上,我們?nèi)匀粫槐橛忠槐榈慕ㄗh和幫助客戶建立起適用于企業(yè)的AD運維管理規(guī)范,它們是圍繞AD的操作文檔、規(guī)章制度、流程管理、運維工具和一系列運維實踐,是這些要素共同服務(wù)于企業(yè)IT管理理念的產(chǎn)物。對于AD而言,健壯的“體魄”,而非“藥石”,能更好地避免“傷筋動骨”。
04. 嘉為AD運維服務(wù)
針對企業(yè)AD運維,嘉為團隊提供全面一站式的技術(shù)服務(wù),包括:AD及基礎(chǔ)架構(gòu)實施、AD域升級與架構(gòu)優(yōu)化、AD安全加固、AD HW服務(wù)等,助企業(yè)打造堅如磐石的IT系統(tǒng),為企業(yè)信息系統(tǒng)保駕護航。
除此之外,嘉為還提供規(guī)劃咨詢服務(wù)、系統(tǒng)建設(shè)服務(wù)、二線專家服務(wù)、系統(tǒng)優(yōu)化服務(wù)、IT運維整體外包服務(wù)、人員派駐等服務(wù),企業(yè)可以根據(jù)需求自由組合選擇使用的服務(wù)內(nèi)容和范圍。
05. 智能轉(zhuǎn)型——WeOps一體化運維平臺
針對該科技公司AD域故障事件,嘉為團隊后續(xù)推薦了WeOps一體化運維平臺,持續(xù)賦能,幫助企業(yè)運維逐步邁向智能化。
嘉為藍鯨WeOps,是一款專注于保障企業(yè)業(yè)務(wù)連續(xù)性、支持國產(chǎn)化的一站式運維平臺,以故障定位和全生命周期管理為核心,融合聯(lián)動資源中心、健康掃描、監(jiān)控告警、知識庫、數(shù)字大屏及自動化運維工具等多項功能。
有關(guān)企業(yè)AD運維,WeOps平臺可從預(yù)防和監(jiān)控故障處理兩方面保駕護航:
1)預(yù)防
WeOps平臺可針對日常排查時發(fā)現(xiàn)的一系列隱患做到及時預(yù)防。案例中由于企業(yè)AD不規(guī)范導(dǎo)致系統(tǒng)存在沒有備份、沒有補丁安裝、網(wǎng)絡(luò)環(huán)境負載等隱患,而WeOPs平臺可通過作業(yè)平臺定時自動備份、通過補丁安裝進行定期安裝、通過平臺進行網(wǎng)絡(luò)設(shè)備的自動發(fā)現(xiàn),生成拓撲完美解決上述問題。
2)監(jiān)控故障處理
WeOps平臺中的監(jiān)控告警系統(tǒng),可做到持續(xù)監(jiān)控,智能告警,提前發(fā)現(xiàn)問題,降低業(yè)務(wù)影響,一旦發(fā)生故障,可通過拓撲圖分析關(guān)聯(lián)影響,同時結(jié)合資產(chǎn)管理分析資產(chǎn)影響情況,最后采用自動化工具快速解決故障,持續(xù)保障企業(yè)業(yè)務(wù)連續(xù)性。
嘉為藍鯨WeOps平臺滿足國產(chǎn)化兼容,支持在國產(chǎn)環(huán)境下的一站式運維,自主可控,幫助用戶解決工具功能單一、眾多IT運維對象管理難、自動化程度低、信創(chuàng)生態(tài)產(chǎn)品兼容等問題,助力客戶安全落地一站式運維場景。
「經(jīng)過與嘉為團隊的協(xié)作,對其他站點的輔助域控制器進行了替換,服務(wù)角色特逐步開始遷移,終于在員工上班前,所有角色完成了遷移并通過了功能驗證。完成上述工作后,企業(yè)AD域的基本業(yè)務(wù)均已恢復(fù),AD域的可用性得到保障,所有人都松了一口氣。」
某科技公司近年來,面對全球新冠疫情危機以及嚴峻復(fù)雜的國內(nèi)外環(huán)境,傳統(tǒng)鋁型材制造業(yè)遭遇到了嚴峻挑戰(zhàn),但是作為南海區(qū)制造業(yè)頭部企業(yè),堅美鋁業(yè)積極響應(yīng)《廣東省佛山市落實推動制造業(yè)數(shù)字化智能化轉(zhuǎn)型發(fā)展》的政策號召,攻堅克難,加大對升級建設(shè)自動化生產(chǎn)基地的投入,擴大產(chǎn)能,保持企業(yè)良好的增長勢頭。
創(chuàng)立于1929年的周大福,是全球著名的珠寶集團,零售網(wǎng)絡(luò)遍及中國、日本、韓國、東南亞與美國。嘉為藍鯨WeOps平臺上線后,除了主機監(jiān)控,監(jiān)控范圍增加了操作系統(tǒng)、數(shù)據(jù)庫、中間件、虛擬化、云平臺、基礎(chǔ)應(yīng)用等維度,運維人員可以主動針對影響業(yè)務(wù)的關(guān)鍵指標設(shè)置發(fā)現(xiàn)和解決問題的流程。
自新型冠狀病毒爆發(fā)以來,地產(chǎn)行業(yè)面臨前所未有的挑戰(zhàn),業(yè)務(wù)線上化已成為全面需求,某大型地產(chǎn)集團積極做出業(yè)務(wù)調(diào)整,全面實施線上賣房。通過線上應(yīng)用服務(wù),客戶可以選擇在線上享受看房、推薦及認購等一站式服務(wù),該大型集團打破時間與空間的限制,為客戶提供安全且便捷的服務(wù)。
申請演示