之前我們分享了可觀測體系整體規(guī)劃建設戰(zhàn)略與落地實踐,而進一步深入可觀測體系中,在數(shù)字化轉型和國產(chǎn)化大背景下,監(jiān)控的對象種類繁多,新技術新對象層出不窮,企業(yè)內(nèi)部監(jiān)控體系的建設、監(jiān)控工具支撐都面臨極大的挑戰(zhàn):傳統(tǒng)的監(jiān)控系統(tǒng)無法快速滿足國產(chǎn)化的要求,也無法快速擴展支撐快速變化的監(jiān)控需求,各種監(jiān)控指標混雜一起,難以管理和分析。
為了解決這些問題,支撐一體化的可觀測系統(tǒng)建設,實現(xiàn)統(tǒng)一采集、統(tǒng)一管理、統(tǒng)一告警、統(tǒng)一展示,降低運維成本,進行監(jiān)控指標管理體系的建設和落地將變得不可或缺。本次我們邀請到了兩位嘉為藍鯨產(chǎn)品經(jīng)理蘇文和孟世一,以自身在監(jiān)控領域多年的耕耘經(jīng)驗,分別為大家?guī)?/span>《可觀測指標管理體系建設落地》與《插件功能設計及生態(tài)打造》兩個主題分享,與大家一同探討:
主題一:可觀測指標管理體系建設落地
如今,傳統(tǒng)監(jiān)控日益無法滿足企業(yè)快速發(fā)展的需求,越來越多企業(yè)開始進行可觀測體系的探索,在建設初期可能也會存在很多的問題:可觀測體系建設中為什么需要建設指標體系?指標體系究竟“長什么樣”?應該如何設計管理?接下來我們就一一解答這些問題。
1)可觀測指標體系設計
① 為什么需要建設指標體系?
在了解指標體系前,我們先來看看為什么需要進行指標體系的建設,結合過往的建設經(jīng)驗,我們總結了六個方面的原因:
② 指標體系設計邏輯
了解為什么要設計指標體系后,接下來我們再來看看可觀測指標體系應該如何設計。
可觀測指標體系的設計對整個可觀測性的落地起著至關重要的作用。其設計的核心理念是:以監(jiān)控對象為骨架、以監(jiān)控指標為經(jīng)脈。
那么運維主要監(jiān)控的對象都有哪些呢?我們以下圖的一種拆分方式為例,從應用視角來看,從下往上可以分為數(shù)據(jù)中心、硬件設備、系統(tǒng)、組件、應用服務、用戶體驗六個層面,每個層面相應的對象也有不同的指標設計。
上述五層更多關注在應用系統(tǒng)的本身以及其相關運行環(huán)境的指標設計,而在此之上到業(yè)務運營層面時,可能會超出運維的范疇,但依舊是屬于可觀測體系中的一部分,這部分主要是聚焦于業(yè)務,包括應用系統(tǒng)對外提供的服務時的相關數(shù)據(jù)指標,如交易系統(tǒng)的交易、訂單以及用戶數(shù)據(jù)等一些數(shù)據(jù)指標。用來衡量前端用戶的指標,建立業(yè)務數(shù)據(jù)層面的觀測能力。
以上的六層式的指標設計僅僅只是一個參考示例,不同的企業(yè)由于所提供的業(yè)務不同,對應用的觀測有不同的側重點,企業(yè)需要根據(jù)自身的實際情況,進行合理的調整或更加細致的劃分。
當然,可觀測指標體系的建立不僅僅只是確定這些指標的內(nèi)容,同時還需要對指標的定義、建模、接入、消費全生命周期過程持續(xù)做好管理,除此之外,指標設計也并不是“拍腦袋”就能決定的,需要建立相應的指標管理規(guī)范,包括設計原則,指標分級、分層、命名等,以支撐整個指標生命周期的正常運作。
接下來,將對指標的設計原則、分級規(guī)范以及指標生命周期管理過程進行重點介紹。
2)指標設計規(guī)范和生命周期
① 指標設計原則
指標的設計過程中需要遵循一定的設計原則,我們選取了在行業(yè)中比較通用的六個原則進行介紹。
② 指標分級規(guī)范
指標分級規(guī)范也是指標管理規(guī)范中的關鍵環(huán)節(jié),通常會分為三級指標:
③ 指標生命周期
一般指標生命周期主要經(jīng)歷四個階段:指標定義→指標建模→指標接入→指標消費。
指標定義:主要明確指標所屬的層級、指標名稱描述,維度如何設置,以及指標屬于何種級別。
指標建模:指標是依賴于對象的,如果沒有對象,那么指標也就沒有實際意義,建模的過程可以聯(lián)動CMDB模型對象,然后通過插件關聯(lián)等方式導入指標,再通過原生指標間的運算獲得較為復雜的計算指標,最后完成權重和等級的配置,便于后續(xù)分析。
指標接入:完成指標的定義和建模后,要把指標真正應用起來還需要通過指標接入采集到明細的數(shù)據(jù),一般有第三方上報、插件采集、協(xié)議采集等方式,通過采集任務統(tǒng)一進行管理。
指標消費:有了采集的數(shù)據(jù)之后,就要發(fā)揮數(shù)據(jù)的價值,支撐消費場景。可觀測的核心消費場景主要是進行指標檢測,對異常狀態(tài)進行監(jiān)控告警;除此之外還能進行健康分析,數(shù)據(jù)運營等工作,同時也能通過指標接口,為其他第三方系統(tǒng)提供消費。
了解了可觀測指標體系的內(nèi)容建設和管理規(guī)范之后,在實際落地建設時,企業(yè)應該如何建設相應的工具體系來承載指標體系呢?
① 指標體系建設的核心承載工具——監(jiān)控
在監(jiān)控中,也可以按照指標的生命周期來進行相應的能力建設。
指標定義&建模階段:支持對指標的定義、層級、屬性的管理。以及對象和指標模型的統(tǒng)一管理。
指標接入階段:支持采集插件管理,采集、接入任務管理。
運營消費階段:支持指標數(shù)據(jù)消費和運營過程中的的檢測告警以及可視化管理等。
② 指標體系建設的配套工具
正如上文所提到的,指標的管理不僅僅是指標內(nèi)容的建立,還包括指標的管理規(guī)范和治理。不僅僅需要監(jiān)控工具,還需要相應的建設配套的工具,如CMDB的建設主要提供數(shù)據(jù)治理,對象管理等能力,ITSM主要保障指標管理過程中的流程規(guī)范,保障順利完成整個落地過程。
主題二:插件功能設計及生態(tài)打造
以上我們已經(jīng)對可觀測體系指標建設的一些相關內(nèi)容做了分享,那么在實踐落地方面應該如何著手呢?接下來我們將以嘉為鯨眼可觀測產(chǎn)品為例,從數(shù)據(jù)采集模式設計理念,插件功能模式設計,以及插件生態(tài)運營積累三方面介紹實踐經(jīng)驗。
1)Agent+Agentless結合
早期監(jiān)控的采集模式通常是以Agent-less方式進行,主要通過一些采集協(xié)議訪問目標設備,再使用一系列的查詢命令將數(shù)據(jù)進行上報,進一步進行后續(xù)的分析操作。
早期IT的安全要求并不高,但隨著企業(yè)IT要求逐漸嚴格,操作系統(tǒng)安全性的逐漸提高,這種模式在當前場景下已經(jīng)不再適用,同時Agent-less模式本身過于龐大的鏈路開銷和采集的深度無法滿足等問題也被運維人員所詬病。
除此之外,由于Agentless采集通常都是基于已有的采集協(xié)議去進行,不具備更多拓展的空間,甚至有一些操作系統(tǒng)和應用程序已經(jīng)不再提供訪問接口,在這種情況下我們需要采集更多的指標就只能通過Agent-based,也就是基于Agent采集的模式來進行監(jiān)控工作。
但實際上,在一些IT頭部企業(yè)開始嘗試使用Agent模式進行采集的探索過程中,發(fā)現(xiàn)Agent-less仍然具備這一些不可替代性,其中包括在一些網(wǎng)絡、存儲、硬件服務器等設備不支持Agent模式,以及一些高級網(wǎng)絡平臺無法安裝Agent,虛擬化平臺、公有云平臺無法直接訪問基礎設施等問題,依然只能依賴于Agent-less監(jiān)控方法。
在這種環(huán)境下,鯨眼監(jiān)控中心采取二者相結合的模式,通過在節(jié)點管理建立OneAgent統(tǒng)一管理模式,Agent支持按需擴展功能以及按需下發(fā)指定的功能模塊,Agent既可以支撐Agent-based的數(shù)據(jù)收集模式,又可以作為Agent-less的集中監(jiān)控設備,圍繞藍鯨Agent使得監(jiān)控中心具備對各類不同設備的采集能力,并解決了多云區(qū)域下跨網(wǎng)遠程收集的問題。
2)插件功能模式設計
在了解完插件能力的設計之后,如何將這些插件利用起來,打造監(jiān)控插件在各類場景下的各種能力呢?接下來我們就一一深入介紹。
① 主機監(jiān)控插件:主機監(jiān)控幾乎是所有企業(yè)都繞不開的監(jiān)控場景,對于這類典型的場景,我們通過內(nèi)置監(jiān)控插件來幫助采集,在部署藍鯨Agent時會自動部署B(yǎng)aseReport插件,自動采集CPU、內(nèi)存、IO等數(shù)據(jù)并上報至監(jiān)控中心,實現(xiàn)內(nèi)置開箱即用的監(jiān)控場景。
主機監(jiān)控是較為典型的場景,但除此之外企業(yè)常常也會有打造屬于自己的監(jiān)控插件的訴求,針對這些非典型的場景,監(jiān)控中心也能夠提供強大的在線插件制作能力,根據(jù)接入模式的不同區(qū)分,提供各類場景下的插件功能的結合。
提供Exporter/DataDog插件,無縫兼容主流Prometheus/DataDog,同時也能進行插件進行自定義調整以滿足自身需求。
② 腳本插件:一些企業(yè)中運維人員會存在通過指標的查詢命令進行手動查詢的場景,插件制作中心也會能夠提供腳本設計能力,運維人員可以將腳本寫入后自動化執(zhí)行采集工作。
③ 自定義插件:除了上述采集場景外,還有一些設備需要不同的協(xié)議(SNMP、JMX等)進行采集,我們也能夠支持進行自定義插件的制作。
同時,基于低代碼和低門檻思路的插件功能設計,運維人員也能夠自主構建一些運維插件以輔助更好的進行運維工作,對于運維人員自身從傳統(tǒng)運維向運維插件開發(fā),甚至向運維工具開發(fā)進階也有著良好的推動作用。
3)插件生態(tài)積累&運營
嘉為鯨眼監(jiān)控中心目前已集成了80余款組件服務插件及120余款網(wǎng)絡、硬件設備插件。覆蓋適配了硬件層、系統(tǒng)層、軟件層、應用層乃至云計算層的絕大部分主流設備、系統(tǒng)及組件服務。同時,當前信創(chuàng)建設如火如荼,嘉為藍鯨也實現(xiàn)了信創(chuàng)各類設備廠商的兼容適配并持續(xù)不斷支持信創(chuàng)發(fā)展。
除此之外,我們也致力于幫助企業(yè)建立標準化的插件積累,打造成熟的插件生態(tài)能力。完整的標準化插件包含指引手冊與指標清單兩部分。當企業(yè)具備了成熟的標準化插件以后,能夠自主根據(jù)業(yè)務的發(fā)展進行相應的插件生態(tài)打造,從而實現(xiàn)可持續(xù)優(yōu)化的插件體系。
指引手冊包含各類說明、使用指引等,讓小白運維也能夠快速上手。
指標清單是從分類、采集、閾值等多個角度針對各類型插件指標梳理的完整清單,這部分并不是簡單指標列表,需要具備科學的指標分類、合理的維度設置、完整的指標信息以及核心指標閾值推薦。
申請演示