新建文件夹2免费观看_《味道》电影完整版|HD中文字幕在线播放,台湾三级伦理,慈禧太后的秘密,叶子楣吃被吃奶视频

首頁

/

可觀測指標管理體系建設落地及插件功能設計&生態(tài)打造

發(fā)布日期:2023-03-02 15:54:32

分享到

之前我們分享了可觀測體系整體規(guī)劃建設戰(zhàn)略與落地實踐而進一步深入可觀測體系中,在數(shù)字化轉型和國產(chǎn)化大背景下,監(jiān)控的對象種類繁多,新技術新對象層出不窮,企業(yè)內(nèi)部監(jiān)控體系的建設、監(jiān)控工具支撐都面臨極大的挑戰(zhàn):傳統(tǒng)的監(jiān)控系統(tǒng)無法快速滿足國產(chǎn)化的要求,也無法快速擴展支撐快速變化的監(jiān)控需求,各種監(jiān)控指標混雜一起,難以管理和分析。

為了解決這些問題,支撐一體化的可觀測系統(tǒng)建設,實現(xiàn)統(tǒng)一采集、統(tǒng)一管理、統(tǒng)一告警、統(tǒng)一展示,降低運維成本,進行監(jiān)控指標管理體系的建設和落地將變得不可或缺。本次我們邀請到了兩位嘉為藍鯨產(chǎn)品經(jīng)理蘇文和孟世一,以自身在監(jiān)控領域多年的耕耘經(jīng)驗,分別為大家?guī)?/span>《可觀測指標管理體系建設落地》《插件功能設計及生態(tài)打造》兩個主題分享,與大家一同探討:

  • 如何梳理、建設并落地適合企業(yè)自己的可觀測指標管理體系?
  • 什么樣的插件功能和生態(tài)能夠成為指標管理體系的落地有力支撐?


主題一:可觀測指標管理體系建設落地

如今,傳統(tǒng)監(jiān)控日益無法滿足企業(yè)快速發(fā)展的需求,越來越多企業(yè)開始進行可觀測體系的探索,在建設初期可能也會存在很多的問題:可觀測體系建設中為什么需要建設指標體系?指標體系究竟“長什么樣”?應該如何設計管理?接下來我們就一一解答這些問題。

1)可觀測指標體系設計

① 為什么需要建設指標體系?

在了解指標體系前,我們先來看看為什么需要進行指標體系的建設,結合過往的建設經(jīng)驗,我們總結了六個方面的原因:

  • 衡量業(yè)務健康情況:指標體系可以反映業(yè)務客觀事實,看清業(yè)務健康現(xiàn)狀,有效衡量業(yè)務質量,優(yōu)化應用運行。
  • 完善指標全生命周期管理體系:規(guī)范指標定義、指標建模、指標接入、指標消費的過程,指導圍繞指標全生命周期的管理體系的建設。
  • 衡量企業(yè)監(jiān)控落地效果:建立指標的規(guī)范和管理方法,更好衡量企業(yè)監(jiān)控的能力完善程度和監(jiān)測有效性。
  • 支撐故障問題的快速定位:圍繞指標的全生命周期管理內(nèi)容,建設指標數(shù)據(jù)體系,在故障出現(xiàn)時能夠快速定位問題所在。
  • 明確指標管理規(guī)范:清晰定義指標管理流程、分級分層規(guī)范,命名規(guī)范等,建立指標的全生命周期管理。
  • 為運維團隊提供數(shù)據(jù)支持:企業(yè)內(nèi)統(tǒng)一指標體系建設,提供指標查詢、檢測、健康分析等消費能力,實現(xiàn)指標數(shù)據(jù)的價值挖掘。


② 指標體系設計邏輯

了解為什么要設計指標體系后,接下來我們再來看看可觀測指標體系應該如何設計。

可觀測指標體系的設計對整個可觀測性的落地起著至關重要的作用。其設計的核心理念是:以監(jiān)控對象為骨架、以監(jiān)控指標為經(jīng)脈。

那么運維主要監(jiān)控的對象都有哪些呢?我們以下圖的一種拆分方式為例,從應用視角來看,從下往上可以分為數(shù)據(jù)中心、硬件設備、系統(tǒng)、組件、應用服務、用戶體驗六個層面,每個層面相應的對象也有不同的指標設計。

  • 數(shù)據(jù)中心層,一般會有動力、環(huán)境、安防等方面的指標,以確保數(shù)據(jù)中心能夠正常運轉,為上層奠定良好的基礎。
  • 硬件設備層,通常關注服務器、網(wǎng)絡、存儲、安全四大類監(jiān)控對象,以確保硬件層面的設備不出故障,保障應用的穩(wěn)定運行。
  • 操作系統(tǒng)層,主要承擔將硬件“轉化”為軟件所需資源的職責,在這一層中運維主要監(jiān)控的對象包含虛擬化資源、操作系統(tǒng)、容器的相關指標。
  • 組件服務層,主要包含應用運行所需要的一些組件如數(shù)據(jù)庫、中間件等,通常這些組件會以進程的方式存在,需要對這些組件進行監(jiān)控管理。
  • 應用服務層,也就是應用代碼級別的內(nèi)容,在這一層主要關注的是應用之間的調用鏈關系,以及面向用戶的客戶端指標,除此之外一些撥測主動檢測指標,主要作用于衡量和反映應用的可用性。

上述五層更多關注在應用系統(tǒng)的本身以及其相關運行環(huán)境的指標設計,而在此之上到業(yè)務運營層面時,可能會超出運維的范疇,但依舊是屬于可觀測體系中的一部分,這部分主要是聚焦于業(yè)務,包括應用系統(tǒng)對外提供的服務時的相關數(shù)據(jù)指標,如交易系統(tǒng)的交易、訂單以及用戶數(shù)據(jù)等一些數(shù)據(jù)指標。用來衡量前端用戶的指標,建立業(yè)務數(shù)據(jù)層面的觀測能力。

以上的六層式的指標設計僅僅只是一個參考示例,不同的企業(yè)由于所提供的業(yè)務不同,對應用的觀測有不同的側重點,企業(yè)需要根據(jù)自身的實際情況,進行合理的調整或更加細致的劃分。

當然,可觀測指標體系的建立不僅僅只是確定這些指標的內(nèi)容,同時還需要對指標的定義、建模、接入、消費全生命周期過程持續(xù)做好管理,除此之外,指標設計也并不是“拍腦袋”就能決定的,需要建立相應的指標管理規(guī)范,包括設計原則,指標分級、分層、命名等,以支撐整個指標生命周期的正常運作。

接下來,將對指標的設計原則、分級規(guī)范以及指標生命周期管理過程進行重點介紹。


2)指標設計規(guī)范和生命周期

① 指標設計原則

指標的設計過程中需要遵循一定的設計原則,我們選取了在行業(yè)中比較通用的六個原則進行介紹。

  • 指標設計要遵循可度量、可采集、可理解、可消費的原則。我們需要選取更加有意義、受到認可、可衡量的指標作為關鍵性的指標,例如時間戳Timestamp指標,通常情況下并不具備一定的實際意義,并不能作為一個很好的指標。這也是指標設計的最核心的原則,在遵循這個原則的基礎上,我們增加以下5個原則進行補充。
  • 指標設計要有明確監(jiān)控目標和消費場景。在進行指標選取時,需要明確監(jiān)控目標和消費場景,避免指標冗余、混亂、隔離、不一致以及謬誤等。
  • 指標設計具有可以賦予數(shù)學運算的屬性。比如可排序(全序、偏序),可運算(加減乘除與或非),或者可進行數(shù)學統(tǒng)計運算。
  • 指標最好是具有時序性的。部分指標需要能夠隨著時間進行積累,衡量整個時間過程,而不是單一的時間點。比如某個服務是否啟動,這個布爾值指標,就沒有太大的意義;換一個角度,將服務的運行狀態(tài)作為一個指標,那么這個指標就可以周期性采集探測,具備時序特征,可以反應不同時間的服務狀態(tài)。
  • 指標定義時首選是代表服務可用性的關鍵指標。可以參考Google SRE定義的黃金指標。比如請求量,耗時,緩存命中率,消息隊列 Ingress & Egress 的數(shù)量,消費速率,積壓請求數(shù)量等,這些都可以成為自定義指標的首選。
  • 對于部分跟業(yè)務相關的指標,也可以作為該業(yè)務鏈路的指標。例如在文件下載場景中,請求的耗時跟請求的文件大小是有正相關性的,將每次下載文件的大小作為指標,在該場景中是較好的一個選擇。


② 指標分級規(guī)范

指標分級規(guī)范也是指標管理規(guī)范中的關鍵環(huán)節(jié),通常會分為三級指標:

  • 核心指標:一般指監(jiān)控對象的死生指標,1-2個即可。主要用來反映服務的可用性。
  • 關鍵指標:一般可用于告警的指標,可參考監(jiān)控度量的四大黃金指標(飽和度、錯誤、流量、延遲)來定義。與死生指標不同,主要是從側面反映服務的狀態(tài),以便于提前發(fā)現(xiàn)問題,提前預警。
  • 常規(guī)指標:根據(jù)企業(yè)的業(yè)務場景可能需要關注的性能指標,一般用于告警問題分析的數(shù)據(jù)支撐,即分析指標。


③ 指標生命周期

一般指標生命周期主要經(jīng)歷四個階段:指標定義→指標建模→指標接入→指標消費

指標定義:主要明確指標所屬的層級、指標名稱描述,維度如何設置,以及指標屬于何種級別。

指標建模:指標是依賴于對象的,如果沒有對象,那么指標也就沒有實際意義,建模的過程可以聯(lián)動CMDB模型對象,然后通過插件關聯(lián)等方式導入指標,再通過原生指標間的運算獲得較為復雜的計算指標,最后完成權重和等級的配置,便于后續(xù)分析。

指標接入:完成指標的定義和建模后,要把指標真正應用起來還需要通過指標接入采集到明細的數(shù)據(jù),一般有第三方上報、插件采集、協(xié)議采集等方式,通過采集任務統(tǒng)一進行管理。

指標消費:有了采集的數(shù)據(jù)之后,就要發(fā)揮數(shù)據(jù)的價值,支撐消費場景。可觀測的核心消費場景主要是進行指標檢測,對異常狀態(tài)進行監(jiān)控告警;除此之外還能進行健康分析,數(shù)據(jù)運營等工作,同時也能通過指標接口,為其他第三方系統(tǒng)提供消費。


3)指標體系建設工具設計

了解了可觀測指標體系的內(nèi)容建設和管理規(guī)范之后,在實際落地建設時,企業(yè)應該如何建設相應的工具體系來承載指標體系呢?


指標體系建設的核心承載工具——監(jiān)控

在監(jiān)控中,也可以按照指標的生命周期來進行相應的能力建設。

指標定義&建模階段:支持對指標的定義、層級、屬性的管理。以及對象和指標模型的統(tǒng)一管理。


指標接入階段:支持采集插件管理,采集、接入任務管理。


運營消費階段:支持指標數(shù)據(jù)消費和運營過程中的的檢測告警以及可視化管理等。


② 指標體系建設的配套工具

正如上文所提到的,指標的管理不僅僅是指標內(nèi)容的建立,還包括指標的管理規(guī)范和治理。不僅僅需要監(jiān)控工具,還需要相應的建設配套的工具,如CMDB的建設主要提供數(shù)據(jù)治理,對象管理等能力,ITSM主要保障指標管理過程中的流程規(guī)范,保障順利完成整個落地過程。


主題二:插件功能設計及生態(tài)打造

以上我們已經(jīng)對可觀測體系指標建設的一些相關內(nèi)容做了分享,那么在實踐落地方面應該如何著手呢?接下來我們將以嘉為鯨眼可觀測產(chǎn)品為例,從數(shù)據(jù)采集模式設計理念,插件功能模式設計,以及插件生態(tài)運營積累三方面介紹實踐經(jīng)驗。


1)Agent+Agentless結合

早期監(jiān)控的采集模式通常是以Agent-less方式進行,主要通過一些采集協(xié)議訪問目標設備,再使用一系列的查詢命令將數(shù)據(jù)進行上報,進一步進行后續(xù)的分析操作。

早期IT的安全要求并不高,但隨著企業(yè)IT要求逐漸嚴格,操作系統(tǒng)安全性的逐漸提高,這種模式在當前場景下已經(jīng)不再適用,同時Agent-less模式本身過于龐大的鏈路開銷和采集的深度無法滿足等問題也被運維人員所詬病。

除此之外,由于Agentless采集通常都是基于已有的采集協(xié)議去進行,不具備更多拓展的空間,甚至有一些操作系統(tǒng)和應用程序已經(jīng)不再提供訪問接口,在這種情況下我們需要采集更多的指標就只能通過Agent-based,也就是基于Agent采集的模式來進行監(jiān)控工作。

但實際上,在一些IT頭部企業(yè)開始嘗試使用Agent模式進行采集的探索過程中,發(fā)現(xiàn)Agent-less仍然具備這一些不可替代性,其中包括在一些網(wǎng)絡、存儲、硬件服務器等設備不支持Agent模式,以及一些高級網(wǎng)絡平臺無法安裝Agent,虛擬化平臺、公有云平臺無法直接訪問基礎設施等問題,依然只能依賴于Agent-less監(jiān)控方法。

在這種環(huán)境下,鯨眼監(jiān)控中心采取二者相結合的模式,通過在節(jié)點管理建立OneAgent統(tǒng)一管理模式,Agent支持按需擴展功能以及按需下發(fā)指定的功能模塊,Agent既可以支撐Agent-based的數(shù)據(jù)收集模式,又可以作為Agent-less的集中監(jiān)控設備,圍繞藍鯨Agent使得監(jiān)控中心具備對各類不同設備的采集能力,并解決了多云區(qū)域下跨網(wǎng)遠程收集的問題。


2)插件功能模式設計

在了解完插件能力的設計之后,如何將這些插件利用起來,打造監(jiān)控插件在各類場景下的各種能力呢?接下來我們就一一深入介紹。

① 主機監(jiān)控插件:主機監(jiān)控幾乎是所有企業(yè)都繞不開的監(jiān)控場景,對于這類典型的場景,我們通過內(nèi)置監(jiān)控插件來幫助采集,在部署藍鯨Agent時會自動部署B(yǎng)aseReport插件,自動采集CPU、內(nèi)存、IO等數(shù)據(jù)并上報至監(jiān)控中心,實現(xiàn)內(nèi)置開箱即用的監(jiān)控場景。

主機監(jiān)控是較為典型的場景,但除此之外企業(yè)常常也會有打造屬于自己的監(jiān)控插件的訴求,針對這些非典型的場景,監(jiān)控中心也能夠提供強大的在線插件制作能力,根據(jù)接入模式的不同區(qū)分,提供各類場景下的插件功能的結合。

提供Exporter/DataDog插件,無縫兼容主流Prometheus/DataDog,同時也能進行插件進行自定義調整以滿足自身需求。

② 腳本插件:一些企業(yè)中運維人員會存在通過指標的查詢命令進行手動查詢的場景,插件制作中心也會能夠提供腳本設計能力,運維人員可以將腳本寫入后自動化執(zhí)行采集工作。

③ 自定義插件:除了上述采集場景外,還有一些設備需要不同的協(xié)議(SNMP、JMX等)進行采集,我們也能夠支持進行自定義插件的制作。

同時,基于低代碼和低門檻思路的插件功能設計,運維人員也能夠自主構建一些運維插件以輔助更好的進行運維工作,對于運維人員自身從傳統(tǒng)運維向運維插件開發(fā),甚至向運維工具開發(fā)進階也有著良好的推動作用。


3)插件生態(tài)積累&運營

嘉為鯨眼監(jiān)控中心目前已集成了80余款組件服務插件及120余款網(wǎng)絡、硬件設備插件。覆蓋適配了硬件層、系統(tǒng)層、軟件層、應用層乃至云計算層的絕大部分主流設備、系統(tǒng)及組件服務。同時,當前信創(chuàng)建設如火如荼,嘉為藍鯨也實現(xiàn)了信創(chuàng)各類設備廠商的兼容適配并持續(xù)不斷支持信創(chuàng)發(fā)展。

除此之外,我們也致力于幫助企業(yè)建立標準化的插件積累,打造成熟的插件生態(tài)能力。完整的標準化插件包含指引手冊與指標清單兩部分。當企業(yè)具備了成熟的標準化插件以后,能夠自主根據(jù)業(yè)務的發(fā)展進行相應的插件生態(tài)打造,從而實現(xiàn)可持續(xù)優(yōu)化的插件體系。

指引手冊包含各類說明、使用指引等,讓小白運維也能夠快速上手。

指標清單是從分類、采集、閾值等多個角度針對各類型插件指標梳理的完整清單,這部分并不是簡單指標列表,需要具備科學的指標分類、合理的維度設置、完整的指標信息以及核心指標閾值推薦。

免費申請演示

聯(lián)系我們

服務熱線:

020-38847288

QQ咨詢:

3593213400

在線溝通:

立即咨詢
查看更多聯(lián)系方式

申請演示

請登錄后在查看!