2月25日,基調(diào)聽云虎年首場線上直播正式開播,本次直播以《讓業(yè)務系統(tǒng)不再深不可測》為主題,通過對可觀測體系的整體介紹以及DIALOG方案詳解,更直觀的展現(xiàn)基調(diào)聽云可觀測能力,幫助企業(yè)了解可觀測性作用于系統(tǒng)、業(yè)務以及用戶體驗等方面的價值。
IT架構(gòu)變遷對系統(tǒng)及監(jiān)控的影響
隨著IT架構(gòu)在經(jīng)歷數(shù)據(jù)中心時代、分布式時代,到如今云原生時代的變遷,帶來了諸多變化:應用的數(shù)量和容器的數(shù)量越來越多的情況下,系統(tǒng)復雜程度也隨之不斷加深;多云混合云場景下,整個容器的創(chuàng)建速度、生命周期以及整體規(guī)模,都已經(jīng)遠遠超過原有數(shù)據(jù)中心時代靠人或者靠固定模式所能管理的邊界;在資源仍然有限的今天,不斷增加的系統(tǒng)復雜性和故障排查的難度加大,正在竊取企業(yè)的創(chuàng)新的時間,降低企業(yè)的用戶體驗。而對企業(yè)來講,數(shù)字化轉(zhuǎn)型使得企業(yè)或者企業(yè)的客戶都非常依賴于體系化的it系統(tǒng)來實現(xiàn)高速的增長,此時用戶體驗和應用可用性比以往任何時候都重要。以上種種都對企業(yè)在云原生時代下的復雜系統(tǒng)管理以及監(jiān)控運營提出了非常高的要求。
如下圖案例所示,我們可直觀感受到復雜系統(tǒng)下對于系統(tǒng)性能的要求,無論從深度還是廣度來說,都呈現(xiàn)了極為繁雜的調(diào)用關(guān)系。
因此,在整個IT演變過程中創(chuàng)新了多種監(jiān)控方式,傳統(tǒng)監(jiān)控能解決的是在一定范圍內(nèi),通過收集監(jiān)控數(shù)據(jù),告知系統(tǒng)的狀態(tài)(運行、停止、有問題等),通過數(shù)據(jù)聚合、異常檢測和根因分析推導系統(tǒng)性能下降的原因。但因為數(shù)據(jù)割裂、監(jiān)控范圍受限等原因,在系統(tǒng)出現(xiàn)故障時,無法快速找到故障原因,因此我們需要借助可觀測性來深入挖掘。
究竟何為可觀測性?
In control theory, observability is a measure of how well internal states of a system can be inferred from knowledge of its external outputs.-- Wikipedia Observability
根據(jù)維基百科對可觀測性的定義,我們可以理解為可觀測性是一種方法,通過檢查系統(tǒng)的外部輸出來衡量系統(tǒng)內(nèi)部狀態(tài)的能力。是一個關(guān)于解決"未知的已知"和"未知的未知(意外)"問題域的能力模型??梢宰屇阍谙到y(tǒng)不可用時,快速了解問題的現(xiàn)狀及影響,并能夠深入探索、跟蹤問題的根因。
綜上所述,我們可以了解,監(jiān)控是根據(jù)某些領(lǐng)域模型去推導出問題出現(xiàn)在哪里,而可觀測性是通過探索發(fā)現(xiàn)系統(tǒng)不可用的原因。因此,監(jiān)控是為了提升系統(tǒng)可觀測性的手段。而可觀測性是系統(tǒng)的核心能力,用以提升系統(tǒng)性能。
實現(xiàn)可觀測性三大支柱
實現(xiàn)可觀測性有三大支柱:Metrics、Logging、Tracing,在三大支柱支撐下,通過不同的工具融合去實現(xiàn)可觀測性。
傳統(tǒng)意義上三大支柱是割裂的,在海量負載的系統(tǒng)下,每一個應用、每一個服務會產(chǎn)生各樣的指標及日志,而存儲這些又需要特定的工具,一來二去存儲的成本就會變高。當出現(xiàn)故障時,從離散的日志文件中尋找跟故障強相關(guān)的信息是一個耗時耗力的過程,而結(jié)果往往缺差強人意,因此通過催生以Tracing為核心將所有數(shù)據(jù)進行關(guān)聯(lián),才可以實現(xiàn)深度可觀測性,創(chuàng)造更大價值。
基調(diào)聽云通過對300+技術(shù)棧進行適配擴展,將追蹤、日志、指標、行為、業(yè)務、OpenTelemetry等多源數(shù)據(jù)、統(tǒng)一采集、處理和分析模型,構(gòu)建基調(diào)聽云可觀測中臺,納入現(xiàn)有技術(shù)實踐成果,對其進行融合分析,通過OneTrace模型展示整個生態(tài)下的調(diào)用結(jié)構(gòu),結(jié)合獨有的AI能力實現(xiàn)根因診斷、異常監(jiān)測、智能告警,最終建立基于業(yè)務分析的可視化模型,更深入的幫助用戶實現(xiàn)業(yè)務可能性?;诨{(diào)聽云可觀測性平臺,構(gòu)建5大場景可觀測,并且在每個領(lǐng)域中建立相應能力,形成完整的可觀測體系。
DIALOG作為貫通全棧IT與業(yè)務的智能可觀測性平臺解決方案,分別涵蓋六個層面的能力升級:一是全棧數(shù)據(jù)采集,二是多維多源智能分析,三是以應用和業(yè)務為中心,四是可觀測數(shù)據(jù)的縱橫融合打通,五是全方位可觀測,六是助力業(yè)務增長??珊唵胃爬?ldquo;融匯,融通,融智”三大核心優(yōu)勢。通過DIALOG,企業(yè)在用戶體驗至上的時代能夠深入感知用戶,感知業(yè)務波動情況,從而實現(xiàn)系統(tǒng)的優(yōu)化,降本增效,最終基于基調(diào)聽云可觀測平臺數(shù)據(jù)驅(qū)動力輔助企業(yè)智慧決策,決勝數(shù)字時代!