一站式云原生智能告警运维平台——SLS新版告警发布!
簡介: 本文介紹什么是云原生可觀測性需求以及告警限制,介紹一站式云原生智能告警運維平臺——SLS新版告警。
前言
本篇是SLS新版告警系列宣傳與培訓的第一篇,后續(xù)我們會推出20+系列直播與實戰(zhàn)培訓視頻,敬請關注。
?
系列目錄(持續(xù)更新)
- 一站式云原生智能告警運維平臺——SLS新版告警發(fā)布!(本篇)
- 這才是可觀測告警運維平臺——20個SLS告警運維場景
- 可觀測告警運維系統(tǒng)調(diào)研——SLS告警與多款方案對比
?
1. 云原生觀測告警
1.1. 業(yè)務發(fā)展對開發(fā)運維的挑戰(zhàn)
現(xiàn)代業(yè)務發(fā)展對開發(fā)運維提出了新的挑戰(zhàn),具體如下:
?
1.1.1. 業(yè)務:穩(wěn)定性要求越來越高
參考AIOps的目標與挑戰(zhàn),隨著越來越多的業(yè)務云化數(shù)字化,例如今年開始大熱的在線教育,任何一個穩(wěn)定性、可靠性等異常都將給業(yè)務帶來巨大的損失。要求SLA(服務可靠性)越高越好、MTTR(問題平均修復時間)和Cost(成本)越低越好。
在各大云廠商,也指定了非常多的穩(wěn)定性制度和要求,例如1-5-10(1分鐘發(fā)現(xiàn)問題,5分鐘定位問題,10分鐘解決問題)準則。
?
1.1.2. 系統(tǒng):復雜性越來越高
隨著開發(fā)模式(敏捷開發(fā)、DevOps)、系統(tǒng)架構(分層、微服務)、部署模式(容器化、云原生)、和基礎設施(多云、混合云)的快速演變,系統(tǒng)變得原來越復雜。當系統(tǒng)出現(xiàn)問題時,如何發(fā)現(xiàn)問題、排查定位原因、解決問題就越來越困難。從監(jiān)控運維的角度,系統(tǒng)的可觀測性也逐步成為是一個基本要求。
?
1.1.3. 工程師:職責越來越大
因為前述原因,系統(tǒng)從研發(fā)集成到上線前后的各個階段,有大量的工作需要做,不同人員參與的協(xié)同會大大降低響應速度,越來越多的公司要求一專多能。開發(fā)、測試、運維融合逐步成為趨勢,開發(fā)人員逐步開始承擔測試的工作、部分的運維甚至運營的工作。
隨著業(yè)務數(shù)字化時代的到來,可預見到運營角色更深入的與開發(fā)、運維角色融合也是一個趨勢,也就是說開發(fā)工程師未來投入到運營(Ops)的時間也會逐步增加。
?
1.2. 什么是可觀測性
傳統(tǒng)監(jiān)控一般以一個白盒方式監(jiān)控系統(tǒng),專注發(fā)現(xiàn)核心指標異常,例如500錯誤,客戶訂單成功率等。一般這種問題發(fā)生時,準取性極高(例如大量500錯誤,大量訂單失敗,一定表示SLA有問題),一般也都比較嚴重。因為是黑盒,進一步排錯和修復時間和成本極大,往往給開發(fā)運維人員帶來極大壓力。
根據(jù)海恩法則(Heinrich's Law),每一起嚴重事故背后,必然有29次輕微事故和300起未遂先兆以及1000起事故隱患。如果提前處理那些不那么嚴重的問題、先兆或者隱患,其實是可以避免后續(xù)的嚴重事故的,也就避免了其帶來的巨大壓力和損失。
可觀測性是對傳統(tǒng)監(jiān)控的升級,其要求進行白盒化監(jiān)控,對各種可能的隱患、先兆、不嚴重問題進行監(jiān)測、跟蹤處理。且不再只是在發(fā)布后,而是在開發(fā)、測試階段就進行。
因此對比兩者,可以發(fā)現(xiàn),傳統(tǒng)監(jiān)控主要由SRE人員從系統(tǒng)外部進行監(jiān)控,關注指標,發(fā)現(xiàn)問題(Know What);而可觀測性由DevOps人員從系統(tǒng)內(nèi)部進行監(jiān)控,關注指標、日志和跟蹤等數(shù)據(jù)各種數(shù)據(jù),發(fā)現(xiàn)問題并挖掘原因(Know Why)。
?
1.3. 可觀測性的挑戰(zhàn)
根據(jù)AIOps平臺方案選擇,可知各種監(jiān)控數(shù)據(jù)(指標、日志、跟蹤等)的中臺都有各種方案,同樣的監(jiān)控系統(tǒng)也有非常多的選擇。
主要挑戰(zhàn)就是:
?
1.4 告警運維系統(tǒng)的痛點
可觀測性對于告警監(jiān)控運維系統(tǒng)是有很高的要求的,但現(xiàn)狀卻不容樂觀,我們可以看到常規(guī)監(jiān)控運維系統(tǒng)存在如下6大痛點:
?
具體展開細化如下:
?
2. 什么是SLS告警運維系統(tǒng)
2.1. SLS(日志服務)是什么
SLS是阿里云上云原生觀測分析平臺,為Log/Metric/Trace等數(shù)據(jù)提供大規(guī)模、低成本、實時平臺化服務。目前對內(nèi)已經(jīng)是“阿里巴巴 + 螞蟻金服”系統(tǒng)的數(shù)據(jù)總線,數(shù)年穩(wěn)定支撐雙十一、雙十二、新春紅包活動。對外則已經(jīng)服務阿里云幾十萬企業(yè)客戶。
?
2.2. SLS新版告警——一站式智能告警運維系統(tǒng)
SLS新版告警在中國站等發(fā)布公測(國際站預計4月發(fā)布),新版在SLS云原生可觀測性平臺上提供了一站式智能運維告警系統(tǒng)。新版告警提供對日志、時序等各類數(shù)據(jù)的告警監(jiān)控,亦可接受三方告警,對告警進行降噪、事件管理、通知管理等,新增40+功能場景,充分考慮研發(fā)、運維、安全以及運營人員的告警監(jiān)控運維需求。
?
可以看到新版告警由4個模塊組成:告警監(jiān)控、告警管理、通知(行動)管理以及即將發(fā)布的開放告警組成。下面逐步介紹各個模塊的作用。
?
2.3. 優(yōu)勢
使用SLS新版告警,可以有效緩解前面提到的告警運維系統(tǒng)的痛點,和其他自建、商業(yè)化或云廠商提供的方案比,具備如下5大優(yōu)勢:
?
2.4. 告警監(jiān)控概述
通過告警監(jiān)控規(guī)則配置,定期檢查評估,查詢統(tǒng)計源日志、時序存儲,按照監(jiān)控編排邏輯,評估結果,并觸發(fā)告警或恢復通知,最終發(fā)送給告警策略。
?
告警監(jiān)控提供的功能可以分為如下3類:
基礎能力
其中值得強調(diào)的是SLS告警監(jiān)控的基礎能力支持大規(guī)模日志/時序/跟蹤等實時監(jiān)控,而查詢統(tǒng)計語法也是使用通用統(tǒng)一的SQL(并擴展)的方式提供。也就是SQL = Search + PromQL + SQL92。
例如對特定機器是否在線監(jiān)控,可以使用SQL、PromQL、或者兩者子查詢協(xié)同、甚至多層嵌套使用機器學習的算法來找出異常。
?
其中機器學習算法是直接在SQL擴展方式提供,覆蓋了以下4個場景:
?
2.5. 告警管理
每一個告警監(jiān)控規(guī)則會將觸發(fā)的告警(含恢復通知)發(fā)送給一個預先配置的告警策略,通過告警策略配置,對所有接受到的告警進行路由分派、抑制、去重、靜默、合并操作,后再分派給特定行動策略。
通過告警中心控制臺可以管理告警的狀態(tài)(包括設置處理人),和查看告警鏈路與規(guī)則態(tài)勢。
?
告警管理提供的功能也可以分為3類,如下:
2.6. 行動(通知)管理
每一個告警策略根據(jù)配置分派合并后將每個告警合并集合發(fā)送給特定的行動策略。由行動策略根據(jù)配置動態(tài)分派給特定通知渠道通知到特定的人/組/值班組,也支持告警未及時處理下的通知升級。
?
行動(通知)管理提供的功能也可以分為3類,如下:
?
原文鏈接
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉載。
總結
以上是生活随笔為你收集整理的一站式云原生智能告警运维平台——SLS新版告警发布!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 银行业数据治理之数据资产管理
- 下一篇: 最佳途径 | 容器规模化落地如何四步走?