【干货】运维,你是青铜还是王者?
傳統(tǒng)的觀點(diǎn)中、運(yùn)維就是保障業(yè)務(wù)運(yùn)行得穩(wěn)定、高效、安全,但時(shí)至今日,這個(gè)運(yùn)維的價(jià)值觀恐怕早已過時(shí)了,我們希望運(yùn)維能夠成為公司的核心競爭力之一。
這就促使了運(yùn)維向技術(shù)運(yùn)營的轉(zhuǎn)變,技術(shù)運(yùn)營的能力建設(shè)以業(yè)務(wù)為中心,交付穩(wěn)定、安全、高效的技術(shù)運(yùn)營服務(wù),從而有力支撐企業(yè)的持續(xù)發(fā)展和戰(zhàn)略成功。技術(shù)運(yùn)營不僅關(guān)注“穩(wěn)定”、“安全”、“可靠”,更要關(guān)注“體驗(yàn)”、“效率”、“效益”。
一、我們從七個(gè)維度提出問題,探究你的技術(shù)運(yùn)營轉(zhuǎn)型之路處在什么水平,是青銅還是王者?
?
監(jiān)控管理:僅僅是有基礎(chǔ)的監(jiān)控能力,還是已經(jīng)實(shí)現(xiàn)高度智能化?
事件與變更管理:僅僅是有基本的事件規(guī)范和變更操作要求和處理風(fēng)險(xiǎn)能力,還是已經(jīng)實(shí)現(xiàn)智能化支撐,具備無人化、自愈和自改進(jìn)能力?
配置管理:僅僅是依靠人工保障配置記錄的管理,還是已經(jīng)實(shí)現(xiàn)智能化配置管理,支持場景智能生成配置對(duì)象的關(guān)聯(lián)規(guī)則和提供準(zhǔn)確的決策依據(jù)?
容量與成本管理:僅僅是具備基礎(chǔ)預(yù)算、基礎(chǔ)設(shè)施容量監(jiān)控與業(yè)務(wù)的指標(biāo)匯聚能力,還是已經(jīng)實(shí)現(xiàn)智能化管理容量與成本?
高可用管理:僅僅是支持流量切換,硬件故障能及時(shí)回復(fù),數(shù)據(jù)庫備份可靠,還是已經(jīng)實(shí)現(xiàn)全面自動(dòng)化和智能化的高可用管理,并持續(xù)改進(jìn)?
業(yè)務(wù)連續(xù)性管理:僅僅是具有基礎(chǔ)的業(yè)務(wù)影響分析與業(yè)務(wù)風(fēng)險(xiǎn)分析能力,有基本的應(yīng)急演練,故障恢復(fù)時(shí)間較長,還是已經(jīng)實(shí)現(xiàn)整體 RTO(恢復(fù)時(shí)間目標(biāo)) 達(dá)到99.995%,引入更多智能化技術(shù),3分鐘內(nèi)完成問題解決?
用戶體驗(yàn)管理:僅僅是具有快速處理用戶體驗(yàn)的投訴問題,具備豐富的業(yè)務(wù)端的數(shù)據(jù)收集能力,還是已經(jīng)引用AI技術(shù),建立業(yè)務(wù)領(lǐng)域級(jí)別的用戶體驗(yàn)類知識(shí)圖譜或?qū)<蚁到y(tǒng)?
二、技術(shù)運(yùn)營能力建設(shè)的5個(gè)段位,每上一個(gè)臺(tái)階都是質(zhì)的飛躍。
?
青銅段位
?
有基礎(chǔ)的監(jiān)控,能滿足對(duì)系統(tǒng)級(jí)(CPU等)的監(jiān)控需求。
具有基本的事件規(guī)范和變更操作要求,可及時(shí)處理事件和管控部分變更風(fēng)險(xiǎn)。
依靠人工保障配置記錄的管理。
具備基礎(chǔ)預(yù)算、基礎(chǔ)設(shè)施容量監(jiān)控與業(yè)務(wù)的指標(biāo)匯聚能力。
支持流量切換,硬件故障能及時(shí)回復(fù),數(shù)據(jù)庫備份可靠。
具有基礎(chǔ)的業(yè)務(wù)影響分析與業(yè)務(wù)風(fēng)險(xiǎn)分析能力,有基本的應(yīng)急演練,故障恢復(fù)時(shí)間較長。
具有快速處理用戶體驗(yàn)的投訴問題,具備豐富的業(yè)務(wù)端的數(shù)據(jù)收集能力。
?
白銀段位
?
有基礎(chǔ)的監(jiān)控,能滿足對(duì)系統(tǒng)級(jí)(CPU等)的監(jiān)控需求。
具有基本的事件規(guī)范和變更操作要求,可及時(shí)處理事件和管控部分變更風(fēng)險(xiǎn)。
依靠人工保障配置記錄的管理。
具備基礎(chǔ)預(yù)算、基礎(chǔ)設(shè)施容量監(jiān)控與業(yè)務(wù)的指標(biāo)匯聚能力。
支持流量切換,硬件故障能及時(shí)回復(fù),數(shù)據(jù)庫備份可靠。
具有基礎(chǔ)的業(yè)務(wù)影響分析與業(yè)務(wù)風(fēng)險(xiǎn)分析能力,有基本的應(yīng)急演練,故障恢復(fù)時(shí)間較長。
具有快速處理用戶體驗(yàn)的投訴問題,具備豐富的業(yè)務(wù)端的數(shù)據(jù)收集能力。
?
黃金段位
?
具有面向應(yīng)用場景的告警與可視化平臺(tái),可實(shí)現(xiàn)常見故障自愈。
完善的事件與變更管理流程,與其他技術(shù)運(yùn)營流程打通,具有平臺(tái)化與可視化能力。
自動(dòng)化配置管理平臺(tái),支持自動(dòng)發(fā)現(xiàn)、靈活擴(kuò)展和關(guān)聯(lián)分析。
具備業(yè)務(wù)容量與基礎(chǔ)設(shè)施容量關(guān)聯(lián)分析能力、柔性服務(wù)能力,靈活成本管控的能力。
自動(dòng)化動(dòng)態(tài)擴(kuò)容,采用分布式緩存、分表分庫、跨庫事務(wù)等技術(shù),同城多機(jī)房實(shí)時(shí)數(shù)據(jù)備份,異地?cái)?shù)據(jù)備份。
整體RTO達(dá)到99.95%,主動(dòng)模擬注入故障并快速定位和解決,2分鐘響應(yīng),5分鐘定位并啟動(dòng)預(yù)案,10分鐘完成問題解決。
具有自動(dòng)跟蹤及用戶改善工具,5分鐘內(nèi)發(fā)現(xiàn)質(zhì)量數(shù)據(jù)異常。
?
鉆石段位
?
監(jiān)控管理實(shí)現(xiàn)閾值動(dòng)態(tài)調(diào)整等初步智能化,全網(wǎng)數(shù)據(jù)秒級(jí)上報(bào),可實(shí)現(xiàn)自動(dòng)化決策。
深度規(guī)范化,部分場景借助智能化技術(shù)實(shí)現(xiàn)管理與質(zhì)量的降本增效。
智能識(shí)別配置對(duì)象的關(guān)聯(lián)關(guān)系,配置信息能為技術(shù)運(yùn)營活動(dòng)提供決策支持。
支持全鏈路的容量管理能力,為技術(shù)和架構(gòu)提供支持。
結(jié)合監(jiān)控自動(dòng)擴(kuò)容縮容,系統(tǒng)拓?fù)浣Y(jié)構(gòu)自動(dòng)梳理。
整體RTO達(dá)到99.99%,應(yīng)急和危機(jī)處理組織結(jié)構(gòu)完備,對(duì)故障基本能通過告警主動(dòng)發(fā)現(xiàn),1分鐘響應(yīng),3分鐘定位并啟動(dòng)預(yù)案,5分鐘完成問題解決。
界定區(qū)分用戶群體及單用戶行為軌跡的完整鏈條的體驗(yàn)表現(xiàn),觸達(dá)運(yùn)營指標(biāo),如回流用戶轉(zhuǎn)化率等。
?
王者段位
?
智能決策、推薦等高度智能化。
實(shí)現(xiàn)大部分場景的智能化支撐,具備無人化、自愈和自改進(jìn)能力。
智能化配置管理,支持場景智能生成配置對(duì)象的關(guān)聯(lián)規(guī)則和提供準(zhǔn)確的決策依據(jù)。
智能化管理容量與成本。
實(shí)現(xiàn)全面自動(dòng)化和智能化的高可用管理,并持續(xù)改進(jìn)。
整體RTO達(dá)到99.995%,引入更多智能化技術(shù),3分鐘內(nèi)完成問題解決。
引用AI技術(shù),建立業(yè)務(wù)領(lǐng)域級(jí)別的用戶體驗(yàn)類知識(shí)圖譜或?qū)<蚁到y(tǒng)。
總結(jié)
以上是生活随笔為你收集整理的【干货】运维,你是青铜还是王者?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【分享】20道Oracle运维常见面试题
- 下一篇: 【ORACLE】20道Oracle运维常