业务连续性管理—第四篇—业务连续性总结和灾难恢复
一、引言
在我們日常工作中常常會將業務連續性管理(BCM)和災難恢復(DR)兩個概念混淆,兩者之間有內在聯系,但也有所不同。業務連續性管理更加寬泛,關注企業的戰略,以保障業務運營為目標,解決全生命周期的問題,而后者更加注重具體操作,以系統為目標,著重解決事中的問題,同步處理事后的問題。一般來講,可以將災難恢復做為業務連續性的一個部分,但不是全部。
1)按照CISSP中的定義
災難恢復的目標是盡量減少災難或中斷帶來的影響。這意味著要采取必要的步驟以確保資源、人員和業務流程能夠及時恢復運行。這與連續性規劃不同,連續性規劃提供給我們處理長期運營中斷和災難的方法和程序。災難恢復計劃的目標是在災難之后,處理災難及其后果;災難恢復計劃已信息技術為核心。災難恢復計劃是當一切事情仍處于緊急模式時實施的計劃,其中每個人都爭相所有關鍵系統重新聯機。業務連續性規劃采取一個更廣泛的解決問題的方法。它可以包括在計劃實施中對原有設施進行恢復的同時在另一個環境中恢復關鍵系統,使正確的人在這段時間內回到正確的位置,在不同的模式下執行業務直到常規條件恢復為止。
2)按照NIST SP800-34的定義
業務連續性計劃(BCP):業務連續性計劃的重點是在中斷期間和中斷之后維持組織的任務/業務流程。任務/業務流程的示例可以是組織的工資單流程或客戶服務流程。業務連續性計劃可以針對單個業務單元內的任務/業務流程編寫,也可以針對整個組織的流程。
災難恢復計劃(DRP):DRP適用于拒絕長期訪問主要設施基礎設施的重大、通常是物理性服務中斷。DRP是一種以信息系統為中心的計劃,旨在在緊急情況發生后恢復備用站點上目標系統、應用程序或計算機設施基礎設施的可操作性。一旦備用設施建立,DRP可由多個信息系統應急計劃提供支持,以解決受影響的單個系統的恢復問題。DRP可以通過在備用位置恢復任務/業務流程或任務基本功能的支持系統來支持BCP或COOP計劃。DRP只處理需要重新定位的信息系統中斷。
3)按照GB/T 30145-2013/ISO 22301:2012和GB/T 20988-2007 定義
業務連續性管理 (business continuity management):識別對組織的潛在威脅以及這些威脅一旦發生可能對業務運行帶來的影響的一整套管理過程。該過程為組織建立有效應對威脅的自我恢復能力提供了框架,以保護關鍵相關方的利益、聲譽、品牌和創造價值的活動。
業務連續性計劃:用于指導組織在業務中斷時進行響應、恢復、重新開始和還原到預先確定的業務運行水平的形式文件的程序。
災難恢復 (disaster recovery):為了將信息系統從災難造成的故障或癱瘓狀態恢復到可正常運行狀態、并將其支持的業務功能從災難造成的不正常狀態恢復到可接受狀態,而設計的活動和流程。
總結:
針對三個標準的理解,各個標準關于術語定義描述各有側重,但筆者更加傾向于NSIT的定義。筆者認為:業務連續性計劃是基于企業戰略的、處理長期的、面向中斷中和后維持業務連續性的規劃,核心是業務連續;災難恢復計劃是面向重大的、災難性的系統故障,在異地恢復業務暫時性正常運轉的計劃。災難恢復解決的臨時性的、針對異地恢復的臨時性計劃。業務連續性管理從涉及的內容看,包含了災難恢復計劃,還包括高可用性。業務連續性更多側重策劃、執行和管控,災難恢復更注重執行。
本文是筆者近期,短時間內所學的總結,一定會有理解不對的地方,后期根據知識的更新,會進行更新。總之,業務連續性和災難恢復,無論從安全角度,還是企業運營的角度是十分重要的。其投資回報是隱性的,但不能因為看不到,摸不著就不投入,一旦事件發生,后悔莫及。因此規劃須是自上而下的執行,首先要先從思想的統一,需要高層的支持,作為一把手工程去抓,否則就成了光說不練假把式。
以下內容,主要以IT的視角對業務連續和災難恢復進行總結。
二、業務連續性管理
業務連續性管理具體包括:
出現緊急情況時提供及時和適當的應對措施
保護生命和確保安全
減少對業務的影響
恢復關鍵業務功能
在災難時減少混亂
確保企業的生存能力
在災難發生后迅速“啟動并運行”
具體流程和里面涉及的細節進行闡述。
1.BCP的啟動階段工作
1)BCP項目啟動前準備活動
確定BCP需求,可以包括有針對性的風險分析以識別關鍵系統可能的中斷
了解相關法律、法規、行業規范以及機構的業務和技術規劃的要求,以確保BCP與其一致
任命BCP項目負責人,建立BCP團隊,包括業務和技術部門的代表
制定項目管理計劃書,其中應明確項目范圍、目標、方法、責任、任務以及進度
召開項目啟動會,獲得管理層支持
確定收集數據所需的自動化工具
設置必要的技能培訓和意識提升活動
2)工作任務
計劃的開發團隊與管理層的溝通和聯絡
有權與計劃相關所有人進行直接接觸和溝通
充分了解業務中斷對機構業務的影響
熟悉機構的需求和運作,有能力平衡機構相關部門的不同需求
與高級管理層對話
了解機構業務方向和高管理層的意圖
有能力影響高級管理層的決策
3)BCP項目的關鍵角色
恢復團隊:災難后進行評估、恢復、復原等相關工作的多個團隊
業務部門代表:識別機構的關鍵業務功能,協助恢復策略的選擇和制定
IT部門
通信部門
信息安全部門
法律代表
必須建立的團隊:
損失評估團隊:確定災難原因;確定進一步破壞的可能性;標識影響的業務和領域;標識關鍵資源可用程度;標識必要的資源;評估要多久完成。若評估時間超過原來評估的MTD值,立即啟動升級BCP。
還原/重建團隊(restoration):讓備用站點投入運營
救援團隊(salvage): 把備份站點在轉到主站點,讓主站點恢復運營。
3)BCP目標
確定信息收集技術
選擇受訪者
識別關鍵業務功能(critical business functions)及其支持資源
確定如果失去這些資源的支持這些功能能存活多久
識別弱點和威脅
計算每個業務功能的風險
準備提交BIA報告:存在的問題、應對建議
BCP策略:BCP規劃最終應該形成業務連續性策略條款,該條款記錄的BCP的目標、范圍、需求、基本原則和指導方針、職責和責任、關鍵環節的基本要求。策略條款應得到高級管理層的正式批準,并公布成為機構的政策,指導業務連續性的相關工作。
2.BIA分析
主要工作內容:
確定關鍵功能
確定關鍵資源
計算MTD資源
識別威脅
計算風險
確定方案
1)BIA過程
2)BIA分析方法
定性分析以劃分嚴重程度的方式得出災難或中斷事件造成的影響
定量分析以貨幣的方式得出災難或中斷事件造成的影響
BIA的信息分析過程:整理(Organize) 歸納(Correlate) 分析(Analyses)和確認(Confirm)
BIA分析中斷的影響,確定每項業務功能的恢復窗口,具體會涉及幾個值:
工作復原時間, Work Recovery Time,WRT:從系統正常運轉,恢復業務的時間(數據恢復)
恢復時間目標,Recovery Time Object,RTO:在系統的不可用性嚴重影響到機構之前所允許消耗的最長時
恢復點目標,Recovery Point Objectives,RPO:數據必須被恢復以便繼續進行處理的點。所允許的最大數據損失量
RTO+WRT<=MTD
關于MTD與RPO、RTO和WRT的關系如下圖:
關于網絡和資源可用性指標
平均修復時間(MTTR):修復一臺設備并使其投入生產狀態所需的時間
平均無故障時間(MTTF):計算機系統平均能夠正常運行多長時間,才發生一次故障。系統的可用性越高,平均無故障時間越長。
平均故障時間間隔(MTBF):期望一臺設備可靠運行估計時間.是衡量一個產品(尤其是電器產品)的可靠性指標,單位為“小時”。它反映了產品的時間質量,是體現產品在規定時間內保持功能的一種能力。
總結:組件越多,整體可靠性越低
3)風險評估
應當識別、評估和記錄以下內容:
組織中對時間最敏感的資源和活動的所有脆弱點
組織中最緊迫的資源以及活動的威脅和危害
衡量關鍵的服務和產品中斷的可能性、時間長度以及造成的影響。
單點故障的情況
由于關鍵技能的缺失造成的業務連續風險
由于外包供應商和供應商造成的業務持續性風險
因BCP計劃沒有涵蓋本部門或者BCP計劃沒有很好地落實而造成的業務連續性風險
3.確定預防控制措施
主要的目標實施控制,以降低風險
1)數據備份方案的選擇
數據備份開始位置:歸檔位。
歸檔位:操作系統的文件系統通過設定歸檔位來跟蹤發生變化的文件。
完全備份(fullbackup):整個數據的備份
增量備份(incrementalprocess):對最近完全備份和增量備份以后發生的所有文件進行備份;階段性疊加;占用空間少,但恢復慢,恢復時需要把所有增量加上全備份進行恢復
差量備份(differentialprocess):對最近完全備份發生改變的部分進行備份;與完全備份的差異部分備份;需要空間大,恢復快。恢復時只需要最新一次差量和一個完備
具體關系圖如下:
完全備份是增量備份和差異備份的前提條件,首次需要先完成一次完全備份后才能開在增量備份、差異備份。若選擇差異備份,當要恢復數據時需要選擇一次完全備份和以此完全備份為基礎的最近一次的差異備份,這種方式的缺點是備份時間長、占用空間大,例如開始數據10G,每天增加1G,那么完全備份的數據是10G,第一天的差異備份是1G,第二天的是1G+1G,第三天的是1G+1G+1G,這樣恢復時,只需要恢復一個完全備份,選一個需要恢復時間點的差異備份即可;若選擇增量備份,但恢復數據時需要選擇一次完全備份和以此完全備份為基礎的所有增量備份,這種方式缺點是恢復慢,例如開始書記10G,每天增量1G,那么完全備份的數據是10G,第一天是1G,第二天是1G,第三天是1G,這樣恢復時,需要先恢復完全備份,然后恢復第一天,再恢復第2天,再恢復第3天。順序不能亂。
2)高可用性
應用層(負載均衡+高可用)、數據層(rac)、設施層(HA)
3)電子備份解決方案
磁盤映像(diskduplexing)(RAID 1)
電子傳送(electronicvaulting):在文件發生改變時進行備份,再定期傳送到另一個地點;不是實時 (使用備份軟件)
電子鏈接:一種實時備份到異地設施批量傳送方法(使用備份軟件/備份設備)
遠程日志處理(remotejournaling):離線數據傳輸方法;只將日志或事務處理日志傳送到異地,不傳送實際文件;類似數據庫的歸檔;通過日志可重建丟失的數據,實際為數據被增刪改的記錄;實時發生(歸檔日志)
4)設施選擇
完備場所(hot sit):擁有與主站點的所有軟硬件設施,唯一缺的是數據。在幾個小時就能投入運營
基本完備場所(warm site):只配置了主要軟硬件
基礎場所(cold site):只提供機房環境
軟件備份:代碼第三方托管
5)其他因素
網絡和計算機設備冗余
語音和數據通信資源冗余
人力資源
設備和人員運送
環境問題
數據和人員安全
辦公資源
文檔記錄
外包:一種風險轉移措施
互惠協議(reciprocal agreements):組織間用于分享宕機風險。在災難發生時,每個組織承諾承擔彼此的數據和處理任務。
4.制定恢復策略
業務流程、設施、供應和技術、用戶和用戶環境、數據
恢復策略的選擇必須符合組織需求
成本效益分析(CBA)
建立策略的初始費用
維護恢復策略解決方案的持續費用
方案定期測試的費用
通信相關的費用
5.制定BCP
文檔化程序包括:計劃程序、恢復程序、恢復解決方案、角色和任務、應急響應
業務連續性計劃流程如下:
a)確定業務關鍵功能
公司的業務計劃通常就決定了公司關鍵的使命和業務功能。必須為這些功能設定優先級別
b)確定支持關鍵功能的資源和系統
在確定了關鍵的功能之后,就有必要找出實現這些功能究竟需要那些支持。
需要有人來對這些資源進行分析,這樣的分析應該由那些理解資源并知道它們是如何為企業提供功能的人來完成。
c)估計潛在的災難事件
確定所有可能的意外事故和災難
BIA的結果作為以上的輸入。
d)選擇計劃策略
制定有關如何恢復關鍵資源和評估應急方案
6)實施策略
一旦決定了策略,就需要將它們歸檔,這使得我們的努力從純粹的計劃階段進入到了實際的實施和行動階段。
6.操作、演練和測試
需要對業務連續性計劃做定期測試,因為環境總是在持續變化,每一次測試都能夠帶來一些改進。一般會形成以下計劃:
測試計劃
改進計劃
培訓計劃
1)具體測試類型包括:
清單/檢查表測試(checkling test):計劃副本發涉及的部門讓他們審核,避免出現不切實際或遺漏的措施。
各部分分頭審核提意見
組織演練測試/結構化排練測試(structured walk-through test):各部門人員聚在一起審核計劃。
聚集在一起審核提意見
模擬測試(simulation test):所有相關人聚集在一起,根據某個場景展開練習如何執行災難恢復計劃。測試每個人的反應。確保沒有遺漏步驟。測試過程只包含哪些實際災難中可能存在的情況。測試一直持續到搬到了異地設施處并真正配置了替換設備為止。
所有人聚集一起測試,選定場景,知道設備搬到異地備份結束。
并行測試(parallel test):系統搬到備用廠所運行,然后與原廠所對比。
只系統搬到異地,本地還運行,對比分析
全中端測試(full-interrupution test):完全模擬真實場景,原站點關閉,備用站點啟用。
本地全停用,異地啟用,管理層批準,先要完成并行測試。
2)測試策略包含測試目標和范圍
測試BCP/DRP 每年至少測試一次: 當重大變更發生時需要進行測試
測試目標剛開始可以簡單逐漸增加復雜度、參與級別、職能以及物理位置
測試不要危及正常業務運行
測試展示在模擬危機下各種管理和響應能力,逐漸增加更多的資源和參與者
揭示不恰當之處以便修正測試程序
考慮偏離測試腳本插入意外事件,比如關鍵個人或服務的損失
包括足量所有類型交易確?;謴驮O施適當的能力和功能
測試策略包含測試計劃:基于預定的測試范圍和目標
包含測試計劃評審程序
包含各種測試場景和方法的開發
測試計劃:主測試計劃應包括所有的測試目標
測試目標和方法的具體描述
所有測試參加者包括支持人員的角色
測試參與者的委派
測試決策制定者和后續計劃
測試位置
測試升級條件和測試聯系信息
7.維護BCP
整合到變更控制流程中,主要包括:
分配責任
更新計劃
更新后發布
8.應急事件處理流程
再造階段(reconstittutionphase):當公司開始搬回原來的場所或搬進一個新設施時。
三、災難恢復計劃
災難恢復:指自然或人為災害后,重新啟用信息系統的數據、硬件及軟件設備,恢復正常商業運作的過程。
災難恢復目標:降低災難或業務中斷的影響;采取必要的步驟保證資源、人員和業務流程盡快恢復運作。往往更加關注IT層面。
預防性措施與恢復戰略的區別
預防性是不僅降低公司經歷災難的可能性,同時減輕破壞程度,對災難本身進行緩解
恢復戰略是災難發生后用于保護公司的方法,利用提供備用場所,對災難本身沒有啥改變
業務流程恢復:是一組相互關聯的步驟,它通過特定的決策活動完成具體的任務
DR包括反應、人員、溝通、評估、恢復和培訓
災難恢復計劃執行大體上可以以下幾步組成:
響應階段:開始判斷災難的原因,先分析才能對癥下藥。
溝通階段:針對事件情況進行溝通評估
評估階段:確定需要立即替換的資源、判斷關鍵系統上線的時間,為下一步工作作準備,并確定是否啟動BCP計劃。
恢復階段:宣告災難,開始災難恢復。
四、其他相關計劃
業務連續性計劃:著重于恢復必須重建的業務流程而非IT組件
操作連續性計劃:在災難發生后建立高級管理層和總部,說明角色、權威,繼任的先后順序
IT應急計劃:用于網絡、系統和主要應用程序恢復的過程計劃
緊急通信計劃:包括內部和外部溝通結構和角色
網絡事故響應計劃:主要關注惡意軟件、入侵攻擊和其他安全問題
災難恢復計劃:重點說明在發生災難后恢復各種IT機制
場所應急計劃:人員安全和撤離程序。
特別聲明:
1.以上所有描述內容部分參考鏈接/文獻未逐一列出,若有侵權,請及時告知,有則改之無則加勉。
2.以上僅是學習過程的總結,相信有很多理解偏差的地方,特別希望指出,給予幫助,更新知識體系,共同進步。
3.以上內容大部分是采用百度翻譯,結合自己的理解,所有有些理解偏差的,請批評指正!
參考文獻:
<wiz_tmp_tag id="wiz-table-range-border" contenteditable="false">
來自為知筆記(Wiz)
總結
以上是生活随笔為你收集整理的业务连续性管理—第四篇—业务连续性总结和灾难恢复的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 15款优秀移动APP产品原型设计工具
- 下一篇: 电脑版怎么打印资料电脑如何打印资料
