ISC2 CC Notes 2 Business Continuty and Disaster Recovery
Domain 2:業務連續性 (Business Continuity) 與災害復原 (Disaster Recovery)
Domain 2 涵蓋了組織在面對中斷事件時如何維持運作以及如何從中恢復。這個領域非常重要,因為它提供了應對災害情境和確保業務生存的架構。
業務連續性計劃 (BCP)
- 目的: BCP 是組織的 長期戰略計劃,旨在確保在發生中斷事件後能持續運作。它是一個 總括性計劃,包含許多子計劃。BCP 涵蓋了 整個組織,而不僅僅是 IT。
- 組成部分: BCP 包含了災害情境和復原步驟。它是一個 疊代過程,需要與關鍵員工和顧問一起編寫。
- 相關計劃: BCP 包含或與其他計劃相關聯:
- 營運持續計劃 (COOP):詳細說明如何在災害期間維持營運,包括如何安排員工前往備用站點,以及在減少容量下運作最多 30 天所需的所有營運事項。
- 危機溝通計劃 (Crisis Communications Plan):CMP 的子計劃,說明在危機期間如何進行內部和外部溝通。它指定了誰可以對媒體發言,以及誰可以向內部人員傳達什麼訊息。
- 網路事件應變計劃 (Cyber Incident Response Plan):說明如何在網路事件(如 DDOS、病毒等)中應對。這可以是 DRP 的一部分,也可以是獨立的計劃。
- 人員緊急應變計劃 (OEP - Occupant Emergency Plan):說明如何在災害事件中保護設施、員工和環境。這可能包括火災、颶風、洪水、犯罪攻擊、恐怖主義等。它著重於安全和疏散,並詳細說明如何疏散以及員工應接受的訓練。
- 業務復原計劃 (BRP - Business Recovery Plan):列出了從中斷事件中復原後恢復正常業務營運所需的步驟。這可能包括將營運從備用站點切換回(已修復的)主要站點。
- 支援持續性計劃 (Continuity of Support Plan):狹隘地關注特定 IT 系統和應用程式的支援。也被稱為 IT 應急計劃 (IT Contingency Plan),強調 IT 而非一般的業務支援。
- 危機管理計劃 (CMP - The Crisis Management Plan):確保組織管理層在緊急或中斷事件發生時能進行有效的協調。它詳細說明了管理層必須採取的步驟,以確保在災害發生時立即保護人員的生命安全和財產。
- 高階管理層的角色: 高階管理層必須參與 BCP/DRP 過程的啟動和最終批准。他們對計劃負責並擁有計劃。他們最終負有責任,必須展現 應有的謹慎 (due-care) 和 應有的努力 (due-diligence)。在嚴重的災害中,應由高階管理層或法律部門的人員對媒體發言。他們對優先順序、實施和計劃本身擁有最終決定權。組織應該有 由上而下的 IT 安全文化。
- BCP 步驟: 典型的 BCP 流程包括:BCP 政策 → 業務影響分析 (BIA) → 識別預防性控制 → 制定復原策略 → 制定 DRP → DRP 訓練/測試 → BCP/DRP 維護。
災害復原計劃 (DRP)
- 目的: DRP 專注於 IT 系統。它回答了在災害情境中如何 足夠快地復原 的問題。
- DRP 生命週期: DRP 具有一個生命週期,包括 緩解 (Mitigation)、準備 (Preparation)、應對 (Response) 和 復原 (Recovery)。
- 緩解: 減少災害影響和發生的可能性。
- 準備: 開發計劃、程序和工具。
- 復原考量: 評估供應商、承包商和基礎設施的影響。確保資料中心的功能和連接性。
- 模擬測試: 用於在實際災害發生前找出計劃中的不足之處。
- DRP 審查 (DRP Review):DRP 團隊成員快速審查計劃,尋找明顯的遺漏或空白部分。
- 通讀/清單檢查 (Read-Through/Checklist):經理和各功能領域的員工通讀計劃,並檢查復原過程中所需的各項要素清單。
- 演練/桌面演練 (Walk/Talk-through/Tabletop):一組經理和關鍵人員坐下來討論復原過程。這通常可以暴露可能阻礙復原的漏洞、遺漏或技術不準確性。
- 模擬測試/演練 (Simulation Test/Walkthrough Drill):團隊模擬一個災害情境,各團隊根據 DRP 做出反應。
- 實體測試 (Physical Tests):
- 部分中斷 (Partial Interruption):中斷單一應用程式,並將其故障轉移到備用設施。通常在非上班時間進行。
- 應對: 在災害發生時快速有效地做出反應。評估警報或發現的事件是否嚴重到可能構成災害。
- 復原: 將系統恢復到可運行的狀態。
業務影響分析 (BIA)
- 目的: BIA 是 BCP 的一個組成部分。它用於識別關鍵業務功能及其對中斷的依賴性和影響。
- 關鍵指標: BIA 幫助定義了幾個關鍵的時間和數據指標,用於確定復原策略和目標:
- 最大可容忍停機時間 (MTD - Maximum Tolerable Downtime):系統在對組織造成嚴重影響之前可以停運的總時間。MTD 必須大於或等於 RTO + WRT。其他術語包括 MAD、MTO、MAO、MTPoD。請記住,經歷數據嚴重損失的公司,有 43% 永不再營業,29% 在兩年內關閉。
- 復原時間目標 (RTO - Recovery Time Objective):恢復系統(硬體)所需的時間。RTO 必須在 MTD 限制內。
- 工作復原時間 (WRT - Work Recovery Time):配置恢復的系統以恢復業務功能所需的時間。
- 復原點目標 (RPO - Recovery Point Objective):可以容忍丟失的數據量。RPO 必須確保每個系統、功能或活動的最大可容忍數據損失不被超過。
- 平均故障間隔時間 (MTBF - Mean Time Between Failures):系統在發生故障前的平均運行時間。
- 平均修復時間 (MTTR - Mean Time to Repair):修復故障系統所需的時間。
- 最低營運要求 (MOR - Minimum Operating Requirements):關鍵系統運行所需的最低要求。
復原策略 (Recovery Strategies)
根據 MTD,組織可以確定其應對災害的方法和採取的防範措施。主要的復原站點類型包括:
- 冗餘站點 (Redundant Site):與生產站點完全相同,接收實時數據副本。具備自動故障轉移功能,應地理位置上遠離。這是最昂貴的選項,使用者不會注意到故障轉移。
- 熱站點 (Hot Site):容納關鍵系統,數據接近實時或實時。通常是較小的完整數據中心,但需手動故障轉移。切換可以在一小時內完成。
- 溫站點 (Warm Site):基於備份的數據,需要手動故障轉移。切換和恢復需要 4-24 小時或更長時間。通常是一個較小的完整數據中心,但沒有實時或近實時數據。
- 冷站點 (Cold Site):只提供基礎設施,沒有硬體或備份。這是最便宜但復原時間最長的選項(可能需要數週或更長)。
- 互惠協議站點 (Reciprocal Agreement Site):與另一組織簽訂合同,在災害發生時互相提供空間。可以是承諾的空間或完全獨立的機櫃。
- 訂閱/雲站點 (Subscription/Cloud Site):支付外部提供商,根據服務等級協議 (SLA) 提供復原服務。
- 移動站點 (Mobile Site):輪式數據中心,設備齊全。可能需要電源和網路連接。
事後檢討 (Lessons Learned)
- 在經歷中斷事件或故障轉移測試後,進行 事後檢討 非常重要。這個階段經常被忽略。
- 事後檢討應 專注於改進,而不是歸咎責任。
- 從中獲得的見解應被納入 BCP 和 DRP 的更新中。
計劃維護 (Plan Maintenance)
- BCP 和 DRP 是 疊代過程,需要 定期更新。
- 應 每年至少審查和更新一次。
- 取回並銷毀過期版本,分發當前版本。
事件管理 (Incident Management)
- 目的: 監控和應對安全事件。確保應對是可預測且眾所周知的。
- 事件類型: 事件可以分為幾類:
- 自然災害 (Natural):由自然引起,例如地震、洪水、龍捲風、雪災等。
- 人為事件 (Human):由人類引起。可以是 故意的 (Intentional)(如惡意軟體、恐怖主義、DOS 攻擊、駭客行動主義、釣魚等)或 無意的 (Unintentional)(如錯誤、疏忽、員工使用個人 USB 傳播惡意軟體等)。
- 環境事件 (Environmental):與自然災害不同。例如停電、硬體故障、環境控制問題(熱、壓力、濕度)等。
- 其他定義:
- 事件 (Incident):發生在系統或網路上的多個不利事件,通常由人引起。
- 問題 (Problem):起因不明的事件,需要進行根本原因分析以防止再次發生。
- 不便 (Inconvenience):非破壞性故障,如硬碟故障或伺服器集群中一台伺服器宕機。
- 緊急情況/危機 (Emergency/Crisis):具有潛在生命或財產損失風險的緊急事件。
- 災害 (Disaster):整個設施在 24 小時或更長時間內無法使用。如果具備地理分散和冗餘,可以極大緩解這種情況。雪災也可以是災害。
- 浩劫 (Catastrophe):設施被摧毀。
- 事件管理步驟: 標準的事件管理流程包括:
- 偵測 (Detection):識別潛在的安全事件。
- 應對 (Response):採取初步行動來遏制事件。
- 緩解 (Mitigation):理解並解決事件的根本原因。
- 報告 (Reporting):記錄事件細節並通知管理層。報告是持續的,從偵測到惡意活動就開始。報告分為技術和非技術兩方面。
- 復原 (Recovery):將系統恢復到可運行的狀態。
- 補救 (Remediation):在系統間擴大緩解措施。
- 事後檢討 (Lessons Learned):分析和改進未來的應對措施。包括 根本原因分析 (Root-Cause Analysis),試圖確定導致事件發生的潛在弱點或漏洞。
- 網路事件應變小組 (CIRT - Cyber Incident Response Team):通常包括高階管理層、事件經理、技術負責人及團隊、IT 安全人員、公關、人資、法務以及 IT/財務稽核師。
常見的威脅和問題 (Common Threats and Issues)
- 錯誤和遺漏 (Errors and Omissions - 人為):員工的錯誤,通常影響較小,但可能造成損害。如果這些問題被認為非常常見或具有潛在破壞性,可以建立控制措施來緩解它們。
- 電氣/電力問題 (Electrical/Power Problems - 環境):停電和電壓波動。需要不斷電系統 (UPS) 和發電機備份。
- 環境控制 (Environmental Controls):管理資料中心的熱、壓力、濕度以保護硬體。正壓保持外部污染物不進入。濕度應保持在 40% 到 60% 之間,低濕度會產生靜電,高濕度會腐蝕金屬(電子設備)。
- 戰爭、恐怖主義和蓄意破壞 (Warfare, Terrorism, and Sabotage - 人為):除了傳統衝突外,還有許多發生在網路上的活動,駭客攻擊為了各種原因(國家、宗教等)。
希望這個詳細的解釋對您有所幫助!