一年之计在于春,新年开工,没有规划完成或规划不够满意的组织,可能需要一份有价值的灾备规划建设攻略。下面就是你的专属攻略。
01
数据安全与业务连续的重要性
IT领域,技术从传统的IT架构到云计算架构的发展,是终端用户对业务操作不断优化需求所驱动的,这种应用体验的性能包括强大的计算力、友好快捷的界面,以及流程持续的安全访问,这些都是能够留住终端用户的关键因素。
支撑这些关键因素成立的一份调查显示: 1秒的延迟,会导致页面转换率降低7%,流量下降11%,用户满意度降低16%;如果在完全竞争环境下,57%的访客在等待3秒后放弃,其中80%访客不会回来,50%访客转向竞争对手。
从这个层面讲,组织机构对于业务的灾备建设的规划和实施,是确保数据安全和业务连续的有效举措。
02
灾备规划建设三部曲
通常我们将业务连续性、灾备规划和灾备方案设计与实施称为灾备规划建设三部曲。
1)业务连续性规划
灾备建设的最终目的就是要保护业务的连续性运行,其具体要求需要通过进行业务连续性规划来确定。因此,业务连续性规划是进行灾备建设的大前提。没有业务连续性规划,灾备建设就没有意义,充其量只能做到数据不丢失,不能及时恢复业务运行,而保障业务连续性运行才是真正核心。通过业务连续性规划,分析梳理出各项业务的恢复优先级及其恢复要求(RTO、RPO以及恢复业务所需的资源等),进行业务连续性规划的方法通常采用国际上流行的DRI十大最佳惯例:
①规划启动与管理
②风险评估与控制(RA)
③业务影响分析(BIA)
④制定业务连续性策略
⑤应急准备及响应
⑥编制和贯彻实施业务连续性计划
⑦认知与培训计划
⑧业务连续性计划的演练、审计和维护
⑨危机沟通
⑩与外部机构的协调
这是国际通用BCM规划的方法,适用于企业和业务功能,当然也适用于信息系统。业务连续性规划确定了保护业务的各项要求(如RTO、RPO等),支持业务运行的信息系统自然就要根据这些要求来确定相应的信息系统恢复目标和恢复策略。
2)灾备规划
灾备是通过保障支持业务的信息系统的连续性运行来实现最终保护业务的正常运行。因此,在通过业务连续性规划梳理出业务的恢复要求和恢复优先级后,就要根据这些要求来梳理支持这些业务的IT应用,同样需要分析出这些IT应用的恢复优先级和恢复指标(RTO、RPO,以及恢复所需的资源等)。
灾备规划采用的方法与业务连续性规划的方法基本一致,主要区别仅在于前者针对的是支持业务运行的IT应用和系统,后者主要关注的是业务流程。这里针对IT应用和系统的恢复要求应该与针对业务的恢复要求相匹配。通过灾备规划,确定所有支持业务运行的IT系统的各项恢复指标,并制定IT系统的恢复策略以及IT系统的恢复计划。
3)灾备方案设计和实施
根据灾备规划对支持业务运行的IT系统提出的恢复要求和恢复策略,来设计灾难恢复技术方案,例如同城灾备、异地灾备、两地三中心、双活、云灾备等等。需要注意的是,评价这些技术方案的适用性时,并非恢复时间越短就越好(恢复时间越短往往成本也越高),满足灾备规划确定的恢复要求(RTO,RPO等)才是最为重要的。只有满足灾备规划提出的恢复指标要求、技术成熟可靠、成本效益高的灾备方案才是最佳选择。
灾备方案的实施是确保所设计的灾备方案真正有效的重要环节,需要制定详细的工作计划,包括场地选址、产品选型、服务商选择、资源保障、项目管理、验收评审、演练测试等内容。同时还应该根据灾备设计方案,结合业务连续性规划要求,制定出完整的灾备计划(包括灾难应急响应总体预案、危机沟计划、各系统的专项应急预案等),确保各部门在灾难发生时能够统一协调地行动。
03
灾备规划的具体方法
1)风险分析与业务影响分析
①风险分析
企业需要根据自身所处环境的实际情况,确定IT运行环境中存在哪些无法接受的物理威胁或者可能发生的灾难,并对灾难发生的可能性、目前可能的防护措施的有效性和该灾难所威胁的资产价值进行分析,最终得到带有优先级别的需要防范的风险及其分级列表,并制订出可能的处理方法。例如接受该灾难发生时的风险而不进行防范、制订该灾难的预防措施或者采取购买保险等风险转嫁策略。
②业务影响分析
在本阶段,通过走访各业务部门的相关人员对各种业务流程进行分析,了解各种业务流程对企业的重要性和时间敏感性。同时根据相关的评判原则,得出在核心流程由于灾难发生而无法正常进行时企业本身的损失情况。这种损失可能是可以量化的,例如单据的丢失、计算的错误而导致的直接损失;也可以是无形的损失,例如客户满意度及竞争优势的丢失。通过对可量化和不可量化损失的综合考虑,得出各种核心业务流程对于灾难受损的可容忍程度,并作为确定其恢复优先级的决策依据,最终确定这些核心业务流程的恢复要求指标,例如RTO、RPO、DOO、NRO以及恢复所需的各种资源等。
2)灾备方案设计
结合分析阶段的分析成果,以及企业本身在灾备上的投入,制订企业短期、长期范围内的灾备策略和目标,并有意识地将企业本身的人员组成和组织架构做出调整以适应策略要求。本阶段最为重要的是制订出灾备的具体实施方案。
灾备方案可供选择的范围很大,但所有的灾备方案都必须考虑的因素包括恢复时间、实施与维护灾备策略所需的投入等。灾备恢复时间的需求越短,所需的实施成本就越大,实施难度也就越高。
3)灾备计划制定
有了IT系统的恢复方案,只能够保证在灾难发生时,IT系统的恢复能够支持业务的恢复目标,但是业务的连续性并不只是IT系统的恢复。因此,灾备方案在设计中还需要涉及包括办公场地、办公设备、紧急流程、指挥架构、人员调度等多方面、多部门的综合考虑。只有业务执行过程的每一个环节都达到灾备目标的要求,才能够认为灾备方案的目标得到了满足。因此,需要制定一个完整的灾备计划,来统一协调各部门在灾难发生时的行动计划。同时制定灾备计划时需要确保其与企业业务连续性计划协调一致。一般来说,每个企业都应该设立一个由领导挂帅,各业务部门和IT部门联合组成的灾备指挥小组。
4)灾备方案实施
灾备体系的搭建经常需要涉及到公司内多个部门的协调,因此在方案实施的过程中,需要把每项工作的内容、目标要求、实施的方法步骤以及督促检查等各个环节都做出具体明确的安排,具体落实到工作分几个阶段、什么时间开展、什么人来负责、领导及监督如何保障等。
方案在实施的过程中具有很强的规定性。方案实施的规定性表现在两个方面:一方面,方案实施要根据方案分析和方案设计的具体操作流程进行,而不能是随意进行。有效的灾备操作流程往往可以节省大量的时间和减少错误。反之,就会带来不必要的损失。例如,在虚拟环境下的灾备系统,就要提前规划需要用几台服务器去虚拟出三十、四十,甚至上百的虚拟服务器,而且需要长期运行。如果没有好的操作流程,这对灾备中心的运维是非常不利的。另一方面,方案实施工作具有强制性,一旦开启,相关部门单位就要按照具体计划认真组织实施。
5)灾备演练
灾备演练是基于不同灾备类别中某一特定的场景而进行的,灾难场景不同、灾备技术复杂度不同,演练的技术过程与周期也不尽相同。
具体的演练包括:系统更新、调整,原有的灾难恢复预案是否仍然有效;灾备系统是否需要进行有效的更新;系统切换流程、步骤是否有遗漏和错误;灾备系统的切换时间是否可以满足业务的恢复需要等等。
04
常见的三种灾备演练方式
1)桌面演练
桌面演练也叫“沙盘推演”,是最基础的灾备演练方式。通过对初始灾难恢复预案的一个理论验证,进而测试急响应预案和灾难恢复体系的完整性和有效性,使相关人员了解应急响应及业务恢复流程,全面验证技术及业务管理指挥、流程操作、协调配合等方面的综合能力。桌面演练工作量小,易于实施,可以根据实际需求灵活开展,并可以模拟多个场景。
2)模拟演练
模拟演练以桌面演练结果为基础,由IT部门与相关业务部门参加模拟演练,采用模拟数据和模拟业务系统运行演练。模拟演练的过程高度接近真实灾难发生时的处理过程,通过演练可以检验灾备系统的可用性、灾难恢复预案的可行性以及增加参演人员对灾难处理过程的感知度与配合的默契度。
模拟演练是一种对现有生产环境没有影响的演练方式,由于需要虚拟出较为真实的使用场景,因此在技术上的要求较高。
3)实战演练
实战演练需要灾备中心真正接替生产运行一段时间,是在具体设定的灾难场景下,将业务切换到灾备中心及业务恢复环境,并在完成数据、应用及业务恢复后由灾备系统提供对内对外的业务服务,原来的生产环境可以进行必要的系统维护或者为灾备环境提供备份支持。
作为灾备演练的最高的阶段,实战演练的场景最为真实,更易于发现潜在问题并进一步完善灾备系统,但随之而来的就是演练成本的提高。因此,在实战演练中,也会存在很多挑战,这时,关键是要获得高管层的理解和支持,使其理解并支持成功演练的标,同时能够发现问题改进计划才是成功的演练(无论是否用到真实环境),应避免流于形式的表演。
验证已建成灾备系统的可用性、有效性,通过演练结果来修正、补充、完善灾备恢复预案并为灾备系统的升级建设提供理论依据及数据指标,从而使企业在灾备建设中有据可依,保证建成的灾备系统能充分实现建设的目的、达到建设的目标。这就是灾备演练的意义所在,并敢于考验演练中团队的决策与指挥能力。
05
专家服务(ADTIS)
1)定义
英方专家服务是灾备行业常见的咨询服务,已经推出的ADTIS专家服务业务,旨在减少中间环节、降低无效成本,并最终实现快速部署、高效可靠的专家级业务服务体系,从0到100,全程专家指导。
2)特点
针对性强、效力高、可执行;
阶段划分和决策点明晰;
经验证的模块化实施方法;
终身服务。
3)专家服务的5个阶段
专家服务的5个阶段
①评估阶段(Assessment)
需要对企业的整体灾备目标及投入进行有效的评估,包括RPO、RTO的相关指标以及IT系统的整体架构,主要以专题会的形式进行,并且就相关事项形成书面纪要,评估阶段主要以免费的形式进行,但由于评估阶段也需要投入大量的资源进行对接,因此部分服务会保留收费的权利。
②设计阶段(Design)
针对评估的具体结果,在双方合作意向明确的前提下,由专家团队主导进入设计阶段。此阶段将会直接影响项目的最终交付。因此,英方将以经验证过、稳定的系统为蓝本提供完善可执行的灾备设计规划,并在此过程中,积极听取需求方的意见。
③测试阶段(Test)
为保证项目的顺利进行,英方将对已经设计好的灾备系统进行实地测试,同时保证在测试的过程中不对用户的现有系统造成影响,测试阶段主要包括软件的具体使用、功能的具体实现以及灾备演练。测试可以暴露灾难恢复计划的不足之处,测试也可以帮助我们评估计划执行人员的快速响应能力和效率,灾难恢复计划的每一个要素都必须测试,保证其恢复过程的准确性。
④实施阶段(Implementation)
此阶段指项目的现场或远程交付阶段,此阶段的主要工作是项目实施人员根据设计、测试阶段确认的具体需求内容进行具体功能的实现工作。在功能实现的过程中,项目实施人员将记录软件实现的详细过程,便于售后服务之用。每一个实施技术人员都将严格按照要求记录、存档。
⑤维护阶段(Support)
在新需求、新技术的不断涌现以及新的内部和外部规则的变化过程中,IT系统也会随之改变,所以要确保灾难恢复计划的有效性就必须定期的检查和修改计划。项目上线运行后,系统运营维护的主要工作将交由客户进行,但英方将提供一整套完善的技术支持服务,保证在产品生命周期内有效性。
以上内容出自英方工程师给成千上万用户进行灾备规划建设后总结的经验,对每个行业用户有一定的借鉴意义。而在解决具体问题时,需要工程师对生产环境进行详细的分析,如果你有这方面的服务需求,欢迎给本公众号留言,向英方全国各地的技术工程师顾问进行咨询(注明地域+姓名+单位+联系方式)。
及时响应,快速服务,为您保驾续航
立即注册