-
1.0 智能化园区网络解决方案
-
2.0 智慧无线整体解决方案
-
3.0 数据中心IT解决方案
-
4.0 信息安全整体解决方案
-
5.0 统一通讯解决方案
-
6.0 综合布线系统解决方案
-
7.0 数据中心机房建设解决方案
-
8.0 物联网综合解决方案
-
9.0 智能化弱电系统解决方案
-
10.0 信创解决方案
一、 前言
随着各项业务系统信息化、数字化进程的发展,数据越来越成为日常运作的核心决策发展的依据。有机构研究显示:丢失300MB的数据对于市场营销部门就意味着13万元人民币的损失。对财务部门就意味着16万的损失,对工程部门来说损失可达80万。而企业丢失的数据如果15天内仍得不到恢复,企业就有可能被淘汰出局。如CIH和爱虫等病毒给国际社会造成损失多达数十亿美金。国内有客户误删有效数据由于没有备份造成停业手工重新录入,给企业造成损失数十万元。这种教训在国内时有发生,这都说明了保证信息数据安全的重要性。
信息系统安全防护措施的制定和实施是保证信息系统的稳定性、可靠性、安全性、可用性的利器。目前网络系统覆盖全院的每个部门,涵盖各项业务系统每一个环节,几百台计算机同时运行,支持各方面的管理,成为开展服务的业务平台,信息系统的安全性直接关系到工作的正常运行,一旦网络瘫痪或数据丢失,将会给公司及企业带来巨大的灾难和难以弥补的损失。因此,计算机网络系统的安全工作非常重要,特别是核心业务数据库服务器系统的安全,必须制定周密的安全维护措施,以确保计算机网络系统持久、稳定、高效、安全的运行。
对数据安全的威胁或侵犯大致可以分为以下几类:
自然灾害:自然的或意外的事故、灾难,例如地震、水灾、火灾等导致的硬件损坏,进而导致数据的损坏和丢失。
人为疏忽:由授权用户造成的无意损害,特别在批处理作业的情况下。
恶意破坏:存心不良的编程人员,技术支持人员和执行数据库管理功能的人员的破坏,毁损及其他行为。
犯罪行为:盗窃行为,监守自盗,工业间谍,出卖公司秘密和邮件列表数据的雇员。
隐私侵害:不负责任的猎奇,竞争者查看数据,为政治和法律目的获取数据
诸如此类的事件都有可能随时在我们的身边发生。那么在这些事故导致的后果是什么呢?至少,我们很难想象这么不幸,而且在当下,政府对行业有了明文的规定,对各项业务数据保留时间都有了严格的要求,保证信息化的安全、可靠,变成了必须紧急面临的问题。
二、 信息化现状及需求分析
信息化面对整个内部的MES、WEB、数据库、物理系统、文件系统等,整体的管理均基于信息化平台之上,所以信息化平台的稳定性对现在、未来的发展至关重要。
一般信息化基于传统的服务器及存储设备,在正常的情况下,信息化对风险的抵御能力是相对薄弱的。目前,公司基本上由X86服务器组成,其核心业务系统、数据应用、文件系统均部署在多台独立的X86结构的服务器上,服务器系统数据全部都是通过人工备份,无完整自动的数据备份系统,面对日益增长的数据化应用,公司的信息化安全存在一定极大的安全隐患,具体如下:
(1) 基于X86的服务器运行于信息化系统里,较常见会出现因中病毒、人为操作误删除、误改等逻辑错误,信息化目前的业务系统无法进行回滚和追溯,而实际落地的数据只是一个结果呈现,如果生产环境一旦发生故障,只能接受故障所带来的损失;
(2) 在单机服务器上跑某个具体的应用,一旦物理服务器发生故障,不单纯是一种应用宕机,而是针对于应用调用机制的WEB服务、数据库和后台的数据分析等,多种应用会同时宕机,带来的风险和影响值是非常大的;
(3) 多台服务器,任意一台服务器故障一定会导致一种或多种应用的宕机,甚至是数据损毁,而目前将整个业务系统的数据和应用架构于多台独立的、分散的应用服务器上,形成了分散的多份数据,不管原方案是否涉及到存储设备,方案中会形成大量的单点故障,对信息化的整体安全都存在严骏的风险,任意一份、两份或多份数据丢失,其后果将不堪设想;
(4) 演练的实现同样重要,做为任何一家的IT负责人员,对信息化可能出现的灾难、事故、故障、影响应控制在一个可以管控的范围内,即使信息打造的多么强大,对故障的模拟、演练变的非常重要,而传统意义上,要么没有或无法演练,要么演练的成本非常高,所以对信息化发生故障的情况下,“随性”或习惯的处理方案较多,这并非不对,而是不科学,用一套可以衡量、定制、简便以及可测试的容灾演练方案很重要;
(5) 标准的信息化应用方案一般为在线应用、近线提取、离线保存三种模式,而目前只有一种在线应用,某种意义上来讲,目前的信息化其实是架构于一套独立的在线平台上,这个风险是比较大的的,一旦出现数据损坏、需要数据追溯是有一定的局限性,特别是目前的规模,做为数据丢失一天或多天?当服务器或存储故障时,某些应用要停一到两天甚至是更长时间,这对企业的运营都会产生很大的风险。
由此,我们需要为其打造一套,在出现任意故障时,仍然能够保证信息化持续运行的信息化容灾方案,在出现任意灾难面前,仍然能够保证信息化的持续运营。
三、方案设计原则
总的原则是:无论发生任何灾难都要在最短的时间内恢复业务,并且实现近乎“0”的数据丢失;
采用的数据保护和容灾系统要经过严格的市场检验,在市场上要有多个长时间运行稳定的成功案例;
为了防止各种逻辑灾难(如人为误删除、中病毒等),需要有多个历史版本作为副本,并且历史版本要与生产系统的数据格式相同,这样才能做到瞬时恢复;为了提高恢复的可靠性,历史版本要提前验证,不能直接覆盖生产卷。
这套数据保护系统要对生产操作系统、应用系统、存储系统进行保护,保证生产存储损坏的情况下业务系统仍然正常工作;
对于站点级别的灾难,数据丢失量(RPO)和恢复业务时间(RTO)是重要考核指标,根据业务系统的重要性进行区别定义;
考虑到生产系统的重要性,实施容灾系统的停机时间越短越好,所以该容灾技术必须是在数据库或应用打开的情况下做初始数据同步,这样可以大大缩短停机时间;
要求容灾解决方案必须具备重复数据删除、带宽优化和压缩技术,这样才能在窄带环境下进行数据传输,实现二期异地灾备;
从生产端到灾备端的数据复制,必须要有一致性保证机制,使得灾备端的数据可用,接管业务时可以瞬间打开数据库或应用系统;
Internet上的波动是常见现象,所以异地容灾技术必须要有断点续传的功能,保证网络在较长时间中断的情况下不溢出,恢复网络后是增量传输;
为了规避实施风险,数据保护和容灾系统不应该对原有生产系统做任何改动,包括结构和底层卷管理等。
为了节约管理成本,数据保护和容灾系统应该集成在一个管理界面中,并且可以实时监控状态。
四、解决方案
在本章中先介绍本次方案的整体架构,根据架构介绍连续数据保护的原理,最后详细说明各种灾难下的恢复方法。
部署CDP解决方案承担对整体信息化的保护功能;
CDP连续数据保护和容灾方案,是一套行之有效的,集磁盘镜像、数据连续保护和备份、远程容灾于一体的综合容灾解决方案。其基本架构为:
在核心机房部署一套CDP容灾设备,CDP不会改变现有信息化的任何结构,可以通过以太网络或FC(两者可以并存)链路与信息化相连;
将CDP采用旁路的方式接入到数据网络中,不会对现有网络拓扑有任何的更改和影响,不动用甚至无需重启应用服务器,不会影响正常操作系统、应用及生产数据。
每一台X86应用服务器或虚拟机均配置CDP-Disksafe客户端软件,将所有X86物理服务器或虚拟化服务器的操作系统、应用及数据同步至本地(本地机房)的CDP设备中。
安装了disksafe客户端的服务器或虚拟机向CDP同步数据的方式有多种:(1)按照固定时间点进行数据同步;(2)按照循环时间,比如每五分钟同步一次;(3)按照同步方式,如同步过程中带宽能力不足会自动转为异步;(4)按照设定带宽的模式,即每个客户端可以固定的设置为10M或512K(指定)的后台同步带宽,CDP-Disksafe将会在不大于此带宽的情况下,持续进行数据复制,以上几种模式可以根据现场情况进行设置;
在百兆以太网环境下,其容灾的速率在7~10 MB/s;在千兆以太网环境下,其容灾数据的速度在70~80 MB/s;第一次同步将机房服务器数据同步完成后,以后的每一次同步均是以增量的方式,按照设定的策略进行同步;
每台应用服务器(X86)在数据同步过程中,CDP-Disksafe会为每一个逻辑卷配置1000份历史快照(TimeMark),换言之,相当于有1000份完整的随时可用的数据状态,比如数据库服务器,每十分钟一个快照,那么相当于随时可以调取前十分钟的数据用来查看和恢复,实现多历史点保护,任意一台服务器需要提取快照(查找某个删除或修改前的数据),只需加载此份快照,获取数据后,卸载即可,不影响正常业务的运行。
基于RAC管理系统的磁盘组模式为external redundancy,且其冗余方式一经设定就无法更改,需要改为normal redundancy,所以数存CDP保护 Oracle RAC管理系统过程如下: 按照原有管理系统的磁盘组信息,将原先生产存储与数存CDP的磁盘卷组加入到各个节点的系统中(生产存储和CDP的磁盘容量与数量相同)。
按照原有的磁盘组新建一个相同的配置的磁盘组,其的类型为normal redundancy,将生产存储磁盘与数存CDP的磁盘组加入新磁盘组不同的failgroup中,与原来的生产存储形成镜像关系,通过数存CDP一致性卷管理冗余镜像方式实现数据分流,所有的数据写入均为实时双份写入,生产端的数据会同时分别存入原先存储系统以及数存CDP的磁盘组中,实现存储双活及存储高可用;发生故障时,可以实现自动切换,但是恢复时,需要人工干预。
本地机房的CDP在获取了所有服务器的数据、系统、应用(可以选择容灾哪部分,也可以全部容灾)后,将再通过本地容灾中心,将收集的所有数据容灾至未来二期异地的灾备中心CDP中。灾备中心CDP同样配置1000份快照(TimeMark),实现灾备中心多历史点的保护。这样在本地及未来二期的异地灾备中心各有1000份历史快照,使历史数据得到了双重保护。
两台CDP采用远程复制技术,通过TCP/IP协议,复制策略根据实际的数据增量和传输带宽灵活制定。那么利用CDP精简复制技术,可以实现连续传输的模式,数据量丢失为“0”。考虑到数据传输过程中的带宽限制,本地CDP向异地容灾中心CDP同步数据时,通过专有技术Microscan技术,基于扇区的去重策略,在本地CDP和未来二期异地CDP的数据传输中,采用基于源端的数据去重策略,当一份快照从本地CDP向异地CDP同步时,会比较目标端是否有基于扇区相同的数据,如果有则去重,不予传输,由此传输带宽得到巨大的优化,经过实验证明,在经过Microscan技术去重后,带宽可以节省为80%以上,也就是去重率在80%以上,随着时间的推移,此去重率会更高。
基于传统的基于X86平台的WINDOWS及LINUX服务器,数存CDP设备均可以进行灵活保护,可以选择整机、分区、目录、文件等保护策略,当应用服务器发生故障的情况下,整机的业务接管时间为3分钟以内,分区、目录、文件的接管时间在1分钟以内,快速的业务接管效果,保证了业务系统的持续服务能力。
当数存的CDP设备接管了的业务系统后,产生的新数据量,在可以选择和定义的时间段内,通过后台进行数据同步,恢复至原来的生产系统中。
基于UNIX平台的保护,主要是UNIX环境下的数据,通过CDP设备可以与原来的生产存储形成镜像关系,所有的数据写入均为实时双份写入,当生产存储发生故障时,数存CDP设备会无人干预自动接管生产存储的工作,由数存CDP设备暂时代替生产存储继续工作,待生产存储修复后,由数存CDP设备将数据向原有的生产存储系统导回,恢复各自的工作状态。
基于数存CDP设备与原有的存储设备形成镜像关系后,对生产存储性能影响成为很多客户考虑的重点,CDP设备做为机房唯一一台提供整个机房保护的方案,在数据写性能方面有专业的加强技术,其中Hotzone及SafeCache技术确保了写入数据的快速,同时SSD硬盘的缓存技术及冷热数据的分层技术,确保了数存CDP具备了非常强大的处理能力。
不管是基于X86平台的WINDOWS、LINUX还是基于RISC架构的UNIX平台,在搭建了数存的CDP的容灾解决方案中,对业务服务器CPU、内存、硬盘I/O的影响约为“0”,即不影响生产系统的正常工作,确保原有的生产系统可以发挥出******的性能,保障业务的持续健康的服务能力。