?????
大型互联网企业一般弄的应用都是平台级别的,有上亿级别的用户,一旦出现问题,影响非常恶劣,那么怎么去处理这样的事故比较好,有没有系统的解决方案?
1、支付宝年5月27日下午无法使用,随后修复,并解释是光缆被挖断。
2、携程网年5月28日上午全部挂掉,一开始连首页都没有了,后来给了一个有问题的首页,链接全部不管用,service服务全挂掉,直到当天深夜才宣布恢复。
3、8月31日阿里云事件。
年冬,结束了顾问生涯和穷乡僻壤的项目,我赴任某集团亚太区。上班第一天,我9点到了办公室,发现没开灯,心中暗念‘这老美就是环保,白天都不开灯’。前台小美女带着我边走边说,“不好意思,停电了”。这时人事经理走来做入职会,等会开完,见过下属。才知道整个亚太数据中心全部停摆,因为备用电路没起作用。来电后,发现邮件系统无法使用,整个亚太区没人收得到,也没人发的出,销售市场对外联络,报价,展会全面停滞。翻查邮件备份发现,最近2周备份都失败;技术细节不多说,结果是我花了2个通宵,才把一切慢慢回复,公司一整周信息系统都属于各种不正常中,这就是BCP/DRP的重要性和意义。首先我们来看点别的,ISO中列出了ISMS(InformationSecurityManagementSystem)信息安全管理体系。
要求企业CIO明确目的,建立体制,用PDCA这种模式,来进行企业信息安全管理。
其次,目前大部分企业的信息结构,可以分为硬件软件:
硬件,各种服务器,网络设备,终端,制冷,供电等。
软件,各种商用程序,数据库等。
按照功能再分,可以将软件部分划分为:商业应用业务平台
商业应用是诸如ERPCRMBI等软件程序。
业务平台是企业实际业务的运行平台,比如游戏公司的网游,比如客服中心的呼叫业务。
第三明确了以上之后,我们可以将Disaster划分为两种,灾难和安全。
灾难就是支付宝这种光纤被断----天灾------比如地震了。
安全就是携程这种DB被破坏------人祸------比如被黑了。
而当信息灾难发生后,根据前面ISMS的策略和企业危机相应计划,执行早就规划好的BCP/DRP。何谓BCP,BusinessContinuityPlan;DRPDisasterRecoveryPlan
组织为避免关键业务功能中断,减少业务风险而建立的一个控制过程,它包括对支持关键功能的人力、物力和关键功能所需的最小级别服务水平的连续性保证。
这是任何一个大型企业组织都需要有的,说白了就是xx故障了,我们要怎么办。第四,如何制定BCP/DRP呢?从灾备/持续的角度来说最首先要做的是确定人员,灾难小组的成员包括一个能拍板的大老板(要不要回滚),给钱的财务(找外包的钱),所备部分业务的对口领导(那个业务先救,到底什么业务),IT的头头等(用什么技术解决)。然后根据战略,业务,流程和信息架构,进行天灾人祸的评估,确认灾难点和对应的灾备策略。我们的业务需要什么样的灾备和可持续战略,而不是单纯的一窝蜂而上的什么都来一份(土豪可以都来一份)。然后根据战略来确定具体的服务级别和服务要求(SLASOP),比如对于不敏感的业务(员工休假申请系统)没有必要投入大价钱,我们可以接受一年天的不好用:P。但对于关键业务系统(如这次的支付宝),恐怕5个9都属于基本,毕竟这是金融业务确定了SLA后,接下来的就是根据要求和系统结构准备灾备技术。按照开头的分类,
基础架构角度来说最常见的就是冗余(来两份),网络上双线的,硬盘用阵列的,机房放在两个不同的地点。
信息系统主要就是备份(数据复制到媒体),所有的关键数据进行备份,然后送备份媒体去银行。
业务平台需要多地点并行,保证不会出现某市断网导致所有系统停摆。
但是我们要明白的是一旦启用到冗余已经属于。抑制--预防--防御--检测--恢复的最后一部分,我们要做的应该是在最开始就把问题消灭在萌芽。而在BCP/DRP完成后不代表刀枪入库,要进行阶段性的模拟演练,并根据演练的结果找差距,并根据差距和业务变化调整计划。最后,根据ISO对信息安全的说法是CIA。Confidentiality机密性谁能访问(物理隔绝?软件隔绝?)Integrity完整性信息完整(权限,控制,一致性)Availability可用性总是能用(冗余,备份)不管何种BCP/DRP基本都是围绕这3点来做文章。回到最开始的案例,企业虽然有像备用电路,磁带备份等冗余措施,但是缺乏周期性检查和BCP的计划,而且对于该类事件发生后应该怎么办没有计划也没有思路,更不用提抑制和预防这种提前措施了。所以一个大型企业,应该根据自身业务和信息结构,确立自己的战略,并制定DRP和BCP,并进行周期性的检查,在实施的过程中就预先考虑到这一点,进行布置,从根子上把这个解决掉。