阿里以及大公司发生重大IT事故，技术团队_软件开发流程

当前位置:软件工程发展趋势 >> 软件开发流程 >> 阿里以及大公司发生重大IT事故，技术团队

?????

大型互联网企业一般弄的应用都是平台级别的，有上亿级别的用户，一旦出现问题，影响非常恶劣，那么怎么去处理这样的事故比较好，有没有系统的解决方案？

1、支付宝年5月27日下午无法使用，随后修复，并解释是光缆被挖断。

2、携程网年5月28日上午全部挂掉，一开始连首页都没有了，后来给了一个有问题的首页，链接全部不管用，service服务全挂掉，直到当天深夜才宣布恢复。

3、8月31日阿里云事件。

年冬，结束了顾问生涯和穷乡僻壤的项目，我赴任某集团亚太区。上班第一天，我9点到了办公室，发现没开灯，心中暗念‘这老美就是环保，白天都不开灯’。前台小美女带着我边走边说，“不好意思，停电了”。这时人事经理走来做入职会，等会开完，见过下属。才知道整个亚太数据中心全部停摆，因为备用电路没起作用。来电后，发现邮件系统无法使用，整个亚太区没人收得到，也没人发的出，销售市场对外联络，报价，展会全面停滞。翻查邮件备份发现，最近2周备份都失败；技术细节不多说，结果是我花了2个通宵，才把一切慢慢回复，公司一整周信息系统都属于各种不正常中，这就是BCP/DRP的重要性和意义。首先我们来看点别的，ISO中列出了ISMS（InformationSecurityManagementSystem）信息安全管理体系。

要求企业CIO明确目的，建立体制，用PDCA这种模式，来进行企业信息安全管理。

其次，目前大部分企业的信息结构，可以分为硬件软件：

硬件，各种服务器，网络设备，终端，制冷，供电等。

软件，各种商用程序，数据库等。

按照功能再分，可以将软件部分划分为：商业应用业务平台

商业应用是诸如ERPCRMBI等软件程序。

业务平台是企业实际业务的运行平台，比如游戏公司的网游，比如客服中心的呼叫业务。

第三明确了以上之后，我们可以将Disaster划分为两种，灾难和安全。

灾难就是支付宝这种光纤被断----天灾------比如地震了。

安全就是携程这种DB被破坏------人祸------比如被黑了。

而当信息灾难发生后，根据前面ISMS的策略和企业危机相应计划，执行早就规划好的BCP/DRP。何谓BCP，BusinessContinuityPlan;DRPDisasterRecoveryPlan

组织为避免关键业务功能中断，减少业务风险而建立的一个控制过程，它包括对支持关键功能的人力、物力和关键功能所需的最小级别服务水平的连续性保证。

这是任何一个大型企业组织都需要有的，说白了就是xx故障了，我们要怎么办。第四，如何制定BCP/DRP呢？从灾备/持续的角度来说最首先要做的是确定人员，灾难小组的成员包括一个能拍板的大老板（要不要回滚），给钱的财务（找外包的钱），所备部分业务的对口领导（那个业务先救，到底什么业务），IT的头头等（用什么技术解决）。然后根据战略，业务，流程和信息架构，进行天灾人祸的评估，确认灾难点和对应的灾备策略。我们的业务需要什么样的灾备和可持续战略，而不是单纯的一窝蜂而上的什么都来一份（土豪可以都来一份）。然后根据战略来确定具体的服务级别和服务要求（SLASOP），比如对于不敏感的业务（员工休假申请系统）没有必要投入大价钱，我们可以接受一年天的不好用：P。但对于关键业务系统（如这次的支付宝），恐怕5个9都属于基本，毕竟这是金融业务确定了SLA后，接下来的就是根据要求和系统结构准备灾备技术。按照开头的分类，

基础架构角度来说最常见的就是冗余（来两份），网络上双线的，硬盘用阵列的，机房放在两个不同的地点。

信息系统主要就是备份（数据复制到媒体），所有的关键数据进行备份，然后送备份媒体去银行。

业务平台需要多地点并行，保证不会出现某市断网导致所有系统停摆。

但是我们要明白的是一旦启用到冗余已经属于。抑制--预防--防御--检测--恢复的最后一部分，我们要做的应该是在最开始就把问题消灭在萌芽。而在BCP/DRP完成后不代表刀枪入库，要进行阶段性的模拟演练，并根据演练的结果找差距，并根据差距和业务变化调整计划。最后，根据ISO对信息安全的说法是CIA。Confidentiality机密性谁能访问（物理隔绝？软件隔绝？）Integrity完整性信息完整（权限，控制，一致性）Availability可用性总是能用（冗余，备份）不管何种BCP/DRP基本都是围绕这3点来做文章。回到最开始的案例，企业虽然有像备用电路，磁带备份等冗余措施，但是缺乏周期性检查和BCP的计划，而且对于该类事件发生后应该怎么办没有计划也没有思路，更不用提抑制和预防这种提前措施了。所以一个大型企业，应该根据自身业务和信息结构，确立自己的战略，并制定DRP和BCP，并进行周期性的检查，在实施的过程中就预先考虑到这一点，进行布置，从根子上把这个解决掉。

知乎：

得了白癜风可以治好吗
 北京较好的白癜风医院

转载请注明地址:http://www.henanledxianshiping.com/rjkflc/16469.html

上一篇文章：速看江西撤销43个学位点，这些专业很

下一篇文章：新华三杯2017年全国大学生IT技术

最新文章

热点文章

推荐文章