CIO们眼中的CrowdStrike大事故——以及他们从中吸取的教训

来自各行各业的IT领导者们讨论了所在团队的一线工作心得，以及为了提高响应能力与规划水平而总结的早期经验。 7月19号凌晨2点左右，Mike Mainiero被事件响应团队里的同事叫醒。Catholic Health公司的IT系统及其合作伙伴的基础设施全线崩溃，其中一家放射科服务供应商成为首批受到冲击的受害者之一。这家位于美国长岛的医疗保健系统服务商拥有近1.6万名员工，同时支持着六家急症护理机构、三家疗养院、一家家庭健康服务机构、一家临终关怀医院还有一个医生执业网络。Catholic Health高级副总裁兼CDIO Mainiero表示，他们设有一支处置小组，专门负责召集IT人员以针对网络安全及其他事件建立应急指挥中心。 “我们需要立即召集团队，想要尽快弄清楚到底发生了什么，之后再进行分类、沟通和事件应对。”他还补充称，官员们很快意识到这起事件的紧急性，“很明显，一旦医院受到此类事件的影响，病患很可能因此丧命。” 跟Mainiero一样，不少CIO同样在7月19号凌晨从睡梦中惊醒，得知所在的组织因为网络安全CrowdStrike的软件更新bug而导致IT系统中断。令他们惊出一身冷汗的是，全球数百万台运行有微软Windows系统的计算机因此崩溃，并显示“蓝屏死机”这一最高错误提示。 Mainiero旋即开始向高管团队发送消息，向他们通报情况并保证指挥中心已经建立完成。 Mainiero回忆道，Catholic Health收到了来自CorwdStrike的通知，其中包含关于补救措施的说明信息，但必须以手动方式应用于数百台服务器。随后，他们又开始想办法对病患护理场所下的台式机和工作站施以抢救。指挥中心很快向全体医疗系统设施的运营负责人提供了接触点更新。“我们能够缓解当前局势，应该没必要取消任何手术或者诊疗预约”，而且设施也确实能够继续为患者提供护理，唯一的区别就是工作人员只能在纸上做记录。到了当天下午5点之前，所有关键问题都得到了缓解。 Mainiero指出，如果中断发生在白天，那影响肯定会更大。“在医院场景下，必须尽一切可能避免把患者转移到其他环境，我们也是以此为应对前提。所以哪些宕机影响到了最终用户，也几乎没有影响到患者。凭借我们的快速响应，成功减轻了实际造成的伤害。” 全员响应虽然其他企业在事件之下不至于危及生命，但类似的情况在全球各地的组织中也在一一上演。对于不少CIO来说，做好灾难恢复与业务连续性的准备和计划制定，并且与利益相关方保持畅通的交流，确切大大缓解了宕机造成的影响。全美注册会计师机构The Bonadio Group的CIO John Roman就表示，“我们成功在三个小时之内让所有服务器都恢复了运行，而且……到星期五当天下午，所有笔记本电脑也都回归正常。”根据他的估算，全部1100台设备中只有约300台受到了影响。“我们之所以能够做到这一点，是因为我们实施了事件响应计划。大多数事件响应计划都是为了应对某种特定恶意状况所设计，而我们将自己的计划进行了通用化改造，能够适度可以想到的几乎所有事件类型——包括全球流行病扩散。” Roman解释称，在部署了事件响应计划之后，第二步就是呼吁IT部门的每个人都运行CrowdStrike提供的脚本来解决问题。他还通过公司范围内的短信服务、内联网门户和电子邮件与公司领导及全体员工随时保持沟通。跟Mainiero一样，Roman表示事件的发生时间降低了实际影响。“要说不幸中的万幸，那就是作为一家会计师事务所，我们一年到头都很忙，但最忙的肯定是报税季。如果这事发生在三月份，那对业务产生的影响会大得大，因为我们会没办法提供税务服务。可好在事件发生在盛夏，再加上我们的及时补救，实际给业务造成的冲击非常有限。” 对于稳定币2.0生态系统管理公司Black Wallet来说，事情就没这么走运了。公司CIO Remi Alli将其描述为“对组织来说一次极具挑战的经历”，并表示宕机持续了好几个小时。“在此期间，我们没办法访问关键安全功能，而且服务器和笔记本电脑全都受到了影响。” Alli解释道，由于无法访问CrowdStrike的服务，“我们无法有效监控并应对潜在威胁，这引发了我们对于整体安全态势的担忧。总的来说，这是一段紧张而充满挑战的时间，因为我们必须在保持系统完整性的同时克服宕机带来的限制。” 保持冷静是关键 Alli做的第一个决定，就是召集事件响应团队来评估情况，并为公司制定出即时响应计划。“我们必须确保在解决宕机影响的同时，继续保持业务的连续性。” 沟通也至关重要，Alli通过定期发布更新让领导层和利益相关方们了解实际情况以及IT团队正在采取的措施。“这种情况下人们很容易惊慌失措，而我们专注于保持透明和冷静，这种稳定的情绪也能让其他团队尽快踏实下来。” 再有，“无法获取关键安全见解让我们暂时陷入风险当中，而且更重要的是，这也凸显出我们整体安全体系中的漏洞。我们不得不迅速调整一部分安全协议并依赖其他措施，这也再次提醒我们必须建立起强大的备份计划和冗余措施。” Mainiero对此深表赞同，他表示在这种情况下“CIO会自然而然扮演起核心角色——如果你惊慌失措，那你的团队也会惊慌失措。”他在职业培训中学会了永远不要大喊大叫，“但我会使用坚定的命令证据，在保持友善的同时鲜明地传递立场。这是一种激励和引导，有时候你会发现这比大声发号施令更能引发人们的支持和理解。” 经验教训和其他收获就会账款软件提供商AvidXchange有一部分面向客户的产品组合受到了宕机事件的影响，但CIO Angelic Gibson表示，IT部门还是在不到24小时之内就完全恢复了服务。她将这一成就归功于“充分的准备”和在宕机过程中制定的相应计划。 Gibson解释道，“我们按照业务计划逐步行事，采取措施进行主动筹备并建立起正确的沟通渠道，这让我们能够快速高效地与各必要相关方进行沟通，同时在内部努力恢复系统的正常运行。” Gibson认为，CIO们必须经常保持公开沟通的习惯，同时对紧急方案保持信心、确保其始终有所冗余，同时做好调动资源的准备以率领IT部门迅速采取行动。 Catholic Health的Mainiero也强调，预先制定沟通计划有着至关重要的意义，其中还应包括人员名单以及可供预设主题行及文本的发布平台。同样的，拥有一套能够帮助你“自动召集团队”的系统也很重要。他还建议设置供应商紧急联络人。尽管Mainiero能够直接跟CrowdStrike取得联系，但他表示向所有受宕机事件影响的用户发出通知非常重要，毕竟Catholic Health之下还有数百家合作供应商。与其他公司一样，Bonadio Group的Roman也建议组织中的事件响应计划应该考虑到一切重大状况，而不仅仅是勒索软件或者恶意软件攻击。此外，单纯制定计划还不够，必须具体加以实践。 Roman指出，“我们每年都会开展桌面演习，并根据演习情况更新我们的事件响应计划。” 根据IT部门的规划，如果有可能发生全公司宕机，则应要求全员参与演习。 Roman表示，“之后就是沟通、沟通、再沟通。人们在宕机过程中很想知道究竟发生了什么，处理到了什么程度。我自己经常出差，最让人恼火的就是航班被取消，但我们不知道原因。知道原因虽然解决不了问题，但至少能让人感觉好一点。” Black Wallet的Alli也从这次宕机事件中学到了很多重要教训。首先就是“随时为意外做好准备。无论供应商看起来多么可靠，都一定得制定应急计划。现在，我们已经将对自身事件响应协议应对各种情况（包括供应商服务中断）的能力进行测试当成了头等大事。” 另外一点则是加强内部沟通——这种沟通不仅限于IT部门之内，而是涵盖整个组织。Alli强调，这有助于缓解恐慌并确保每个人都站在同一条战线之上。此次中断还促使其“深入研究我们的第三方依赖关系，不仅是CrowdStrike，还包括其他一切关键供应商。了解我们对各家供应商的依赖程度，能让我们更积极地管理合作关系并开展更准确的风险评估。” Alli同时提到，这也让Black Wallet意识到在组织之内培养强大网络安全实践的必要性。业务恢复之后，Black Wallet“开展了全面的事后分析，不仅关注问题出在哪里，还分析了我们的应对措施。这种反思性的做法，将帮助我们改进未来的业务流程。” 总体而言，虽然CrowdStrike宕机是一段痛苦的回忆，但也提醒组织“弹性和适应性在网络安全体系中的重要意义。”Alli指出，“恢复过程不仅涉及技术层面的修复，更要求不断强化我们围绕安全和风险管理建立起的组织文化。” 保持信任 Roman和Mainiero都表示，此次事件不会影响到他们与CrowdStrike的合作关系。尽管这家公司最近挨了不少骂，但“CrowdStrike仍然是家了不起的厂商，我们更看重的是供应商那边的工程文化。”Mainiero表示，“他们确实犯了错误”，但医疗保健系统也必须要为任何可能发生的故障做好准备。 Mainiero还指出，部分人指责CrowdStrike垄断了网络安全行业，而在他看来这次事件就是单纯的质量保证不力问题。随着系统设计和集成方式变得越来越复杂，整个软件行业应该齐心协力，讨论如何更好地解决质量保证问题。 Roman也对此表示赞同，他说“我们都是人，是人就会犯错。如果打算放弃CrowdStrike……也就意味着放弃了一切云服务提供商。到此次事件之前，CrowdStrike的产品一直运行完美，成功阻止了病毒和恶意软件的爆发。他们的客户支持工作也非常出色，我们愿意继续保持与CrowdStrike的合作关系。”

幸福双城资讯网

CIO们眼中的CrowdStrike大事故——以及他们从中吸取的教训

给科技置顶