来自各行各业的IT领导者们讨论了所在团队的一线工作心得,以及为了提高响应能力与规划水平而总结的早期经验。
7月19号凌晨2点左右,Mike Mainiero被事件响应团队里的同事叫醒。Catholic Health公司的IT系统及其合作伙伴的基础设施全线崩溃,其中一家放射科服务供应商成为首批受到冲击的受害者之一。
这家位于美国长岛的医疗保健系统服务商拥有近1.6万名员工,同时支持着六家急症护理机构、三家疗养院、一家家庭健康服务机构、一家临终关怀医院还有一个医生执业网络。Catholic Health高级副总裁兼CDIO Mainiero表示,他们设有一支处置小组,专门负责召集IT人员以针对网络安全及其他事件建立应急指挥中心。
“我们需要立即召集团队,想要尽快弄清楚到底发生了什么,之后再进行分类、沟通和事件应对。”他还补充称,官员们很快意识到这起事件的紧急性,“很明显,一旦医院受到此类事件的影响,病患很可能因此丧命。”
跟Mainiero一样,不少CIO同样在7月19号凌晨从睡梦中惊醒,得知所在的组织因为网络安全CrowdStrike的软件更新bug而导致IT系统中断。令他们惊出一身冷汗的是,全球数百万台运行有微软Windows系统的计算机因此崩溃,并显示“蓝屏死机”这一最高错误提示。
Mainiero旋即开始向高管团队发送消息,向他们通报情况并保证指挥中心已经建立完成。
Mainiero回忆道,Catholic Health收到了来自CorwdStrike的通知,其中包含关于补救措施的说明信息,但必须以手动方式应用于数百台服务器。随后,他们又开始想办法对病患护理场所下的台式机和工作站施以抢救。
指挥中心很快向全体医疗系统设施的运营负责人提供了接触点更新。“我们能够缓解当前局势,应该没必要取消任何手术或者诊疗预约”,而且设施也确实能够继续为患者提供护理,唯一的区别就是工作人员只能在纸上做记录。到了当天下午5点之前,所有关键问题都得到了缓解。
Mainiero指出,如果中断发生在白天,那影响肯定会更大。“在医院场景下,必须尽一切可能避免把患者转移到其他环境,我们也是以此为应对前提。所以哪些宕机影响到了最终用户,也几乎没有影响到患者。凭借我们的快速响应,成功减轻了实际造成的伤害。”
全员响应
虽然其他企业在事件之下不至于危及生命,但类似的情况在全球各地的组织中也在一一上演。对于不少CIO来说,做好灾难恢复与业务连续性的准备和计划制定,并且与利益相关方保持畅通的交流,确切大大缓解了宕机造成的影响。
全美注册会计师机构The Bonadio Group的CIO John Roman就表示,“我们成功在三个小时之内让所有服务器都恢复了运行,而且……到星期五当天下午,所有笔记本电脑也都回归正常。”根据他的估算,全部1100台设备中只有约300台受到了影响。“我们之所以能够做到这一点,是因为我们实施了事件响应计划。大多数事件响应计划都是为了应对某种特定恶意状况所设计,而我们将自己的计划进行了通用化改造,能够适度可以想到的几乎所有事件类型——包括全球流行病扩散。”
Roman解释称,在部署了事件响应计划之后,第二步就是呼吁IT部门的每个人都运行CrowdStrike提供的脚本来解决问题。他还通过公司范围内的短信服务、内联网门户和电子邮件与公司领导及全体员工随时保持沟通。
跟Mainiero一样,Roman表示事件的发生时间降低了实际影响。“要说不幸中的万幸,那就是作为一家会计师事务所,我们一年到头都很忙,但最忙的肯定是报税季。如果这事发生在三月份,那对业务产生的影响会大得大,因为我们会没办法提供税务服务。可好在事件发生在盛夏,再加上我们的及时补救,实际给业务造成的冲击非常有限。”
对于稳定币2.0生态系统管理公司Black Wallet来说,事情就没这么走运了。公司CIO Remi Alli将其描述为“对组织来说一次极具挑战的经历”,并表示宕机持续了好几个小时。“在此期间,我们没办法访问关键安全功能,而且服务器和笔记本电脑全都受到了影响。”
Alli解释道,由于无法访问CrowdStrike的服务,“我们无法有效监控并应对潜在威胁,这引发了我们对于整体安全态势的担忧。总的来说,这是一段紧张而充满挑战的时间,因为我们必须在保持系统完整性的同时克服宕机带来的限制。”
保持冷静是关键
Alli做的第一个决定,就是召集事件响应团队来评估情况,并为公司制定出即时响应计划。“我们必须确保在解决宕机影响的同时,继续保持业务的连续性。”
沟通也至关重要,Alli通过定期发布更新让领导层和利益相关方们了解实际情况以及IT团队正在采取的措施。“这种情况下人们很容易惊慌失措,而我们专注于保持透明和冷静,这种稳定的情绪也能让其他团队尽快踏实下来。”
再有,“无法获取关键安全见解让我们暂时陷入风险当中,而且更重要的是,这也凸显出我们整体安全体系中的漏洞。我们不得不迅速调整一部分安全协议并依赖其他措施,这也再次提醒我们必须建立起强大的备份计划和冗余措施。”
Mainiero对此深表赞同,他表示在这种情况下“CIO会自然而然扮演起核心角色——如果你惊慌失措,那你的团队也会惊慌失措。”他在职业培训中学会了永远不要大喊大叫,“但我会使用坚定的命令证据,在保持友善的同时鲜明地传递立场。这是一种激励和引导,有时候你会发现这比大声发号施令更能引发人们的支持和理解。”
经验教训和其他收获
就会账款软件提供商AvidXchange有一部分面向客户的产品组合受到了宕机事件的影响,但CIO Angelic Gibson表示,IT部门还是在不到24小时之内就完全恢复了服务。她将这一成就归功于“充分的准备”和在宕机过程中制定的相应计划。
Gibson解释道,“我们按照业务计划逐步行事,采取措施进行主动筹备并建立起正确的沟通渠道,这让我们能够快速高效地与各必要相关方进行沟通,同时在内部努力恢复系统的正常运行。”
Gibson认为,CIO们必须经常保持公开沟通的习惯,同时对紧急方案保持信心、确保其始终有所冗余,同时做好调动资源的准备以率领IT部门迅速采取行动。
Catholic Health的Mainiero也强调,预先制定沟通计划有着至关重要的意义,其中还应包括人员名单以及可供预设主题行及文本的发布平台。同样的,拥有一套能够帮助你“自动召集团队”的系统也很重要。
他还建议设置供应商紧急联络人。尽管Mainiero能够直接跟CrowdStrike取得联系,但他表示向所有受宕机事件影响的用户发出通知非常重要,毕竟Catholic Health之下还有数百家合作供应商。
与其他公司一样,Bonadio Group的Roman也建议组织中的事件响应计划应该考虑到一切重大状况,而不仅仅是勒索软件或者恶意软件攻击。此外,单纯制定计划还不够,必须具体加以实践。
Roman指出,“我们每年都会开展桌面演习,并根据演习情况更新我们的事件响应计划。”
根据IT部门的规划,如果有可能发生全公司宕机,则应要求全员参与演习。
Roman表示,“之后就是沟通、沟通、再沟通。人们在宕机过程中很想知道究竟发生了什么,处理到了什么程度。我自己经常出差,最让人恼火的就是航班被取消,但我们不知道原因。知道原因虽然解决不了问题,但至少能让人感觉好一点。”
Black Wallet的Alli也从这次宕机事件中学到了很多重要教训。首先就是“随时为意外做好准备。无论供应商看起来多么可靠,都一定得制定应急计划。现在,我们已经将对自身事件响应协议应对各种情况(包括供应商服务中断)的能力进行测试当成了头等大事。”
另外一点则是加强内部沟通——这种沟通不仅限于IT部门之内,而是涵盖整个组织。Alli强调,这有助于缓解恐慌并确保每个人都站在同一条战线之上。
此次中断还促使其“深入研究我们的第三方依赖关系,不仅是CrowdStrike,还包括其他一切关键供应商。了解我们对各家供应商的依赖程度,能让我们更积极地管理合作关系并开展更准确的风险评估。”
Alli同时提到,这也让Black Wallet意识到在组织之内培养强大网络安全实践的必要性。
业务恢复之后,Black Wallet“开展了全面的事后分析,不仅关注问题出在哪里,还分析了我们的应对措施。这种反思性的做法,将帮助我们改进未来的业务流程。”
总体而言,虽然CrowdStrike宕机是一段痛苦的回忆,但也提醒组织“弹性和适应性在网络安全体系中的重要意义。”Alli指出,“恢复过程不仅涉及技术层面的修复,更要求不断强化我们围绕安全和风险管理建立起的组织文化。”
保持信任
Roman和Mainiero都表示,此次事件不会影响到他们与CrowdStrike的合作关系。
尽管这家公司最近挨了不少骂,但“CrowdStrike仍然是家了不起的厂商,我们更看重的是供应商那边的工程文化。”Mainiero表示,“他们确实犯了错误”,但医疗保健系统也必须要为任何可能发生的故障做好准备。
Mainiero还指出,部分人指责CrowdStrike垄断了网络安全行业,而在他看来这次事件就是单纯的质量保证不力问题。随着系统设计和集成方式变得越来越复杂,整个软件行业应该齐心协力,讨论如何更好地解决质量保证问题。
Roman也对此表示赞同,他说“我们都是人,是人就会犯错。如果打算放弃CrowdStrike……也就意味着放弃了一切云服务提供商。到此次事件之前,CrowdStrike的产品一直运行完美,成功阻止了病毒和恶意软件的爆发。他们的客户支持工作也非常出色,我们愿意继续保持与CrowdStrike的合作关系。”