全球CIO面对CrowdStrike中断的应对与反思

来自各行业的IT领导者讨论了他们团队在应对紧急事件时的具体行动以及他们从中汲取的经验教训，这些经验帮助他们提升了应对计划和能力。

Mike Mainiero在7月19日凌晨2点左右被其事件响应团队成员叫醒，Catholic Health的IT系统以及其合作伙伴的系统都在崩溃，其中一个首先遇到技术问题的是其放射学供应商。

这家总部位于长岛的医疗系统拥有近16000名员工，支持六家急症医院、三家护理院、一个家庭健康服务、一个临终关怀服务以及一个医生诊所网络，它有一个分类团队，负责召集IT工作人员并为网络安全和其他事件建立指挥中心，Catholic Health的高级副总裁兼首席数字信息官Mainiero说道。

“我们需要立即集合团队，首先尝试了解发生了什么，然后进行分类、沟通和缓解，”他补充道，官员们很快意识到这是一级优先事件。“显然，当医院里发生任何事情时，人们的生命可能会受到威胁。”

像Mainiero一样，许多CIO在7月19日被惊醒，得知其组织因网络安全公司CrowdStrike的一个故障软件更新而经历了停机。全球数百万台运行Microsoft Windows的计算机崩溃，并显示“蓝屏死机”错误信息。

Mainiero随后开始与高层管理人员进行信息沟通，告知他们情况并让他们知道指挥中心已经建立。

Catholic Health收到了来自CrowdStrike的通知，包含有关修复的信息，这些修复必须手动应用到数百台服务器上，Mainiero说道。随后是在患者护理环境中的桌面和工作站的修复。

指挥中心向所有医疗系统设施的运营负责人提供了进展更新。“我们能够缓解这个问题，因此不需要取消任何手术或预约，”他们的设施仍然能够为患者提供护理，工作人员用纸张记录笔记，他说。当天晚上5点之前所有关键问题都得到了缓解。

Mainiero指出，如果停机发生在白天，影响会更大。“在医院环境中，你不希望将患者转移到其他地方，我们能够避免所有转移，”他说，“因此，这确实影响了终端用户，但没有影响到患者。由于我们的快速反应，我们能够缓解任何伤害。”

全员响应

虽然并非所有情况都危及生命，但这种情景在全球各组织中上演。对于许多CIO来说，做好准备、制定灾难恢复和业务连续性计划以及与利益相关者的不断沟通，减轻了停机的影响。

“我们能够在三小时内使所有服务器重新上线……并在那个星期五下午之前让所有笔记本电脑重新上线，”The Bonadio Group的CIO John Roman说道，这是一家全国性的注册会计师事务所，他估计大约1100台设备中有300台受到了影响。“我们之所以能够做到这一点，是因为我们实施了我们的事件响应计划。大多数事件响应计划是为防止某种类型的恶意软件事件而创建的。我们将其通用化，以考虑到任何类型的事件——包括全球大流行病。”

一旦事件响应计划被部署，第二步是召集所有IT人员实施CrowdStrike创建的修复脚本，Roman说道。他还通过公司的短信服务、内部门户和电子邮件与公司领导和所有员工保持着持续沟通。

与Mainiero类似，Roman表示停机的时间点也有影响。“如果有好消息的话，那就是我们是一家会计师事务所，一年四季都很忙，但我们一年中最忙的时候可能是报税季节，”他说，“如果这发生在三月份，业务影响会很大，因为我们无法提供报税服务，但因为这发生在炎热的夏季，我们能够迅速解决问题，所以业务影响最小。”

对于稳定币2.0生态系统管理公司Black Wallet来说，影响更为显著。CIO Remi Alli将其形容为“对我们组织来说是一次具有挑战性的经历”，并表示停机持续了数小时，“在此期间我们无法访问关键的安全功能，影响了我们的服务器和笔记本电脑。”

没有CrowdStrike的服务，Alli说，“我们无法有效监控和响应潜在威胁，这引起了我们对整体安全态势的担忧。总的来说，这是一个紧张和具有挑战性的时期，因为我们必须在解决停机带来的限制的同时，保持系统的完整性。”

保持冷静是关键

Alli首先召集了事件响应团队评估情况并制定公司的即时响应计划。“我们必须确保在解决停机问题的同时能够保持业务连续性。”Alli说道。

沟通至关重要，Alli通过定期更新让领导层和利益相关者了解情况和IT采取的措施。“在这种情况下很容易恐慌，但我们专注于透明和冷静，这有助于团队保持稳定。”Alli说道。

此外，“无法访问关键的安全洞察暂时使我们处于风险中，但更重要的是，这暴露了我们整体安全态势中的漏洞。我们不得不迅速调整一些安全协议并依赖其他措施，这提醒我们要有一个强大的备份计划和冗余机制。”Alli说道。

Mainiero同意这一观点，他表示在这种情况下，“你必须表现出一种角色——如果你惊慌，你的团队也会惊慌。”他说，培训教会他永远不要提高嗓门。“但我会用一种指挥和控制的语气……我可能会坚定[和]不妥协，但总是友善的。你想激励人们，因为如果你不咆哮命令，他们会为你竭尽全力。”

得到的教训和其他收获

应付账款软件提供商AvidXchange的部分面向客户的产品组合受到了停机影响，但CIO Angelic Gibson表示，IT团队在不到24小时内完全恢复了服务。她将这归功于“过度准备”和为应对停机而制定的情景计划。

“我们根据业务中断计划采取行动，”Gibson说，“采取主动准备措施并建立正确的沟通渠道，使我们能够在内部恢复系统的同时快速有效地与所有必要方沟通。”

Gibson表示，CIO必须公开且频繁地沟通，展示对行动计划的信心并提供保证，确保有冗余，并准备动员资源，以便IT部门能迅速行动。

Catholic Health的Mainiero强调，预先建立的沟通计划至关重要，其中包括人员名单和一个能够创建预设主题行和文本的平台。同样重要的是，要有一个系统可以“自动召集团队集结”。

他还建议随时保持与供应商的联系。尽管Mainiero直接与CrowdStrike联系，但他表示，由于Catholic Health与数百家供应商合作，通知所有受停机影响的人非常重要。

与其他人一样，The Bonadio Group的Roman表示，组织的事件响应计划需要考虑任何重大事件——不仅仅是勒索软件或恶意软件攻击。此外，仅仅有一个计划是不够的；你还必须进行演练。

“我们每年进行桌面演练，并根据演练结果更新我们的事件响应计划，”Roman说。

根据IT部门的规模，如果发生全公司范围的停机，应该全体动员。

“然后进行沟通、沟通、再沟通，”Roman说，“人们在停机期间想知道发生了什么。我经常旅行，最让人恼火的事情之一就是航班取消而不知道原因，但当你知道原因时，尽管感觉不太好……但你可能会感觉稍微好一些。”

Black Wallet的Alli从停机事件中学到了几个关键教训。第一个是“为意外情况做好准备。无论供应商看起来多么可靠，都要有应急计划，”Alli说，“现在，我们优先测试各种场景下的事件响应协议，包括供应商停机。”

另一个教训是加强内部沟通，不仅限于IT部门，还包括整个组织，这有助于减轻恐慌，确保所有人步调一致，Alli说。

停机事件还促使我们“深入审查第三方依赖关系，不仅是CrowdStrike，还有所有关键供应商。了解我们对它们的依赖情况，使我们能够更积极地管理这些关系并进行更好的风险评估。”

这也加强了Black Wallet在组织内培养强大网络卫生实践的需要，Alli说。

恢复后，Black Wallet“进行了全面的事后分析，不仅分析了出错的地方，还分析了我们的响应方式，”Alli说，“这种反思性实践将帮助我们改进未来的流程。”

总体而言，尽管CrowdStrike的停机事件是一段艰难的经历，但它提醒了我们组织“在网络安全方法中保持弹性和适应性的的重要性，”Alli说，“恢复过程不仅涉及技术修复，还包括加强我们在安全和风险管理方面的组织文化。”

保持忠诚

Roman和Mainiero都坚决表示，停机事件不会影响他们与CrowdStrike的关系。

尽管公司受到了批评，“CrowdStrike是一家了不起的公司，我们看重的是他们的工程文化，”Mainiero说，“他们犯了一个错误。”他补充说，医疗系统必须为任何可能发生的故障做好准备。

尽管有些人指责CrowdStrike在行业中有垄断行为，Mainiero表示，这次事件是一个质量保证问题。随着系统和集成变得越来越复杂，他认为行业应共同探讨如何处理质量保证问题。

Roman对此表示赞同，“我们都是人类，都会犯错。如果你打算因为这次事件抛弃CrowdStrike……那你就必须考虑抛弃任何基于云的供应商。到目前为止，CrowdStrike一直表现得非常出色，防止了病毒和恶意软件的爆发，他们的支持也非常出色，我们仍然致力于与他们的合作关系。”

幸福双城资讯网

商有精准说