重新上线

像任何SaaS提供商或IT组织一样,Workday团队尽一切可能消除计划外系统故障的可能性。我们还制定了详细的计划,以便在发生意外停机时尽快让客户恢复在线。

像任何SaaS提供商或IT组织一样,Workday团队尽一切可能消除计划外系统故障的可能性。我们还制定了详细的计划,以便在发生意外停机时尽快让客户恢复在线。

昨天,为我们的生产服务器存储操作系统文件的网络连接存储(NAS)设备在备份RAID阵列中检测到一个损坏的节点。而不是简单地记录错误应该NAS自己离线了。具有讽刺意味的是,对具有内置冗余的系统的冗余备份导致了失败。

这种类型的错误不应该导致数组脱机,但它确实脱机了。最重要的结果是我们的故障转移计划按预期工作。在几个小时内,所有客户都可以在我们的二级数据中心正常运行,他们的所有数据都完好无损。

我们已经多次测试了故障转移计划,但这是我们第一次真正地进行故障转移。在这个过程中,我们学到了很多东西——一些是技术方面的,一些是与客户沟通方面的。这些知识将用于进一步完善我们的数据中心实践、硬件选择和故障转移计划,以便我们在未来做得更好。

虽然任何计划外停机都是不可接受的;成功和及时的恢复——确保客户数据的完整性——是我们非常自豪的事情。此外,我要感谢我们的客户在停机期间的理解。当我们重新上线系统时,我们与客户进行了多次沟通,压倒性的支持和团队合作感是一种令人难以置信的积极体验。

现在,回到工作中。

更多的阅读