Descargitas

来自中国的最新突发新闻。

微软停电因员工短缺而恶化信息时代

微软停电因员工短缺而恶化信息时代

计算机屏幕上的 Microsoft Azure 徽标

有人担心裁员可能会影响微软Azure云服务的可靠性。 图片:Shutterstock

微软将澳大利亚一家数据中心的服务中断归咎于人员配备不足和自动化问题,该数据中心的 Azure、Microsoft 365 和 Power Platform 服务瘫痪了超过 24 小时。

8 月 30 日至 9 月 1 日期间,依赖软件巨头微软云服务的澳大利亚企业遭受了严重停机,原因是“电量不足”导致多个产品停电。

微软表示:“这一事件是由东澳大利亚地区公用事业电力下降引起的,导致可用区内单个数据中心的部分离线冷却装置发生故障。”

大范围的停电影响了大量客户,包括廉价航空公司捷星航空和一家会计软件制造商等知名澳大利亚公司。 近视 和澳大利亚银行 米银行昆士兰银行

停电期间,微软 Azure 云平台、Microsoft 365 生产力套件和 Power Platform 开发人员套件的用户在 8 月 30 日下午 6 点 41 分到 9 月 1 日下午 4 点 40 分之间遇到了广泛的访问和可用性问题。

事件 该公司的两个数据库的冷却设备(在数据中心提供主要冷却的冷却系统)离线了——本质上是毁坏了部分存储硬件。

微软表示:“两个数据库的冷却能力已长期降低,因此温度持续上升。”

“在世界标准时间 11.34,受影响数据湖中的组件发出基础设施过热警告,指示关闭特定的计算、网络和存储基础设施——按照设计,以保护数据持久性和基础设施完整性。

“这导致该可用区子集的服务可用性丧失。”

微软关于该事件的报告表明,它可能没有为如此大规模的停电做好充分准备,因为该公司表示,现场没有足够的工作人员来使冷水机组及时恢复运行。

在这场燃烧性的“停电”期间,澳大利亚只有三人值班,微软自己也承认这个数字太少了。

微软表示:“我们暂时扩大了团队规模,以便更好地了解根本问题并实施适当的缓解措施。”

一些与自动化相关的并发症加剧了这一事件,导致该公司陷入困境,而其基础设施却拒绝恢复上线。

由于高温损坏了微软的存储设备,该公司的诊断工具无法找到重要数据,因为相关存储服务器已关闭。

微软表示:“诊断无法识别错误,因为存储节点本身没有连接到互联网。”

“因此,我们的现场数据中心团队需要手动移除组件并一一重新放置它们,以识别阻止每个节点运行的特定组件。”

此外,该公司的自动化“错误地批准了过时的请求”并“将一些健康的节点标记为不健康的”——进一步减缓了恢复工作。

Reddit 和 Twitter 用户很快就批评该公司及其缓慢的复苏,并将此次事件的大部分原因归咎于微软最近的裁员。

“我并不感到惊讶,”这位 Reddit 用户说道。 No_Document_7800

“微软一直在裁员、外包或离岸其团队以削减成本,我们可以从他们产品的质量和服务的可靠性中看到这一点。”

然而,澳大利亚技术咨询公司 Zoak Solutions 总监 Mark Culhane 表示 信息时代 事件发生后,他并没有对微软的云服务感到沮丧。

“这一事件并没有引起人们对微软云服务的重大担忧,”他说。

“与其他解决方案相比,它们以及其他主要云提供商(AWS 和 GCP)通常更可靠且防故障。”

卡尔哈恩还赞同这家软件巨头对此次中断的反应,这表明其可靠服务的记录不应被最近发生的事件所掩盖。

“即使影响更加重大,我仍然相信微软在这起案件中的反应是恰当的,”卡尔哈恩说。

“微软对人员配备不足和自动化损坏的根本原因分析并不令人惊讶。鉴于过去几年其云服务的稳定性普遍较高,这一具体事件及其随后的反应并不让我们深感担忧。”