阿里云故障通告(阿里云)

以阿里云全球故障为例,聊聊如何保障 Auth 服务的 SLA

在刚刚过去的“双十一”购物狂欢季,阿里云遭遇了大规模故障,导致阿里系产品集体中断服务。据媒体报道,11月 12日,淘宝、钉钉、闲鱼、阿里云盘等阿里系产品出现无法使用的问题,引发广泛关注。此次故障影响范围广泛,覆盖了包括华北、华东、华南、中国香港以及国际地区在内的多个地区。官方通告显示,故障于 11月 12日 17:44被检测到,直至 21:11,所有受影响的云产品最终恢复正常,整个过程耗时超过 3个小时。

故障原因猜测主要集中在 Auth服务,这种全球性的基础服务在此次事件中扮演了关键角色。尽管确切原因尚未公布,但业内专家推测,此次故障可能是由于 Auth服务出现问题导致的。Auth服务作为系统的基础安全服务,负责身份认证和授权,对于确保系统安全与保护敏感资源至关重要。

为了提高企业认证服务的 SLA,避免类似全球性故障的发生,企业和认证服务使用者需采取以下策略:

事件通知驱动+ SDK快速集成+启动降级措施

通过 SDK快速接入认证服务,减少研发成本,实现事件订阅功能,以便在发生故障时及时采取降级措施。SDK提供丰富的兼容多种开发语言和框架的功能,便于用户快速接入认证服务,并实现账号密码认证、短信验证码认证、社交账号登录、企业账号登录、单点登录 SSO、多因素认证 MFA等安全能力。

云中立+异地多活+可观测性+微服务治理

在构建认证服务时,采用云中立策略,减少对单一云厂商的依赖,确保在发生故障时能迅速切换到其他云服务。通过异地多活、多数据中心部署,实现故障时的快速切换。增强系统可观测性,提供实时监控和故障排查能力。实施微服务治理策略,确保系统在复杂环境中保持稳定运行。

通过这些策略的实施,企业和认证服务使用者可以提高认证服务的 SLA,降低故障发生的风险,保障业务连续性。在具体实施过程中,需要根据业务需求和成本进行权衡,确保技术迭代与业务场景的紧密结合。

阿里云服务器 二维码扫不了

官方发布通告:

6月27日下午16:30,阿里云服务器出现大面积故障,影响一大批网站,草料的活码部分功能无法正常访问。经草料积极联系阿里云的技术人员紧急处理后,现已恢复正常访问。对于此次阿里云服务器大面积故障,导致草料活码部分功能无法使用,对此深感抱歉,将敦促阿里云提高云服务器的稳定性,为广大草料用户提供更好的产品体验。

阅读剩余
THE END