6月27日下午16时许,有众多网友在社交媒体中反馈阿里云平台出现了访问故障,后台登录不上,包括图片服务也已经挂掉。
故障爆发后不久,临近17时,阿里云官网发布了一份异常通告,称阿里云工程师正在紧急处理,受影响的业务大部分已经恢复正常。
(图片来源:阿里云官网)
18时许,仍然有网友发文反应阿里云故障。
6月28日凌晨,阿里云官网发布了“6月27日阿里云故障说明”,解释此次事故系运维操作失误,导致部分账户功能异常,云服务器不受影响。“对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。”
从下图可以看到,阿里云出现故障后,相关舆情量呈现“井喷”状态,在27日18:00-19:00出现了第一个高峰。28日,媒体报道了阿里云对此次故障的说明,相关舆情再度上涨,并在9:00-10:00达到第二个高峰。随着故障被修复,官方出来说明道歉,舆情热度逐渐下降。
(发展趋势,来源:识微商情)
简单来说,云服务可以将企业所需的软硬件、资料都放到网络上,在任何时间、地点,使用不同的IT设备互相连接,实现数据存取、运算等目的。如果这朵“云”挂了,就会出现文章开头的情形。
阿里云故障影响有多大,我们可以看一些数据。IDC发布的一份《2017年上半年中国公有云市场份额报告》显示,中国公有云市场营收阿里云占据了47.6%的份额。2017年,阿里巴巴集团公布的第一季度财报显示,阿里云的云计算付费用户数量首次超过100万。
阿里云 的道歉很诚恳,没有逃避责任,并称会改进服务,但毕竟它的体量大影响也大,稍微这么挂一下,波及的可不只是一两个人一两个企业这么简单,可能大半个中国互联网都炸了。全网情绪以负面为主,占比43.6%。
(情感分析,来源:识微商情)
阿里云出现故障,有人惊讶“阿里云居然也会挂”,毕竟它都能抗住12306春节抢票。从这点来说,阿里云的认同度还是挺高的。
外行看热闹,内行看门道。较真的程序员们更关心的是,同类会不会被“祭天”,反思故障的原因及解决方式等。
@左耳朵耗子:阿里云出故障了,任何技术人员都会知道故障不可避免,对于故障我们应该给予更多的理解。这里,只希望阿里云不要处理工程师,因为惩罚事故责任人完全没有意义。系统的错误往往来自于团队的工程错误,应该改善技术工程手段或软件设计,就算是人没招对,也怪招聘过程,而事故责任人反而是最无辜的……
@TimYang:能坦诚的公布问题,而不是用系统抖动或者光纤挖断之类的词来敷衍大家,这一点值得肯定。除了公告提到的增强发布流程的验证之外,重新审视系统整体的隔离保护体系我觉得也值得一做。故障的时间偏长,暴露了对突发问题处理手段及预案的匮乏。出了问题后,只要有相应的手段来隔断问题的范围(类似大楼里面的防火门),减少对非故障模块的干扰,通常不会对用户整体造成干扰。从昨天的情况来看,要么就没有防火门的设计,要么系统有类似的机制,但是处理人员不能熟练地启用。如果是前者,则需要重新审视整体架构,如果是后者,那就是团队内部需要反思的问题。
@你的档案:系统越复杂,越集中,越容易出故障,而且一旦出故障,还会引起雪崩效应,造成的损失就更大。分布式技术是如何提高可靠性的呢,每个节点出故障的概率均等,但是多节点同时出现故障的概率就小很多。
也有人关心,阿里云这次故障,给用户带来的损失该如何处理?商业合作看的不光是态度,关键还是利益。阿里云的声明虽然诚意满分,但并没有针对损失最大的用户做出相应的补偿承诺,当然,这里我们也不能肯定的说阿里云没有补偿用户的方案,但没有公开进行说明,难免会惹来质疑声,损伤用户的信心。可以说阿里云这次的公关,态度满分,反应速度满分,但回应只能算不错,还有改进空间。
阿里云的反思得到了业界的肯定,也算挽回了一波信任。不过,那个“宕机”几次的A站都被网友形容成“在棺材里仰卧起坐”了,不但用户流失严重,还被后辈B站反超。虽然阿里云现在是行业老大,可后面还有腾讯云、金山云虎视眈眈呢!阿里云还是要稳住,别浪!
推荐阅读:
版权归识微科技所有,转载请注明出处!
更多商情热点请关注:
社交媒体:@识微科技
【文章声明】识微科技网倡导尊重与保护知识产权。本网站文章发布目的在于分享舆情知识。部分内容仅是发稿人为完善客观信息整理参考,不代表发稿人的观点。未经许可,不得复制、转载、或以其他方式使用本网站的内容。如发现本网站文章、图片等存在版权问题,请及时联系并发邮件至zhangming@civiw.com,电话:4008299196,我们会在第一时间删除或处理相关内容。