本篇文章3493字,读完约9分钟
林姣榆工作的运营维护部门启动了应急计划:在线服务失败,求助于本地服务的kubernetes集装箱集群,但结果失败。进行手动更改,对象存储操作系统失败,sls失败...留给他的就是等待。在等待的过程中,林姣榆一直在思考:“在宣传上提供99.9%的可靠性”,我们是0.1%吗?
6月27日晚,北京国茂的两栋办公楼灯火通明。林姣榆带着凝重的表情,在运行维护部和R&D部之间的走廊上快速来回走动。
阿里巴巴云的失败引发的意外事件导致他的互联网金融公司几近瘫痪。在运维部门工作了近一年后,林姣榆第一次受到了公司各级领导的“关注”。
“许多部门的领导都打电话问我发生了什么事。”面对疑虑,林姣榆无能为力。他回忆说,事件发生时,业务数据无法读取,交易暂时停滞,客户服务投诉数量激增...运行维护部和开发部开始自检。由于服务器无法登录,文件存储nas无法服务,问题很快得到了确认:阿里巴巴云出现了问题。
你不能坐以待毙!
林姣榆工作的运营维护部门启动了应急计划:在线服务失败,求助于本地服务的kubernetes集装箱集群,但结果失败。手动更改,对象存储oss无效,sls无效...
他只剩下等待。
在等待的过程中,林姣榆一直在思考:“在宣传上提供99.9%的可靠性”,我们是0.1%吗?
哭一个小时
根据阿里巴巴云的官方描述,其在中国公共云市场的份额超过了2至5人。目前,中国40%的网站在阿里巴巴云上运行,一半的独角兽公司也使用阿里巴巴云。
根据这一数据,即使是0.1%的用户因未知原因“停机”而产生的焦虑,也足以在社交网络上引发轩然大波。
从当天下午4: 30开始,微博和微信群上不断传出“阿里巴巴云宕机”的消息。用户指出,失败的主要原因是无法访问官方网站和控制台。当时,阿里巴巴云内部人员给新浪科技的第一个回应是账户登录不正常,云服务器没有受到影响。这次失败不是停机。
但官方的回应很快引发了第二轮不满。大量用户抱怨新浪微博其他功能受到影响——比如林姣榆,除了登录失败、opensearch失败、ons失败、nas失败、oss失败——总之,除了登录链接异常,阿里巴巴云的很多产品在此期间无法使用。
最后,阿里巴巴云在下午发布了一条失败公告,确认mq、nas、oss等产品的部分功能除了一些控制功能外,都有异常访问。事故从16: 21到17: 30持续了大约一个小时。
一位用户评论道:中国一半的互联网已经震动了整整一个小时!
一半还是0.1%?
郭宁显然在这个国家的另一半。在27日傍晚的高峰期,他走出望京的办公楼,挤进地铁,打开手机,扫了一眼新闻,才知道阿里巴巴云今天下午“挂了”。
“没有什么异常。”郭宁目前负责一家it公司的开发团队,产品托管在阿里巴巴云上,涉及esc和其他云服务。但他告诉新浪科技,他的产品没有受到任何影响。"互联网上的这些问题都没有遇到过。"
事实上,不仅仅是郭宁。新浪科技接触到的大多数开发者,比如郭宁,在停机期间没有任何感觉。使用阿里巴巴云的移动互联网应用,如歌厅和电子驱动,几乎没有任何抱怨。
然而,对于那些“惊讶”了一个小时的用户来说,麻烦是真实存在的。据新浪科技不完全统计,事故影响范围很广,包括电子商务、共同基金、通信和语音以及教育行业。阿里巴巴云的客服人员表示,“这是一次大规模的失败,基本上平台的大部分业务已经暂停”,但具体的影响范围和用户数量无法确定。
更多的麻烦还在后面。
林姣榆表示,虽然故障后来被排除,但该部门需要修复业务数据,这无疑增加了工作量。
一位从事电子商务业务的员工告诉新浪科技,当天有一个新的活动正在进行,所有注册的短信界面都失败了,导致一两个小时内没有新的添加。“老板不会在意服务器的异常,他只会认为我们没有做好本职工作”。
由臭虫引起的悲剧
第二天一早,阿里巴巴云发布了一条故障解释:工程师团队在自动操作和维护功能中执行了变更验证操作。这个函数在测试环境验证中没有问题。当它与自动操作和维护系统联机时,会触发一个未知的代码错误,该错误代码会禁用某些内部ip,从而导致某些产品访问链接被阻止。在随后的人工干预后,工程师团队很快找到了问题并将其修复。
新浪科技曾向阿里巴巴云询问该漏洞的具体触发原因,但对方拒绝回答。
各种各样的普遍猜测加入了下一轮传播。最流行的版本之一是:刚刚招聘了两名实习生——错误地删除了登录服务。
"实习生错误地删除了登录服务,它不应该存在."来自媒体“linux高薪训练营”的消息,it界引用了美国前使命回顾运营与维护建筑师、马可教育联合创始人张先生的解释。“一方面,大型互联网公司,尤其是像阿里巴巴云这样的公司,对工程师的权限有着极其严格的控制,因为阿里巴巴云拥有数十万台服务器,支持着全国各行各业超过1000亿的在线业务,实习生不可能在不熟悉这些服务器的情况下赋予过多的管理权限。这是非常不专业的。”
张先生从阿里巴巴了解到,此次失败影响了整个阿里巴巴集团,包括阿里巴巴云、蚂蚁金服、天猫、飞猪、优酷等业务集团,阿里巴巴云的失败等级为s1。
在阿里巴巴的网上业务失败等级中,s1被定义为核心业务重要功能不可用,影响部分用户,造成一定损失。
“失败的严重性非常高。整个阿里巴巴集团的许多核心业务以及依赖阿里巴巴云的公司都受到了影响。”张先生说。
然而,新浪科技发现天猫、支付宝、飞猪、优酷等相关产品的访问天数并未受到影响。
至于具体原因,当核心应用程序请求虚拟ip地址vip列表时,它会得到空列表,这将导致成千上万的VIP不可用,从而影响整个集团的业务。
“vip是集群服务的入口,通过vip地址可以访问一组服务。如果数以千计的重要人物被禁用,成千上万的服务、应用程序、数据库等也会被禁用。在后端可能无法直接访问。”张先生解释道。这也符合阿里巴巴云的官方解释:“这次失败测试通过,并在生产环境中引发了一个未知的错误。”
阿里巴巴云拒绝置评。
“鸡蛋不能放在一个篮子里”
事实上,云服务宕机影响大量互联网应用并不少见。去年2月28日,云计算鼻祖亚马逊aws的云存储团队在调试过程中误失一条指令,意外移除大量服务器,导致进出aws东部第一服务区基础设施的流量瞬间消失,停机时间长达3小时。
由于aws在美国市场处于领先地位,包括adobe、airbnb、github、Nasdaq、网飞、slack、通用电气、quora等知名科技公司都受到了影响。据国外媒体估计,停机造成的损失高达数千万美元。
“鸡蛋不能放在同一个篮子里,这就是原因。”平安运维部门负责人(601318)在接受新浪科技采访时指出,云服务是一把“双刃剑”。一方面,它确实给许多企业,尤其是中小企业带来了便利,但当问题出现时,给企业带来的影响和损失是巨大的。
负责人表示,由于行业不同,影响和损失也不同。例如,在电子商务企业中,一旦发生云计算事故,将直接影响销售,供应商的利益可能受到牵连,并存在企业诚信等潜在问题。
从用户的角度来看,由于失败,无法获得即时信息,这降低了体验。对于那些在互联网上交易的用户来说,损失会更大。
同样在去年,纳斯达克报价传输系统发送的测试数据在7月份被第三方机构不当使用,导致重大错误。谷歌、苹果和亚马逊曾经历过不合理的股价暴跌,其中亚马逊暴跌了87%。2013年,纳斯达克犯了类似的错误,导致交易暂停长达三个小时。
该负责人表示:“许多大型企业将分散选择云服务提供商。”一般来说,小企业受到资金或人员等因素的限制,可能会将其所有服务放在同一个品牌的云服务上。大多数中型企业会选择多个供应商同时提供服务。但是,不同制造商的产品属性不同,这可能导致数据不同步。
如何用赔偿解决诚信问题?
几年前,阿里巴巴云推出了100倍故障补偿,即当产品因阿里巴巴云故障而无法正常使用时,阿里巴巴云将提供100倍的故障时间补偿。
不过,阿里巴巴云的相关负责人告诉新浪科技,赔偿将根据相关服务保证条款处理。
“必须有一份详细的清单,”客服人员说。根据业务损失,由法律部人员和业务专员进行核实,核实无误后予以赔偿。
新浪科技询问了阿里巴巴云的产品和服务协议。根据目前的规定,如果每月服务和资源包服务失败,总补偿将不超过服务器故障所涉及的总服务成本。如果按时付款,赔偿总额将不会超过过去12个月中因服务失败而支付的费用总额。
但对于经历过停机痛苦的阿里巴巴云用户来说,薪酬不再是目前最重要的问题。有一次,网民们呼吁阿里巴巴云站起来,帮助铁路总公司解决12306的订票难题,因为它的可靠性。但现在,林姣榆不禁怀疑阿里巴巴云是否真的可靠。
来源:千龙新闻网
标题:阿里云故障“惊魂”1小时:难道我们是那0.1%?
地址:http://www.qinglongs.com/qlwxw/9627.html