• 携程确认员工错误操作导致8小时宕机 作者:李淑平 杨鑫倢  日期:2015-06-02

      继支付宝光纤被挖断断网后,在线旅游老大携程也“挂”了。

      5月28日11时许携程网瘫痪,主页和手机APP均不能正常使用。几个小时后,携程新近入主的艺龙网也出现短暂宕机。双方均称遭不明攻击,艺龙表示已经报案。

      当天晚上19时许,离宕机过去近8个小时后,携程旅行网手机APP首先恢复,但是提交订单仍然不稳定。澎湃新闻试着提交一个酒店订单,起初显示网络不给力,后来一下子出现4个同样的订单。

      5月28日23:29分,携程官方网站及APP全面恢复正常。经过排查,携程声明,数据没有丢失,预订数据也保存完整。

      携程技术架构偏保守

      携程宕机期间,除了无法登录个人账户外,有的携程用户登录成功后则发现账户内的消费记录,包括优惠券、积分等变为零。不少人担心自己的资料数据或者丢失了,或者被泄露。

      关于网上流传携程所有预订数据被删除一事,携程方面回应称,经过紧急排查,携程数据没有丢失,预订数据也保存完整,正在恢复过程中。

      互联网业内人士分析,携程技术架构在行业内偏保守,核心系统仍旧使用微软平台(.NET+SQL Server),这在国内一线互联网公司是比较罕见的。之前使用微软平台最大的互联网公司是京东,其在多年前就完成了核心系统的迁移。携程宁可每年花上千万的软件授权费用给微软公司,也不选择进行技术架构的迁移,去使用更多互联网公司所用到的开源平台,一直令人费解。     

      360安全专家林伟分析,如果是一般的系统故障,一旦出现故障,按照预案,系统会自动用备份恢复数据,然后人工进行检测和修订。系统恢复也就是几分钟到半个多小时的时间。但是照携程这种8个小时才逐步恢复的状况,估计是备份数据也丢失了,才导致时间这么长。

      一般情况下,互联网企业数据会有三四个备份,包括本地服务器同城机房、跨城机房、云端以及内网。即使其中一份出现问题,也会有别的备份补上。虽然像携程这样规模的企业访问量很大,但是其数据存储量不会太大,多做几个备份也不会有多大的成本。

      一位携程技术人员告诉澎湃新闻记者,“备份也一并被黑了”。

      这也不是携程第一次发生这样的问题了。2014年3月22日,18点18分。一个编号为54302的漏洞报告,被曝光在互联网安全问题反馈平台“乌云网”上。这份报告表明,携程的一个漏洞会导致大量用户银行卡信息泄露,而这些信息可能直接引发盗刷等问题。

      “携程的BCP/BCM(业务连续性)做得肯定是有相当大的问题。”前艺龙信息安全负责人说,在各个行业内,金融客户对于BCP/BCM是最最重视的。互联网公司和传统的金融机构并不是一个量级的,还需要进一步努力。比如,大型银行的重要系统,一套运行、一套热备、一套测试,所有数据做到同城和异地备份,恢复时间是以小时计算的。互联网公司讲究快速迭代、灵活性、可扩展性,往往要牺牲稳定性和安全性。   

      携程每小时损失上百万元

      根据携程2015年第一季度的财报显示,其第一季度总营业收入为24亿人民币,平均每小时达110多万元。此次宕机近8个小时仍未完全恢复,携程损失巨大。

      5月28日携程股价开盘下跌3.3%,之后快速回升,截至北京时间22时下跌1.6%。

      360安全专家林伟称,互联网公司最重要的就是数据,如果数据丢失也就意味着失去客户。虽然此后经过技术修复或许会找回数据,但是对用户的信心造成打击。用户可能担心该公司会否再次出现这种情况,从而选择离开。数据安全问题可能会拖垮一家互联网企业绝不是危言耸听。

      携程网站宕机还影响到了在线旅游市场供应商及其他合作伙伴。同程网就表示,因为部分酒店订单来自携程导致自己网上给的部分酒店订单无法成交。但是同程网对携程表示理解和支持。携程的合作伙伴阳光车导还发声表示攻击携程的敌人也是自己的敌人。

      其他在线旅游公司则围绕这个点展开营销。阿里“去啊”在微博上转发了携程官方微博关于宕机的内容后,不忘提醒携程的用户,如果大家今天有非常紧急的出行旅行需要,可以暂时使用自己的服务替代,等待携程恢复之后大家可以再回到携程平台。此语被网友戏称为“神补刀”。

      上海市民陈小姐5月28日下午本来想上携程网预订下个月旅游的酒店,发现携程页面无法登录,还看到滚动提示称,携程网站正在修复中,用户可以去艺龙网站预订服务。网友笑称关键时刻携程和艺龙秀恩爱,前脚才入股成为艺龙的大股东,后脚就给它导流量。

      不久后携程官网首页删除了导流给艺龙的话语,但是艺龙网站还是在17时左右也出现短暂宕机。艺龙ceo崔广福表示,艺龙网首页收到流量攻击,已恢复,并已报案。

      360安全专家林伟称,艺龙的网站设置的承载量是在自己的业务量基础上,预留空间也就是一个短时间突增的量。携程如此大的访问量导过去,艺龙肯定承接不住。

      最新通报:携程确认是员工错误操作导致

      据携程旅行网官方微博@携程旅行网 通报,5月29日1:30分,经携程技术排查,确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间。携程官方网站及APP已于28日23:29全面恢复正常。

      以下为携程对相关问题的说明:

      1、事件发生原因

      

      经携程技术排查,确认此次事件是由于员工错误操作,删除了生产服务器上的执行代码导致。

      2、为什么恢复时间那么长

      

      一般来说,类似携程这样的大型网站承载着繁多业务,其后台是一个由SOA(面向服务)架构组成的庞大服务器集群,看似简单的一个页面背后由上千个应用子系统以及上千个Web Service组成,而每个应用子系统和每个Web Service之间都存在着相互调用的依赖关系。

      

      发生事件后,携程的技术人员除了需要恢复生产服务器上的执行代码以外,还需要做的是恢复并确保每个应用子系统以及每个Web Service的功能正常,同时确保应用子系统与Web Service间的调用关系得以正常执行。

      

      这种验证性的操作需要携程的工程师及运维人员通力合作,尽快恢复生产代码并通过反复地、持续性地调试以确保应用子系统与Web Service功能的正常运行。

      

      携程再次保证,数据和数据库并未受到此次事件的影响,用户订单数据也完整无损,请用户放心并继续使用携程网站及App。

      3、如何杜绝此类事件的再次发生?

      

      携程在系统上做了改进,规范并杜绝技术人员错误删除生产服务器上代码的操作。

    读完这篇文章后,您心情如何?姜伟伟
    [责任编辑:]
  • 关键字: