在郑州洪灾中抢修机房的程序员:设备重新亮起的绿色状态灯比烟花漂亮

热度:1 发布时间:2024-04-14 06:03:08来源:贝博ballbet体育网页版

  水位线横在墙高近一米处,地面满是淤泥,墙皮散落。停电了,空气闷热潮湿,没噪音,设备里都渗进泥沙,一块硬盘被拔下来,“哗哗”淌水。

  这是7月23日早上,郑州某医院机房的场景。几天前,郑州遭遇特大暴雨,洪峰肆虐郑州全境,也冲击了这座脆弱的医院机房。医院发来紧急求助,华为存储研发部迅疾派出严锐、蒋洪斌等六位程序员赶往现场抢救数据。其中四位是软件专家,两位擅长硬件领域。

  硬件专家肖华检查完泡水设备后,发现情况比预想的还要糟糕。大家的表情变得凝重,“尽力而为吧”。出发前,他们向三家国际硬盘大厂咨询,被水浸泡过的硬盘和数据能否恢复?得到的答案都是“建议放弃”。

  6人平均岁数约33岁,蒋洪斌39岁,在华为工作13年,身经百战的他都没遇见过如此大规模的设备受损。此前,企业成立专家攻关团队,开会研讨出抢救方案。团队携带了华为自研便携式硬盘测试工具(Hidisk)等专业设备前来,但因为停电没办法使用,这无疑是雪上加霜。

  团队紧急开了会,决定先抢救设备。机框插满硬盘,很笨重,需要三四个人抬。从一楼的原机房搬到二楼的临时抢修室,耗时两个多小时,放下设备时,大家双手发抖。因为设备过重,成员之一的朱云峰还把腰闪了。

  接下来的工作是给硬盘去污。众人流水线作业,一人负责一个步骤,拆开硬盘,并先后用蒸馏水、酒精等进行三次清理。整个房间的氛围都比较凝重,条件有限,大家或蹲或站地忙碌着,洪水刚退,7月的天气又格外闷热,不过一会儿,大家都浑身湿透,汗水从脸上、头上直往下滴。

  意外又出现了。抢修室的通风设备因为停电没办法使用,窗户仅能打开一条缝,仪器显示,室内湿度近90%。这种极端环境给抢修带来很坏的影响:两个小时后,刚用酒精擦拭过的硬盘,以肉眼可见的速度泛白,长出了锈迹。

  大家心里一紧,急忙将硬盘一块块摆开,放在桌面上晾。他们从医院拿来柴油发电机和除湿器,对着硬盘吹,并再次用酒精清理生锈的硬盘。转眼就夜深了,大家点燃蜡烛,打开了手电和头灯。硬盘里的数据是不是安全还是个未知数。大家神情肃穆地工作,严锐想给大家打气,便说:“我和我爱人还没吃过烛光晚餐,今天反而是和你们过了个烛光之夜啊。”大家顿时笑了起来。

  此时,他们已连续作战16个小时,无人抱怨。就在前一晚,他们从四川成都出发,因为交通和住宿不便,他们入住酒店已是次日凌晨5点。

  “你可以不万丈光芒,但不要停止发光。”相比起一线的救援人员,这些程序员并未受到公众瞩目,他们在聚光灯之外,在尤为特殊和关键的岗位上担负起他们的社会责任。

  团队里,26岁的张鑫年纪最小,在大学决定未来职业方向之际,他上网搜索“程序员”,看到他们虽然通常有不错的薪酬待遇,但公众对这个群体的形象速写却有些惨淡:秃顶,穿格子衫,背双肩包,工作强度是996甚至007。

  张鑫没有被劝退,他喜欢和代码打交道。在他成为程序员的三年里,他知道程序员也追求时尚,也有人爱户外运动,办公室里也有欢声笑语。他后来更清楚,在数字时代,这份工作还充满着社会责任。

  蒋洪斌记得在2019年,某一线城市的社保局系统出现一些明显的异常问题,整整一天,整座城市的社保业务停滞,市民没办法使用医保卡就医、买药等。华为存储的后端团队一起攻关,近20人在会议室里讨论、研究方案,24小时里没有休息过片刻,终于成功解决问题。

  同行前辈的传奇故事自然会带动张鑫这样的新人,他想“我何时也能这样呢”。

  张鑫认为,能与华为“共同见证荣耀”是幸运的。今年,华为存储19岁了。2003年真正开始启动时,团队就选择了走创新路线,坚持对研发的投入,并逐渐确定了一条不可撼动的铁律:存储可靠性第一,数据一定不可以丢失。团队创建伊始,常周末加班做问题根因分析,刨根问底,直到最终解决问题。

  “那些看似波澜不惊的日子,终会在某天让我们正真看到坚持的意义。”第一代高端存储产品、分布式文件存储、新一代智能分布式存储、全闪存存储……多年来,华为存储与时俱进,研发出多个系列产品,大范围的应用于金融、医疗、电信、政务、科研、油气勘探等行业,为各行各业的程序员提供高可靠、高性能的数据存储和分析业务支撑。

  此外,作为引领者,华为自2019年始设立“奥林帕斯奖”,奖励全球优秀的科学家和科研团队,旨在牵引全球数据存储领域基础理论研究方向,突破关键技术难题,推动千行百业进行智能化升级。

  在华为存储程序员的背后,是更庞大的程序员群体,以及他们做出的更耀眼的贡献。时至今日,程序员服务以及涉及的工作覆盖面广泛,从国家的支柱产业到个人的衣食住行。在影片《萤火担当》里,在全民抢票的春运时节,铁路售票平台的程序“崩了”。一位女程序员想到这么多人回不了家,着急得睡不着觉。当她通过努力解决了购票程序的bug,自己也坐上回家的高铁,看到大家顺利返乡时,她在人群中笑了。

  这一次,面对如此大规模被洪水腐蚀的设备,和可能会失去的宝贵数据,六位程序员也拼尽全力。他们早出晚归,饿了就在机房吃泡面,困了就坐在地板上打个盹。7月28日,126块硬盘都完成了风干、重新组装工作。此时医院仍然没电,发电机的功率不足以满足硬盘上电、恢复存储的条件,团队只能先对硬盘来测试,以检测是否“还有希望”。

  当专业设备上连续出现“OK”字样时,大家终于松了一口气。但数据能否恢复,通电后方能知晓。没想到这一等就是10天。

  街道空了,7月底,郑州又爆发了疫情,顿时陷入“涝疫结合”的困境。六名程序员浑身疲惫,拖着行李箱四处奔走。

  疫情地图上,红区逐渐蔓延扩大。为了尽最大可能避免被隔离,无法到现场继续工作,他们频繁地更换酒店,离医院越来越远,最后搬到了火车站附近。

  这不是程序员群体第一次直面疫情。在影片《萤火担当》中,2020年2月,武汉的一名程序员被隔离在家。电视不停播报疫情最新动态,他在屋里来回踱步,感到一种无力的沮丧。最终,他想到了制作疫情地图的办法,统计各地的疫情数据,让大家直观地看到变化。

  那时的武汉,医院门诊部里人满为患。情势危急时刻,程序员的作用再次展现。“医院采用华为提供的OceanStor Dorado全闪存双活方案承载HIS系统,避免高峰期业务卡顿,HIS系统提速3倍以上,极大改善就医体验。”华中科技大学同济医学院附属协和医院的一位领导曾这样说道。自2018年6月以来,此业务一直在该院平稳运行,疫情期间更是保障了HIS核心业务7×24小时不中断。

  严锐和蒋洪斌都参与了研发双活方案。遗憾的是,郑州的这家医院,还没有来得及全部改造、升级完这套方案,就遭遇了洪水。灾后,华为存储团队所在的院区已停诊,并转移走了危重病人。

  眼下,数据能否抢救成功仍是未知数。一直到8月7日,团队才重新再回到院区,对已检测通过的硬盘进行上电。大家通宵达旦赶进度,午饭和晚饭都顾不上吃,所幸,所有硬盘按原槽位插回后,都能完全接入。

  8日凌晨3时许,在将数据迁移到新设备时,一块硬盘忽然出现故障,指示灯变红。团队立马换上新的硬盘,不料很快,又一块硬盘发生故障。系统有RAID冗余,有一定的容错能力,但该系统较老旧,如果两块硬盘同时受损,整个数据都将没办法恢复。大家心里一惊,赶紧查看刚才新换的硬盘,幸运的是,里面的数据已完成重构。

  硬盘专家朱云峰惊魂未定,他知道,如果前后时间差再缩短10分钟,硬盘将彻底坏掉,部分数据将永远没办法恢复,他们刚才经历了似乎只会在电影里发生的惊险情节。

  8月8日中午,重要数据全部迁移到新存储中。指示硬盘正常运作的绿色状态灯在欢快地闪烁着,在一旁值守的肖华觉得,它们比新年的烟花都漂亮。他冲到二楼,对正在吃盒饭的其他同事喊道:“数据拷完了,百分之百没有一点问题!”大家“啪”把筷子一拍,一路小跑返回机房,检查后发现果真没问题,瞬间机房里沸腾了,人们互相击掌,脸上绽放着兴奋的笑容。

  但没有更多的时间供庆祝,他们要马上启程离开。郑州出港航班锐减,大家坐上当天离郑的最后一列高铁,很快沉沉睡去。看着窗外熟悉的景物,河南安阳人朱云峰感觉自己真的做到“支援家乡”了。他到郑州后,安阳也遭遇特大暴雨,他的父亲晚上值班,洪水淹到了床垫处。但忙于工作,他始终没有回家看望。

  成员之一的孟凡建还不能休息,他要留下来做收尾工作。8月12日,受损130TB数据全部迁移到新存储中。至此,所有数据全部成功恢复,无任何数据丢失。

  离开郑州时,他们步履匆忙,没有合影留念,也没有和院方人员见面。对他们而言,这是他们发自内心的理所应当。

  “祖国有需要,人民有担当。”他们总愿意这么说。除了在郑州洪灾的一线,程序员也在保障春运的后台,在抗击疫情的后方,在需要他们出现的各个角落。他们犹如散落各方的萤火,当黑暗来临,他们启动,飞翔,用自身的技术光芒点燃了数据的能量,在危难中传递、分析、留存信息,汇成熊熊火炬,驱散阴霾,也让社会经济发展有了蓬勃向上的动力。正如影片《萤火担当》所言,时代选择了他们,他们也书写了时代,正因为有了这些幕后的技术英雄,每逢危急时刻,人民总能转危为安。少年不惧岁月长,彼方尚有荣光在,“只要时代需要,我们大家一起上场”。

  版权声明:本文所有内容著作权归属极昼工作室,未经书面许可,不得转载、摘编或以别的形式使用,另有声明除外。

  原标题:《在郑州洪灾中抢修机房的程序员:设备重新亮起的绿色状态灯,比烟花漂亮》

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。