华为人记录:51.8度高温,一天暴走4万步,为信仰而战

菊厂基地打工仔 2024-08-01 00:08:12

哈吉(阿拉伯语 حج ,Hajj),是指伊斯兰教徒到麦加的朝觐,这是每年全世界穆斯林最大规模的聚会,成千上万穆斯林从世界各地来到麦加,参与这场身体与心灵的旅程。

2024年6月19日16时,历时7天6夜,1445(伊斯兰历)第20次哈吉保障顺利落幕,20战20捷,我们再次书写传奇。

从2005年开始,华为连续多年承担哈吉保障项目,此次堪称难度和挑战最大的一年:疫情后朝觐全面放开,麦加圣地中心仅10平方公里的区域聚集了约575万移动用户,密集程度前所未有;朝觐活动分布在不同地点,大规模用户移动造成大量位置更新和切换;首次进入哈吉核心区域的华为无线和微波站点需要端到端全产品保障,客户对本次保障工作寄予厚望;50多度的高温酷暑……挑战不胜枚举,这注定是一场难忘的“朝圣之旅”。

S客户网络保障团队合影

51.8度的现场保障

作为唯一有资格(穆斯林)入驻麦加的中方员工,6月11日,站点运维专家杨晓斌带领一行11人出发前往麦加,此行的主要任务是确保朝觐区域的华为无线和微波站点稳定运行。以下为杨晓斌眼中的现场保障过程:

6月11日下午14点,飞机落地,刚踏出机舱,一股热浪扑面而来,地面温度显示51.8度,这样的天气对朝觐者和华为的设备都是一次极端考验。

保障的第一站在Mina山谷,位于麦加大清真寺以东约五公里,是朝觐者的集结地之一,这里也是世界上最大的帐篷营,共有10多万个帐篷,占地面积超250万平方米,能够容纳近300万朝觐者入住。

经过三天的站点巡检和备品、备件准备,6月14日,哈吉保障正式开始。我们一大早就联系了站点工程师,从客户麦加作战指挥中心出发,前后经历了5次安全检查,终于在上午10点抵达了Mina核心区域的枢纽站点帐篷。

身穿戒衣的朝觐者不断入驻山谷,整个山谷变成了一片白色的海洋。每一顶帐篷都住满了朝觐者,他们低声祈祷,手中握着念珠,眼神专注而坚定,仿佛在诉说着他们虔诚的信仰。我和站点工程师们开始例行巡检,由于山谷限行,我们只能下车步行,从天色泛白到暮色渐浓,从山顶站点走到帐篷站点,顶着50多度的高温,逐一完成Mina山谷所有华为站点巡检,确保相关队伍、工具、配件等全部准备妥当,万无一失。

麦加区域站点保障团队

日落时分的Mina山谷核查完最后一个站点,回到Hub站点帐篷后,大家瘫坐在地板上,享受着空调的凉爽。高温天气对每个人的身体和意志力都是极大的考验,然而项目成员都攒着一股劲,不管环境再怎么恶劣,依旧按计划完成了所有巡检任务,扛过了保障第一天。

稍作休息已经晚上10点多了,我想,是不是该出去找个馆子,请大家好好吃一顿,也算是对今天的完美交待。

这时,一名工程师说:“我们将在午夜转移到阿拉法特山,为明天的朝觐保障做准备。”我知道朝觐者们第二天凌晨4点就会启程去往阿拉法特山,我们要提前过去做好准备工作,但总不能让大家饿着肚子出发。

我提议道:“过去前我请大家吃饭。”

这时,一名工程师坏笑道:“太好了,我要牛排,大虾,羊肉饭,可以吗?”

此话一出,在场的人都大笑起来,我一脸疑惑。大家一解释才知道,Mina山谷附近根本就没有可以吃大餐的餐馆,只有一些卖零食的小铺子。时间紧张,我立马跑去小卖铺,买了4盒泡面、2包饼干、3个苹果,简装上阵,这就是今天的晚餐了。

简单的晚餐

因为担心道路管制,大家提前出发,乘坐皮卡车火速赶往Arafat(阿拉法特)区域。不出所料,因为山谷道路限行,所有可以行车的道路全部被封死,只允许行人走动,数次沟通无果后,我们只能在离Arafat Hub站点最近的路边停靠,摸黑步行半小时走到站点帐篷,此时已经凌晨3点多了。平时20分钟的车程,我们前后花费了近3个小时才抵达。

大家经过一番折腾,早已疲惫不堪,来不及刷牙洗漱,直接在站点的帐篷里席地而睡。第二天的阿拉法特日已经在等着我们了。

在帐篷里席地而睡

40156步,用脚丈量的路

6月15日,这一天是哈吉保障中至关重要的一天,数百万穆斯林朝觐者共聚阿拉法特山。我和本地工程师正在巡查站点,突然,同行的一名工程师手机App弹出一条消息:X站点突发“High Temperature”高温告警,急需前往该站点进行故障排查。

我们立刻放下手上工作前往该站点,在车上就开始远程排查故障:站点是否存在市电告警?一切正常;站点是否存在空调告警?又是一切正常!这个时候大家开始高度紧张,这些常见的导致高温告警的原因都被排除在外,那会是什么原因呢?

大家怀着忐忑的心情,催促司机开快一点。大约过了10分钟,快到达站点的时候,工程师查看手机App,发现高温告警自动消除了,大家悬着的心稍微放松了些,但还是不敢掉以轻心。经过排查,站点一切正常,但因为是下午2点多,室外温度高达50多度,造成站点机舱里的温度较平时有所上升,才导致的高温告警。经过和区域经理、NOC(网络运行中心)监控人员协商后,我跟客户申请站点操作紧急授权,计划对站点温度探测器进行配置,将阈值适当提高,等过了最高温天气阶段再恢复正常阈值水平。

我和本地工程师们在站点下的帐篷里围坐成一圈,总结完一天的工作后,开始安排接下来的行动计划。这时,一名本地工程师说:“今晚我们将走到穆扎达利法。”所有人面带微笑齐刷刷看向我这个外来汉,我一脸疑惑,心想:晚上又没有白天那么热,走就走呗!我说:“是的,我也会走着去。 ”那名工程师一脸严肃地补了一句:“不止两个小时。”我思索片刻后,坚定地道:“没问题,我能做到!”随后,我们背着电脑包和补给品——两瓶水加一个面包从站点出发了。

18:30,太阳还没有要落山的意思,我们一行8人移动保障小组,在穿过无数个大街小巷的白色帐篷及摩肩接踵的人群后,终于在Namira Myddan清真寺附近的十字路口与数百万朝觐者汇合,等待太阳下山。

18:55,当夕阳的余晖被远山遮住,左右共四条大道,几百万人流开始向前涌动,所有人都朝着Muzdalifa的方向前进,场面甚是壮观。

我们每到一个站点都会驻足片刻,联合NOC指挥中心检查站点网络可利用率,所幸我们提前两个月做足了准备工作,及时对每个关键节点站点进行了风险扫描、健康检查和扩容等工作,确保站点处于健康状态。在路上,每当看到有人拿着手机和家人朋友分享这个激动的时刻,我就发自内心地感到自豪,我们保障了几百万人与世界的互联互通。

22:30,我们顺利抵达穆扎达利法。早到的朝觐者们已经在道路两旁和宿营区铺起毯子,开始休息。我们很快抵达Hub站点帐篷,躺在帐篷的地板上,打开手机,看到当天走了40156步,突破历史最高,我简直不敢相信,在白天站点巡检后,我们还能坚持走完9.7公里的路程,总算扛过来了!

步数创下历史新高

背后的力量:N个作战室,全球联动

保障的战场不止在现场,背后的力量是全球各地成百上千人的支撑。

每一次保障的过程,我们都希望是风平浪静的,因为这证明我们事前所做的准备是有效的。

哈吉保障中,朝觐者来自各个国家,其中30%是国际漫游移动用户,涉及22个国家、约50张运营商网络,因此国际漫游业务是本次保障的重点之一。朝觐开始前半年,保障专家组就基于历史话务模型和预测,对国际链路进行评估和扩容,并对国际漫游业务重新进行数据梳理和业务测试,各类应急预案也在保障前进行了充分评估,只为应对那些不经意的“意外瞬间”。

6月15日,1445 哈吉的阿拉法特日,也是哈吉保障第二天。下午3点,利雅得的S客户哈吉保障作战室内数十双眼睛盯着监控大屏,一切如常,就在我们以为这是一个幸运日时,监控大屏上的一条直线猛地下降,这一变动立即让现场参与保障的团队紧张起来。

“寻呼成功率大幅下降,位置更新成功率出现异常。”

“快,摇人!紧急启动作战室,按预案切换国际路由。”华为保障TD(技术负责人)立即通报客户,并要求各个产品专家马上查看各网络运行状态。

“收到,已经建立前后方作战室,并组织专家完成初步排查,目前一切正常。关键信息正在收集,10分钟内将完成回传……”

作战室集体攻关中

虽然2G无线为友商设备,但大家都不敢掉以轻心,进一步分析核心网相应时段的网络指标。

15:25,CEM(客户体验管理)和核心网保障的同事先后发现来自I国X网络的用户数由原来的十几万下降到个位数,且与2G呼叫建立成功率下降的时间点一致。保障团队立即提取了该网络的国际链路统计数据,发现大量位置更新消息发出,但都没有收到响应。

“源头在这里,大家收集一键式信息,我们再深入看看。”一连串的信息收集回传与确认后,保障组确认问题仅限于这一个国际漫游运营商,其他用户业务正常。

15:40,保障组按照预案联系I国哈吉保障团队,请求配合处理。

对方答复:X网络用户不能登录网络的问题,客户已经收到投诉,原因为X国际关口的非华为路由器电源故障,通过重新上电,正在恢复中。

客户在慰问保障团队时直言,一般国际业务的恢复至少要4~6小时,而华为的团队跨国协同,在1小时内就帮我们定位问题、更新进展,真是不可思议。

6000公里外,华为西安研究所V8大楼 GTAC(全球技术支持中心)也同步设置了远程作战室,问题就像流水线上的产品,在专家们手中受理、分析、闭环……

V8中屏作战室

保障第一天,大量朝觐者快速朝Mina区域汇聚,哈吉区域的用户数很快来到第一个峰值——380万。

一声清脆的铃声打破了中屏大厅的宁静,一线紧急求助:“Users are reporting slow internet browsing(用户反馈网速下降)”,数通团队迅速投入攻关。

5分钟组建War room,快速完成问题澄清和网络配置获取。

5分钟定位问题根因,因用户快速上升,NE40E链路利用率达到95%。

经过分析确定此设备为汇聚设备,用户量增加导致公网隧道流量突增。“快速执行预案,新增TE(终端设备)隧道与主隧道形成负载分担,将流量切走一部分缓解拥塞”,数通RL(故障恢复负责人)的指令有条不紊。

“链路利用率下降到60%,客户上网体验明显改善!”一线TD兴奋地说。

从问题上报、分析到业务恢复不足30分钟,然而,面对不断增长的用户数,攻关团队又陷入了沉思:还会出现拥塞吗?

保障开始前,我们预估移动用户将达到600万,肯定会继续冲击当前的链路容量,解决问题不留“尾巴”,攻关团队立即组织三方厂家联合分析每个节点上的设备容量,保障端到端链路无容量瓶颈,经过两小时的深入讨论,最终确定了端到端链路扩容可行性方案,将拥塞隐患彻底消除。

正在攻关的GTAC专家

本次保障中,GTAC共受理和闭环46个重大问题,均在当天提供解决方案,圆满达成3个“0”(0中断,0投诉,0事故)和1个“优”(网络质量体验优)的通信保障目标。

小看板 大价值

此次保障中,还有一些引人瞩目的黑科技,例如这块看板。

华为在Z客户的网络存量占70%以上,2024年哈吉保障是华为无线网络首次进入麦加区域且由华为负责管理服务。在年初的客户高层拜访中,Z客户提出希望能有一块端到端、实时的网络业务监控看板,支撑其在政府面前展示麦加区域网络质量提升和用户体验改善等价值点。负责客户网络部署的Netcare Edge承接起这部分需求,其看板能力第一次参与到哈吉保障中。

看板需要根据客户需求定制化开发,正常开发周期为6个月,而从高层拜访到6月的哈吉保障之间不到4个月,时间不等人。3月拉马丹期间,业务BA(业务设计)带着客户前期提出的一些概念性需求来到沙特,由于当时Z客户正忙于网络搬迁和割接,且处于斋月期间,我们只能利用客户16点之后的休息时间进行需求澄清,客户开玩笑说:“华为要多付我每天两小时的额外工资!”两周后,我们初步锁定客户需求,结合已有的能力储备,快速输出业务方案,完成开发测试,并在客户网络进行现场部署和验证。

可是,等真实的采集数据传递上来,我们却发现和预想的不一样:有的周期采集不到数据,需要补位;有的数据异常,需要做识别保护;有的周期数据源采集失败,上报了错误数据,需要手工修正……现场有大量的适配工作。

另一方面,客户高层对看板不断提出新的想法,我们要评估风险,每一次新需求都可能导致设计的重大变更。在保障正式开始的前一天,客户突然提出要把华为无线覆盖的M区域拆分成三个Cluster(簇),分别看用户和社交媒体变化,还要增加历史数据回看功能。我们快速拉开发澄清实现方案,分析数据取值逻辑,赶制对应功能并发布补丁,先在研发测试环境进行验证,待当天晚上用户数最少时,我们紧急变更并验证,终于赶在第二天给客户展示……

在保障期间,Netcare Edge的哈吉保障看板能够实时准确地呈现客户网络的变化,基于麦加朝觐区域的用户热力图,快速高效地呈现网络状态和用户迁移态势。近三年哈吉关键指标对比,也证明了华为网络的高稳定、高可靠性。保障期间,我们累计接待十余次客户高层和政府机构拜访,得到了Z客户高层的大力赞许。看板也作为重点项目向沙特政府CST(通信、空间和技术委员会)呈现,获得认可和称赞,实现了华为和客户的双赢。

看板展示实时数据

20年,弹指一挥间,华为在这片神圣热土上连续创造了20次成功保障的奇迹,我们循着一代又一代华为人的踪迹,从“人拉肩扛”时代迈向越来越智能的数字时代,见证了许多人与世界的互联互通,我们相信,这条“朝圣之路”将会延续,这段保障的传奇也将一直持续。

0 阅读:0

菊厂基地打工仔

简介:感谢大家的关注