随着新业态、新模式、新技术对传统产业冲击的不断加强,数字化转型已经成为全球企业的共识。专业的运维服务在数字化转型落地过程中起着关键的作用,也正因为此,IT基础层的运维管理迎来了新的变革。

最直接的体现,数据中心运维服务客户关注的不仅是基础设施,而是更关注平台和上层应用;企业IT架构不断向云计算演进,传统被动式的人工运维弊端暴露,有机整合服务和产品的自动化运维对企业的吸引力加大;未来大数据与人工智能技术的结合,将有望通过机器分析、判断和决策来进一步降低企业对运维人员的依赖,从而推动运维向自动化和智能化演进。


数字化转型中的运维之痛


痛点1:自动化运维程度低,资源上线时间长。VPN申请、网络开通等业务开通依赖手工操作;电子化流程管理手段缺失,资源申请发放全部靠线下人员沟通,手工交付,耗时费力;缺乏规范化流程,存在流程管控不足,业务无法及时响应的现象。缺乏巡检自动化工具,日志筛选依赖人工;业务日志分析不到位,特别缺乏业务质量的日志分析。

痛点2:运维方式过于分散,相关责任方协调困难。现网设备和网管“七国八制”,各个部门使用各自运维工具,未实现有效连通,未能实现多部门运维能力的共享。设备种类太多,无法统一监控,烟囱式运维明显;资源使用情况不可见,缺少统一的资源管理、运维配置管理;缺乏资产的全生命周期管理,资源只增不减,僵尸机存在,造成资源浪费;可以看出,云数据中心向外界提供服务是多方服务融合的结果,不同服务使用不同的技术栈和协议,各服务的提供各自独立,难以整体协调。

痛点3:运维队伍能力不足,依赖关键个人能力。运维团队难以持续7*24小时保障,核心人员离岗导致服务质量下降;个人经验缺乏沉淀总结,未形成组织能力;缺少工具平台沉淀个人经验,形成自动化脚本或者知识库,积累组织能力。

痛点4:运维工作总是事后“诸葛”,往往损失发生后才知道补救。传统的运维工具和方法都只能在故障发生时发出告警并进行提醒,无法事先预料故障的发生。甚至只有在业务受损后,运维人员往往被投诉了才知道,缺少统一的网络自动巡检和流量监控平台,提前察觉网络异动。


数字化转型需运维变革先行


从数字化转型中的运维之痛来看,运维变革迫在眉睫,因为企业的ICT资源迅速扩展,场景越来越丰富,应用的技术不断更新换代,要想维护这么庞杂的系统,需要投入大量人力和物力,尤其是对人的专业能力要求更高,需要”通才“;但人的精力是有限的,既不能24小时盯着那么多的业务监控,也不能快速从各式各样的告警中分析出蛛丝马迹。对于企业来讲,招聘大量的“通才”运维人员,每年的人力成本都十分高昂,而且既然用人来管,就必然会做大量人与人之间的沟通,也会把业务部门拖入到运维的“漩涡”中。

运维变革1:人工智能技术推动传统运维向AIOps演进。AIOps建立在高度完善的运维自动化基础之上,通过机器学习不断从运维大数据如日志、监控信息、应用信息等中提炼和总结规则,进而做出智能化的分析决策达到运维系统的整体目标,以机器自判、自断和自决减少对运维人员依赖的风险势必会逐渐降低,AIOps有望成为运维领域新的增长点。

运维变革2:应用运维成为云上用户的运维重心。一般来说,很多企业的运维部门主要工作包括基础运维(针对企业IT基础设施的运维)、应用运维(针对企业具体业务的运维),较大的运维部门可能还有单独的运维开发,负责为公司运维部门开发运维工具和平台。

当用户决定上云(尤其是IaaS公有云),就表示用户已经把基础运维以及相关的工具平台开发工作交付给云供应商,而把应用运维作为整个运维部门的核心,这也符合云计算希望让用户只关注自身业务发展的初衷,这样的话,如何保障主业务的稳定运行就是客户关注的重中之重。

运维变革3:弹性和服务自助成为基础设施的基本要求。在传统基础设施中,获取基础设施的弹性非常不容易,为此,很多公司运维团队都会在基础设施的使用上面制定很多规章制度和流程,以方便进行资源管理和规划,但当管理云上基础设施时,这些制度和流程都是人为削弱弹性。

通过基础设施弹性化和服务自助化,可以大幅度降低运维成本(如业务扩容、缩容都能够自动完成),而且由于满足了基础设施成本的弹性需求,从而降低整个业务的运营成本,提升业务的市场竞争力。除了弹性,云的出现让自助式IT基础设施服务得以普及,任何用户都可以在分钟级别自助获取需要的基础设施资源,一方面可以大幅度提高整个流程的迭代速度,另一方面也可以减少运维人员在资源统计和发放上的时间开销。

运维变革4:第三方运维服务价值凸显,重点应用领域持续增长。企业IT基础设施复杂的异构环境要求数据中心运维具有极强的专业性,能够有针对性的为不同软硬件提供相应的运维服务。随着数据中心运维服务由硬件运维向软件运维迈进,需要具备跨产品、跨平台和跨应用的综合运维服务提供商,整合上下游服务生态,联合为客户提供从基础设施到平台、到上层应用的端到端运维服务。2017年IT数据中心第三方运维服务的市场规模达到792.2亿元,占整体市场的比例增长至45.7%。


华为I·MOC平台应运而生


纵观华为三十多年的发展,其服务的客户已经超过50000+,遍布全球170多个国家和地区,华为IT所服务的用户数量是海量规模,它包括研发、销售、服务、财经等组织,还有数量同样惊人的合作伙伴,以及服务于全球数亿规模的终端消费者们,完全迥异的业务流程对IT系统形成了极大的挑战。

华为IT早在2014年就开启了云化转型之路,多年过去,华为IT云规模呈指数级增长,所承载的业务形态更多样,华为已步入全面云化时代,当前,华为管理着全球200多个数据中心、5万多个机柜、30万台服务器、1000+PB的数据、百万级VM和多个异构云环境。

华为是如何克服自身数字化转型过程中IT系统所面临的困难和挑战的?经过十几年的自研和实践,华为推出I·MOC统一运维平台,该平台有管、监、控、服、营以及多租户几大核心的功能,“管”把所有资源进行统一登记,“监”实时把握他们的运行状况,“控”和“服”处理运维产生的问题,”营“把所有资产、资源的使用状况、运行状况以及健康状况集中可视化展示,让运维人员心中有数,快速解决问题。而多租户,对平台做租户隔离,权限管控,鉴权授权,保证平台安全。

华为在2018年华为全联接大会上面向全球企业市场正式发布I·MOC统一运维平台,分享华为自动化、智能化运维的成功实践,希望帮助客户实现“毛细血管级的运维”和“机器运维机器”,为客户带来“可视、智能、易用”的数字化运维新体验。