从数字化到智能运维:有哪些价值又有哪些挑战


 

我国在2020年年底发布的“十四五”规划建议中6次提及“数字化”,对政府、数字经济、数字中国、金融、服务业、公共文化等不同方面均提出了要求,其中着重提到要发展数字经济,推进数字产业化和产业数字化,加强数字社会、数字政府建设,提升公共服务、社会治理等的数字化和智能化水平。
可以说,“十四五”规划建议的核心就是数字化,而数字化运维是数字化必不可少的环节,甚至是最重要的环节—数字化系统的建设只是第一步且为一次性的,而运维是全天24小时的,是每时每刻都不能缺少的,这印证行业的那句经典表述:“三分建设、七分运维”。
而当相对短暂的系统建设完成后,转移到漫长的运维与运营阶段—所谓“建转运”发生时,数字化的下一站就来临了。当然,我们看到,当前我国数字化浪潮进展到“建转运”的状态是时间和行业分布不均衡的,在运营商、金融等强运维/运营的行业,运维早已经是业务发展的必备支撑,而像能源、交通等行业,数字化的渗透率还处于较低阶段,上云率大约只有50%。
但随着宏观政策层面的指导、政企自身的业务发展以及技术的推动,在可预见的未来5年内,数字化运维的重要意义以及运维愈发凸显的价值会不断在实践中体现出来——实际上,市场也确实看到了这种改变正加速发生。

01 全球范围内的数字化时代已至
近年来,数字经济的发展趋势越来越明显,尤其是随着疫情的影响,加速了传统产业向数字化、网络化和智能化产业的转型和升级。全球数字经济规模不断扩大,体量连年增长,根据中国信息通信研究院报告显示,2019年全球数字经济规模达到39.2万亿美元,占GDP比重达到41.5%,同比增长5.4%,数字经济在国民经济中的地位持续提升。
我国从2015年就开始积极推进数字经济发展和数字化转型政策的不断深化和落地,政府围绕数字经济颁布了一系列重要政策,多次发表指导性意见,在中央层面,数字经济战略包括重点支持各产业升级、创新以及可持续发展方针。
“数字经济”已经连续多年被写入政府工作报告,在2020年政府工作报告中明确提出要继续出台支持政策,全面推进“互联网+”,打造数字经济新优势。
到2020年,我国已经基本建成了数字经济国省二级政策体系,“十四五”期间,多地陆续出台相应的数字经济专项政策,包括数字经济发展行动计划、产业规划、补贴政策等,明确发展目标与实施路径,将产业数字化作为开启数字经济增长的核心方向。

02 数字化世界面临的崩塌风险
经过30多年的演进,信息技术不断进步,系统的架构模式经历了多次进化,系统的规模发生了“量子跃迁”式的变革,应用系交付依赖于许多网络服务提供商,也越来越依赖于面向网络服务的大型且复杂的生态环境,例如CDN、边缘计算、DNS、DDoS和公共云等,在追求高度业务连续性与极致用户体验的今天,无论任何时候,任何应用环节的服务中断或者出现性能问题,都会造成极大的影响,导致重大业务损失,如图1-2所示。
▲图1-2 数字世界的崩塌风险
数字世界正在成为物理世界的“镜像”。我们可以借鉴物理世界的“物业”概念来预防和解决数字世界面临的崩塌风险问题。
一方面,物理世界发生的一切,都可能在数字世界重来一遍;另一方面,物理世界的商业演变规律,也可能在数字世界效而仿之。在数字世界中,依然存在着如同物理世界的分工。如果说数字化系统建设类似数字世界的“盖楼”,那么数字化运维正如数字世界里的“物业管理”。
持续的数字化运维是解决崩塌风险的关键。

03 IT与运维的价值传递和创造
数字化更多是让客户成功,所以企业在数字化转型中,都在讲要提升客户体验,创造客户价值,要加快业务创新,再到运营提质增效。
价值是递归传递的过程,即组织价值传递到IT价值,再传递到运维价值的过程。这样一来,我们在做项目时就不是内卷,而是真的围绕企业发展角度去做,如图1-3所示。
▲图1-3 价值捕获向价值创造变化
价值如何从企业传递到IT,再到运维。数字化转型,企业价值有三个价值:
§ 提升客户体验,创造客户价值;
§ 加快业务创新,重塑商业模式;
§ 提升运营效能,提能增效。

传递到IT后变成了“安全稳定、快速交付、技术引领”,如图1-4所示。
▲图1-4 企业价值、IT价值和运维价值
IT要实现这三个价值,要提高以下能力:
§ IT风险保障能力:数据驱动的业务连续性保障与风险防控能力;
§ 客户服务能力:以客户为中心的“感知、决策、执行”的服务能力;
§ 快速交付能力:利用敏捷、设计思维等方法,推动技术平台转型,快速支持业务,交付新产品、新服务的创新能力;
§ 生态扩展能力:开放的场景接入,融入或构建生态的能力;
§ IT服务能力:提升IT服务效能,灵活弹性、安全可靠的技术基础资源交付能力;
§ 运营协同能力:构建高效的数字化工作空间,优化资源配置,为运营提能增效。

最后,价值又从IT传递到运维,即
§ 增强IT风险保障能力;
§ 加快业务交付速度;
§ 提升客户体验;
§ 提高IT服务质量。

从价值传递的角度,运维转型要从公司价值主张出发,传递到IT能力,再思考需要什么运维价值。也就是说,围绕“提升客户体验、加快业务创新交付、为运营提能增效”三个企业的转型价值,分析客户及业务价值主张,了解客户与业务的痛点,再从IT团队“IT风险保障、客户服务、快速交付、生态扩展、IT服务、运营协同”六大能力角度,分析运维在数字化转型过程中的关键价值。
总结起来,运维可以考虑围绕“提高业务连续保障水平”“提升业务交付效率”“辅助提升客户体验”“提升IT运营服务质量”进行。

04 数字化时代的运维挑战
为了实现运维价值,需要解决运维面临的一些复杂性因素问题,总结起来有8点,如图1-5所示。
▲图1-5 运维价值的复杂性因素
§ 技术架构:业务迭代需求、商业模式创新、技术创新等因素,驱动IT能力的持续提升,带来新技术与新架构模式的引入,运维在新技术选择时机、技术成熟度、架构及数据高可用的评估能力、对存量技术架构的影响、新技术附带的选择成本等方面面临挑战。
§ 应用逻辑:越来越复杂的业务逻辑关系、更细粒度的原子服务、外部监管政策要求的风险控制要求等因素,驱动业务逻辑越来越复杂,呈现动则生变的常态化风险,以及新风险引发的组织人员对应用逻辑知识掌握、产品设计、性能容量评估、故障应急、快速恢复、影响分析、故障定位等能力的新要求。
§ 变更交付:在线感知客户体验、更快的产品或服务创新、更快的迭代速度、更短的技术评审时间、更复杂的版本管理、无序的变更计划等因素,驱动运维进行更全面的技术平台的建设,交付协同模式的变化,绩效考核的调整等新要求。
§ 海量连接:移动化、物联网、开放平台等新业务模式的引入,以及全数字化协同网络的产生,带来海量数据、海量连接、海量终端,每个连接节点之间在线连接质量以及节点的可用性都将大幅增加运维业务连续性保障的范围,甚至重塑运维业务连续性保障的定义。
§ 操作风险:外部网络攻击形势、政策法规要求、应急操作管理、应急处置能力、运维操作性工作量大幅增加等因素,带来更多的操作风险。应对更多操作风险带来了更多的自动化工具,自动化工具的引入又带来新的操作风险,以及人员操作技能下降带来的风险。
§ 协同机制:DevOps、一切皆服务、应用运营等工作模式的变化,带来新的协同机制的建立,如何选择合适时机,有节奏地推进组织、流程、平台有序建设,考验运维体系建设者的全局设计与落地能力。
§ 技能与文化:新需求、新技术、新机制带来新知识,组织面临建立新的学习型文化以更快适应变化,以及学习型文化对现有人员角色重塑,能力培养等配套机制挑战。
§ 外部因素:政策及监管趋严、全线上在线监管等因素,驱动IT运维精细化能力不断提升,需要在现有人力资源基本不变的基础上,分离更多资源进行精细化能力的建设。

面对上述复杂性,运维组织面临的挑战是如何设计一辆不用停车的高铁,即让“相对稳定且能较精确预知领域”进化以更加适应数字化时代,并具有持续的稳定性;同时,适应并赋能企业转型持续探索、试验、创新,驾驭不确定性的能力,使企业具有持续的敏捷性。
下面是网上流传的永不停车的高铁的设计,很有意思,读者有兴趣可以到网上查一下,如图1-6所示。
▲图1-6 运维组织的挑战
我们在做项目时,会遇到一些解释持续投入的问题。比如财务沟通时会问:“每年都在做运维平台投入,什么时候才能做完?”这的确是运维要解释的问题,笔者的观点是运维平台能力是一个持续增长飞轮的适应性系统,如图1-7所示。
▲图1-7 建立运维适应性系统的增长飞轮
o 注:模型来自《技术的本质》与亚马逊增长飞轮的结合。

能力的提升来源于更高(质)、更多(量)、更快(速度)的需求驱动;为了适应新的需求,运维组织快速引入新技术与新方法;改变通常会产生新的风险;综合优化组织、流程、场景、平台能力,解决风险,形成适应性能力;建立了适应性能力后,可以支持更高、更快、更多的需求(这个闭环不一定从需求开始,也可以从其他节点开始)。以云原生架构为例。
§ 需求:充分发挥云计算的弹性、灵活、自动化优势,使得工程管理和基础设施管理变得更加高效和自治,从而将精力集中到业务创新之中;
§ 改变:优化应用的开发架构,容器化基础设施架构建设,加强微服务治理效率;
§ 风险:新技术引入的时机是否合适,新技术不成熟度带来的风险,原有系统改变带来的风险,混合云环境和各种跨云/跨平台的运维操作,以及更加复杂的上下游链路关系;
§ 适应:运维人员对云原生能力技术及应用上下游关系链路的技能学习,打造云原生的技术中台及配套的协同机制,优化DevOps流水线的持续发布能力,云上的监控能力,针对容器PaaS平台的监控能力,自动化全链路的监控及故障发现能力,混沌测试能力等建设工作,形成一个针对云原生运维的工作场景。