百度云说:从0到1,AIOps领先业内的实践之路
编者按:《百度云说》是刊登百度云管理层及产品、技术专家系列观点文章的专栏。在这些文章中,将逐步揭秘百度云对行业、市场、生态、技术、产品和解决方案的实践与思考。我们希望通过这样的方式,让您更加了解百度云,同时促进行业交流,更好地服务用户。
本期《百度云说》邀请到的嘉宾是百度云智能运维团队负责人曲显平。曲显平是百度云资深的智能运维专家,主导过百度监控系统、运维数据仓库、智能运维平台等多个重要项目。
运维是个苦差事儿,尤其是当一个企业的业务规模不断成长时,各种线上故障随时可能发生,业务应用的频繁迭代成为家常便饭。但不可否认的是,运维的价值正在变得愈发重要。尤其是随着AI时代的来临,AI技术的融入,运维开始从自动化迈向智能化,智能运维所带来的价值逐渐彰显。百度云开创了国内智能运维从0到1的先河,率先在智能运维领域进行了诸多实践。本文聚焦在百度云的运维发展历程以及在智能运维中的实践真知。访谈全文如下。
Q:能否介绍一下百度云的运维发展历程?
曲显平:百度运维的发展历程一直跟百度自身业务发展紧密联系,主要划分为四个阶段:
2007年之前,百度运维主要是依靠脚本&工具,这个阶段,主要通过人工执行命令脚本来实现运维操作;
2007年–2011年,进入到标准运维平台阶段,通过抽象运维操作,形成标准化的运维模式,通过Web交互来实现自动化运维操作;
2011年–2014年,进入到开放可定制运维平台阶段,通过提供运维配置的代码化管理和运维操作的API化,实现运维的可配置和可定制;
2014年以后,进入到智能运维平台阶段,这个阶段融入了智能工程框架和智能算法策略,逐步实现运维的智能化。
在智能运维之前的阶段,运维的核心目标是提升效果,比如多个业务的持续交付速度、应用服务的稳定性、降低运维成本等。进入到智能运维阶段,百度云的运维目标随着支撑业务规模不断增长、运维场景不断丰富而发生了根本性变化,百度云的智能运维更加关注释放运维自身的效率,以及解决传统运维方法所不能解决的挑战。
Q:百度云开创了国内智能运维从0到1的先河,如何做到的?
曲显平:在我看来,之所以能够在智能运维领域领先主要在于:
第一,百度云智能运维团队之前主要服务百度内部业务,百度复杂的业务环境和需求一直推动着百度云智能运维的发展;第二,百度云智能运维团队是一个整体,并不是按照事业部来划分成不同的独立团队,整个运维团队的业务视角和经验远比各业务独立运维的团队丰富;第三,百度云的智能运维团队是规模最大的单一运维团队,覆盖的业务数量和服务器数量在国内是最多的,通用运维能力也是最强的。
补充一点,百度云之所以在AIOps能够领先,是因为百度从始至终崇尚技术,百度云的AIOps相关技术绝对是业界领先的。百度云的智能运维最近几年成长非常迅速,关键还在于百度云的智能运维能够做到兼容并蓄、开放包容,像SRE、DevOps、ITIL等理念,百度云都会学习和总结,最终形成一套自己的方法论。现阶段,百度云的智能运维完全可以跟Google、Facebook相媲美。
Q:在智能运维中,大数据、人工智能技术发挥了什么作用?
曲显平:AIOps这个词是2016年Gartner提出来的,早期的意思是Algorithmic IT Operations,即基于算法的IT运维,主要是指用大数据、机器学习驱动自动化、服务台、监控这些场景的能力提升。到2017年,Gartner将AIOps的概念改成了Artificial Intelligence IT Operations,即智能运维。
事实上,百度在2014年开始就对智能运维进行的诸多探索,最开始集中在监控指标分析、报警分析、故障根因分析、性能和成本分析等方面,到2016年百度云智能运维团队已经完成对AI应用于完整的运维平台研发的论证,我们认为AIOps的目标是将人的知识和运维经验与大数据、机器学习技术相互结合,开发成一系列的智能模型和策略,并融入到运维系统中,利用智能运维系统去高效、智能地完成运维任务。
大数据、机器学习等技术在智能运维中发挥着重要的作用。大数据主要指的是对数据的处理能力,像海量监控指标计算与存储、海量日志统计分析等问题,就需要采用大数据的技术和手段去解决;而机器学习,更侧重分析问题和解决问题的方法和手段,有了海量数据,如何做智能异常检测、智能容量预测、智能咨询和问答等,就需要利用机器学习等方式去解决;运维的问题日益复杂,需要我们将大数据和机器学习的技术组合在一起,发挥更大的作用。
最后,其实每个运维操作都可以分解成感知、决策、执行这样一个标准流程,我们所需要做的,就是总结抽象运维模式,将大数据和机器学习的技术,融入到运维操作的每个阶段,让问题感知、分析决策、调度执行都让机器自动去完成,就可以实现运维的智能进化。
Q:百度云如何将运维领域的经验沉淀成产品?
曲显平:事实上,百度云一直是希望将在运维领域的实践和经验赋能给其他行业的客户。目前,百度云对外提供的运维产品主要有两种:
一种是标准类的运维产品,适合基础设施薄弱或者希望借鉴互联网运维理念做转型的客户,它们需要标准运维产品来构建运维基础;
另外一种就是智能运维(AIOps)产品,适合基础设施规模比较大、业务环境比较复杂的用户。
此外,百度云的智能运维产品支持私有云和公有云等环境。
现在已经包括金融、制造、视频媒体等多个行业的用户采用了百度云的智能运维产品和解决方案,百度云希望未来有更多用户能够享受到百度云智能运维带来的价值。
Q:具体介绍一下百度云智能运维的经典应用或案例。
曲显平:现阶段,百度云的智能运维已经在百度内部得到了很多应用。比如:
智能异常检测,以前需要人手工去配置监控阈值发报警。我们通过人工智能技术,构建异常检测模型,并且不断让它去学习和优化,现在大量的监控指标已经不再需要人工配置,而且,通过机器学习的方式会减少人为错误,大幅提升召回率和准确率;
消除报警风暴,我们监控了百度数以十亿计的业务指标,很多指标之间都有关联关系,一个故障可能会导致很多关联报警的出现,如果没有应用机器学习等人工智能技术,对数据进行学习和建模,很难把最关键的报警识别出来。百度云的智能运维很好地解决了报警风暴问题,把报警量减少了95%以上;
故障诊断,百度的很多业务系统规模都十分庞大,这给故障期间的快速定位根因带来了很大挑战,我们利用了大数据和机器学习的手段,对系统的全局和局部状态分析,将可能的根因推荐给运维工程师,帮助运维工程师快速诊断并处理故障,减少故障造成的损失;
故障自愈,像单个机器/实例的故障问题、单个IDC的故障问题以及某些业务的故障问题,让机器去智能判断,并且后续由机器介入和解决,整个过程不需要人工干预;
容量预测,根据不同业务和系统指标,训练容量水位模型,自动预测接下来一段时间的容量情况,一方面可以在容量快要达到极限时,及时预警并触发扩容操作,另一方面,在节假日或业务做活动期间,可以根据历史情况和实时数据,准确预估容量,确保业务活动保障顺利进行;
SQL入侵检测,将SQL语法树抽象为特征向量,利用机器学习对数据库的海量日志数据、历史SQL数据进行训练,能够有效地检测SQL入侵,保障数据库安全可靠。
百度云的智能运维产品是跟百度云对外赋能紧密配合的,已经有包括金融、视频媒体、制造等行业客户采用了百度云的智能运维产品、解决方案。比如金融客户,基础设施规模足够大,对AI应用有强烈需求。百度云智能运维解决的智能异常检测、报警收敛、智能故障自愈、运维智能助手、运维知识图谱等都与金融行业有契合点;其他像媒体行业、视频直播类网站、智慧城市、智慧机场也有百度云智能运维的成功案例。
Q:百度云智能运维的产品如何满足不同行业、不同规模用户的需求?
曲显平:百度云智能运维对外提供的产品一定是符合行业标准的。当前,很多客户的运维产品是从传统运维产品发展而来的,这些产品未来很难适应智能运维的需求。百度云很早就认识到这个问题,认为AIOps的标准需要尽早去定义。如果后续市场中,所有智能运维的产品都围绕标准去构建的话,那将对AIOps市场的发展起到极大的推动作用。
事实上,百度云智能运维团队也一直坚持投入行业标准的建设中,比如在运维相关领域的顶级会议SREcon、SIGCOMM、INFOCOM、CoNEXT、LISA中,持续发表了多篇重量级的论文和演讲,致力于AIOps行业标准的逐步建立。
文章授权转载自百度云 ')}