新浪科技

解放运维工程师你需要服务器智能运维

ZOL中关村在线

关注

原标题:解放运维工程师你需要服务器智能运维

     随着互联网、5G、IoT等技术的飞速发展,全球大型数据中心数量将以3.6%的复合年增长率增长,数据中心规模不断扩大,数据中心服务器规模已经达到10万级,这不仅需要更多的运维工程师,给企业增加运维成本,同时给运维工程师也带来了极大的难度和挑战:如何及时发现异常设备?异常根因是什么?故障是否能自愈?是否能预测故障?性能趋势是什么?如何决策?

 运维发展历程:人肉运维、自动化运维和智能运维

 早期的运维工作,大部分是由运维工程师手工完成,这被称作人肉运维。服务器运行状态,全靠运维工程师每日肉眼查看,进行问题定位与解决。自动化运维应运而生,大大提升了发现异常设备的效率,降低了运维成本。但是,面对故障根因、故障预测、性能趋势和控制决策,自动化运维力不从心。

  Gartner在2016时提出了智能运维(ArtificialIntelligence for ITOperations)的概念,并预测到2020年,智能运维的采用率将高达50%。从服务器运维的角度来分析服务器智能运维,目标就是通过对带外信息(配置信息、状态信息、性能信息、日志等)和带内信息(配置参数、性能信息、日志信息)进行采集,通过机器学习的方式来解决运维问题,提高系统预警能力和稳定性,降低运维成本,提高运维效率。

    异常快速检测,问题准确告警

    在服务器运维中,异常检测是根本,常见的有三大监控数据:状态指标、性能指标和日志数据,状态指标一般误报率较少,而传统性能指标的设置阈值,常常某一时刻产生噪点数据而产生误报;对于周期性变化的数据又无法进行动态调整,也常常产生误报,大大降低了告警的准确性。日志一般是半结构化数据,根据日志级别产生告警,其准确性极差,并且只能检测到已知和确定模式的异常。

    浪潮服务器智能运维采用无阈值告警,无需人为设置阈值,通过对时序数据进行去噪、升维、方差等处理后,经过神经网络、LSTM、随机森林等算法进行动态的学习,达到对监控的性能指标,自动、实时、准确的识别出异常数据。对于日志的处理,通过对单条日志的语义识别和日志文件的时序识别方式,经过自然语言、专家系统、神经网络、深度学习等算法进行训练或者维护,从而不断完善,达到日志异常的准确检测。

    故障智能处理,轻松运维soeasy

    智能故障诊断是建立在异常检测之上,有了准确的异常检测,通过综合各个异常指标进行数据的融合、过滤、权重等处理,使用神经网络、SVM、随机森林等智能算法,寻找问题根因,给出问题解决方案,使得运维工程师能够分钟级解决问题。

    智能故障预测是对设备某一部件的性能数据和状态的动态检测,对原始数据进行数据挖掘,寻找特征数据建立数学模型,使用神经网络、SVM等智能算法进行在线/离线训练,形成预测模型。在部件发生故障前,感知故障,从而避免业务宕机,提高系统稳定性。

    智能故障自愈是指故障确认后或者预测到故障时,无需人为干预,能够通过重启、配置或者一定的流程,使得系统能够恢复正常。故障自愈,需要维护一定的规则或者对故障进行标记,经过神经网络、SVM等算法进行训练,形成自愈模型,实现系统的故障自愈。

    智能决策,感知未来发展

    浪潮服务器智能运维工具可对服务器的性能数据进行预测,经过ARIMA、至小二乘法、指数平滑、LSTM等智能算法,能够感知系统在未来几个小时、几天或者一年的数据的走势、增长量或者周期性变化等,不仅为人工预测或者智能决策提供基础数据,还能够为业务系统提供优化建议。

    浪潮服务器智能决策是建立在异常检测、故障诊断、故障预测、性能预测等之上,通过建立数据模型,经过神经网络、深度学习、专家系统等智能算法的不断学习,形成决策模型,无需人为干预,对服务器的配置参数进行智能调整,版本基线的升级/回退等决策,从而达到系统性能优、异常少、功耗低等效果。

    例如监控服务器运行的性能,在业务少的时候,可以将服务器功耗降低,在集群方式下,甚至可以进行服务器关机操作,在业务量大的时候,将服务器性能调整至优等智能决策。在整机柜/机房中,功耗的管理,当服务器都处于满载时,服务器的功耗是否超越了整个机房或者机柜的大功耗,超越之后如何进行智能决策等。

    智能推荐,发掘无限价值

    智能推荐是对平台大量数据的统计、计算、分析和挖掘等处理,建立数据模型,通过神经网络、深度学习、至小二乘法、SVM等智能算法,建立推荐模型,实现对整个数据中心进行分析和预测,来指导客户决策服务器下架、备件量、扩容量、缩容量、采购厂商等。例如某一型号服务器的故障率过高,维护费用相应增高,建议下架,又由于业务的增长,需要采购新的服务器,通过智能算法评估采购量,进行推荐。

    目前,浪潮依托自身技术优势,已自主研发了一系列自动化、智能化服务器管理软件集,从服务器上架、配置、部署、监控、故障分析等实现了全生命周期运维管理。其中ISPIM(浪潮物理基础设施管理平台)突破了大规模基础设施智能管理平台的分布式网格架构、高性能数据采集框架及智能分析系统、无状态管理技术,实现大规模服务器的全生命周期的智能管理。

加载中...

聚圣源长沙公司起名公司起名吉祥字大全代购系统英国人口孕婴店装修效果图给药材行起商标名古代言情小说推荐十旬休假丝袜视频免费起名字有软件北京抗震加固小舞献祭是哪一集2016年金鹰奖颁奖典礼宝宝起英文名字男孩雍字男孩起名天空之城崇山峻岭的意思给工作室起什么名字好听注意的近义词2021女孩起名马头社subverse青山刚昌信件结尾照片起名免费公司起名字网站大全白月光掉马之后起名系统人工智能黑白头像女网络游戏起名大全女孩春天出生的起名字淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化