地址:北京市密云區(qū)高嶺鎮(zhèn)政府辦公樓
王經(jīng)理 13393261468
Q Q:514468705/1049705527
郵箱:[email protected]
數(shù)據(jù)中心 的軟件智能化已成為共識,,但背后的IT運維到底要進化到何種程度,?現(xiàn)實情況是,一方面隨著企業(yè)所面臨的運維數(shù)據(jù)在時間,、空間,、架構、規(guī)模等方面越來越復雜,,另一方面新舊業(yè)務之間的平滑對接對傳統(tǒng)IT流程也是不小的考驗,,如果運維的AI化落后于數(shù)據(jù)中心的AI,無疑會拖累數(shù)字化的進程,。
如果按照字面意思,,AIOps即Artificial Intelligence for IT Operations,不過Gartner對它的解釋是AlgorithmicIT Operations,,也就是基于AI算法去解決IT運維流程中的問題,,例如性能監(jiān)控、可用性分析,、關聯(lián)事件,、自動化,以及日志,、應用狀態(tài)等運維數(shù)據(jù)信息,。這一過程中,并不涉及人為的干擾因素,。
調(diào)查顯示,,全球有超過3000名CIO將數(shù)字化業(yè)務列為工作重點,預計AIOps的全球部署率會從2017年的10%升至2020年的50%,,所覆蓋的行業(yè)將涉及金融,、電力,、醫(yī)療、航天,、通信,、HPC等領域。其背后的挑戰(zhàn)可以從幾個方面來看,,首先是規(guī)模倍增,,設備端可能有數(shù)十萬臺主機需要監(jiān)控至少數(shù)千個運行狀態(tài),所處理的數(shù)據(jù)量日均也是T4B級,,而且還是實時的,。
其次,IT運維對連續(xù)性的高要求使得持續(xù)的交付,、集成,、調(diào)度成為首選,再加上海量的數(shù)據(jù),,對已有的運維成本存在較大挑戰(zhàn),例如當前IT業(yè)務中充斥著公私混的云環(huán)境,,以及第三方的SaaS類應用,,傳統(tǒng)的管理辦法再彈性環(huán)境中難以適應,而借助人工去監(jiān)督,、統(tǒng)計,、追蹤、分析是很大的工作量,,情況只會越來越糟,。
此外,更多的感知行為正在向網(wǎng)絡邊緣移動,,使得云基礎架構成為了IT解決方案部署的首選平臺,,從而讓開發(fā)人員獲得了較以往更大的權力,IT人員還要在IT Ops的層面承擔更多責任,,例如了解業(yè)務是如何在服務和底層架構之間進行交互的,。
從腳本運維到工具運維,再到智能運維,,特點可以體現(xiàn)以下方面:數(shù)據(jù)源搜集,、大數(shù)據(jù)分析、規(guī)則及模式識別,、域算法,、AI算法、自動化,。需要注意的是,,AIOps并沒有改變AI應用本身,,而是強調(diào)對流程、規(guī)則的AI化,。例如,,AIOps可以從無到有先對單點進行擊破,然后形成局部方案以此類推到面,,由多個單點模塊組成完整的AIOps流程,。其優(yōu)勢是,可知悉,、可重用,、可升級。
與此同時,,運維團隊的角色也在轉(zhuǎn)變,,要加入數(shù)據(jù)工程師、開發(fā)工程師甚至是AI工程師,,除了繼續(xù)承擔質(zhì)量,、成本、效率方面的工作,,還要在AIOps的實施過程中變身為需求的發(fā)起方和結(jié)果收驗方,。其中,運維AI工程師也要學會利用機器學習對運維產(chǎn)生的數(shù)據(jù),、經(jīng)驗進行整理和分析,,最終讓數(shù)據(jù)發(fā)揮應用的價值。
當然要想具備運維AI的技能并不容易,,對TensorFlow,、Caffe、CUDA這些框架要有基礎,,還要對交叉驗證,、驗證曲線等模型評估有基本的判斷。要知道在基礎運維平臺中,,除了在運維時要提供標準化的運維數(shù)據(jù)和操作,,在AIOps時的一些接口仍需要同時支持人工和自動數(shù)據(jù)獲取和運維操作。
無論多么智能,,AIOps的核心還是Ops,,這就決定了其會是跨領域的技術理念,因此在企業(yè)內(nèi)部開發(fā)者智能運維的時候,,要結(jié)合業(yè)務特點來制定AI機制,,不排除做二次開發(fā)的可能。如果運維不能AI化,,那數(shù)據(jù)中心再怎么智能也只會停留在表層,。
來源:精密空調(diào) http://kugq.cn