如何採用人工智能建立自動化運營的數據中心

現在,大多數圍繞人工智能(AI)的討論都集中在自動駕駛汽車、聊天機器人、數字孿生技術、機器人技術,以及使用基於人工智能的智能系統從大型數據集中提取商業洞察力。可是人工智能和機器學習將會在企業數據中心的服務器中扮演重要角色。算法

如何採用人工智能建立自動化運營的數據中心

人工智能在提升數據中心效率以及擴展業務方面的潛力可分爲四個主要類別:安全

  • 電源管理:基於人工智能的電源管理可幫助優化加熱和冷卻系統,從而下降電費,減小工做人員並提升效率。該領域的表明性供應商包括施耐德電氣、西門子、Vertiv和伊頓公司。
  • 設備管理:人工智能系統能夠監視服務器、存儲設備和網絡設備的運行情況,檢查以確保人工智能系統配置正確,並預測設備什麼時候將發生故障。調研機構Gartner公司表示,AIOps IT基礎設施管理(ITIM)類別的供應商包括OpsRamp、Datadog、Virtana、ScienceLogic和Zenoss。
  • 工做負載管理:人工智能系統能夠自動將工做負載實時移動到更高效的基礎設施上,包括在數據中心以及在混合雲環境中,在內部部署、雲計算和邊緣計算環境之間。愈來愈多的中小型企業提供基於人工智能的工做負載優化服務,其中包括Redwood、Tidal Automation和Ignio。像思科、IBM和VMware這樣的主要廠商也提供這樣的產品。
  • 安全性:人工智能工具能夠了解正常網絡流量的狀況,發現異常狀況,區分須要安全從業者注意的警報的優先級,幫助進行事故後分析,併爲有關企業安全漏洞的防護措施提供建議。提供這一功能的供應商包括VectraAI、Darktrace、ExtraHop和Cisco。

綜上所述,人工智能能夠幫助企業建立高度自動化、安全、自我修復的數據中心,這些數據中心幾乎不須要人工干預,而且可以以更高的效率和彈性運行。服務器

戴爾技術公司全球首席技術官辦公室的傑出工程師Said Tabet解釋說:「人工智能自動化技術能夠擴展到超出人類能力的水平來解釋數據,收集優化能源使用、分配工做負載和最大化效率所需的必要看法,以實現更高的數據中心資產利用率。」網絡

就像自動駕駛汽車的承諾同樣,自驅動數據中心至今尚未出現。在數據中心應用的人工智能的突破有不少技術、運營和人員方面的障礙。現在,雖然採用的人工智能技術剛剛起步,但潛在的好處將使一些企業不斷尋找機會採起行動。架構

電源管理充分利用服務器工做負載管理

據估計,數據中心消耗了全球3%的電力,並形成了約2%的溫室氣體排放。所以,不管是爲了節省成本,仍是爲了節能環保,不少企業都在認真研究數據中心的電源管理。機器學習

調研機構451 Research公司高級分析師Daniel Bizo表示,基於人工智能的系統能夠幫助數據中心運營人員瞭解當前或潛在的冷卻問題,例如因爲高功率密度機櫃阻礙了氣流而致使的冷空氣輸送不足、精密空調單元性能不佳,或冷熱通道之間的冷空氣輸送不足。ide

Bizo說,人工智能系統能夠經過將精密空調系統數據與環境感知讀數相關聯來學習設施。工具

IT諮詢和顧問機構StorageIO公司的創始人Greg Schulz補充說,「電源管理是一個很容易實現的成果。這意味着使電源設備更智能地工做。」性能

企業還要有一個容量規劃的角度。除了尋找熱點和冷點以外,人工智能系統還能夠確保數據中心爲適當數量的物理服務器供電,而且在電力需求臨時激增的狀況下,還有能力啓動和關閉新的物理服務器。學習

Schulz補充說,電源管理工具正在開發與管理設備和工做負載的系統的鏈接。例如,若是傳感器檢測到服務器運行溫度太高,則人工智能系統可能會快速自動將工做負載轉移到未充分利用的服務器上,以免可能影響關鍵任務應用程序的潛在中斷。而後,人工智能系統能夠調查服務器過熱的緣由,多是風扇故障(HVAC問題)、物理組件即將崩潰(設備問題),或者服務器剛剛過載(工做負載問題)。

人工智能驅動的健康監控、配置管理監督

數據中心有不少須要按期維護的物理設備。人工智能系統能夠幫助數據中心的按期維護,並收集和分析遙測數據,從而肯定須要當即關注的特定區域。Schulz說,「人工智能工具能夠探查全部這些數據和異常點。監視數據中心運行情況始於檢查設備配置是否正確以及是否達到預期效果。因爲大型數據中心能夠有上千個IT機櫃和數萬個組件,這些工做是勞動密集型的,所以並不老是可以及時完全地執行。」

他指出,基於大量傳感數據日誌的預測性設備故障建模能夠發現即將出現的組件或設備故障,並評估其是否須要當即維護,以免任何可能致使服務中斷的容量損失。

瞻博網絡公司企業和雲計算營銷副總裁Michael Bushong認爲,企業數據中心運營商應忽略一些與人工智能相關的過分宣傳和炒做。

Bushong說,「也許有一天,人工智能系統可能會告訴工做人員哪裏出現問題並加以解決。」

依賴關係映射在人工智能可能有用的領域中也很重要。若是數據中心管理人員正在對防火牆或其餘設備進行策略更改,那麼意外的後果是什麼?Bushong說:「若是我提議進行更改,可能存在的變化很是有用。」

保持設備平穩安全運行的另外一個重要方面是控制所謂的配置漂移,這是一個數據中心術語,指的是臨時配置的變化隨着時間推移會致使產生問題。Bushong說,人工智能能夠做爲額外的安全檢查,識別即將發生的基於配置的數據中心問題。

人工智能與安全

Bizo認爲,人工智能和機器學習能夠經過對事件進行快速分類和聚類來簡化事件處理(事件響應),從而識別出重要事件並將其分離開來。更快的根本緣由分析有助於運營人員作出明智的決定並採起行動。

Schulz補充說,人工智能在實時***檢測中特別有用。基於人工智能的系統能夠檢測、阻止和隔離威脅,而後能夠進行法醫調查,以肯定到底發生了什麼問題。

在安全操做中心(SOC)工做的安全專業人員常常會收到過多的警報,但基於人工智能的系統能夠掃描大量的遙測數據和日誌信息,從而清除平常任務,從而使安全專家可以騰出時間來處理更深層次的調查。

基於人工智能的工做負載優化

在應用程序層,不管是在內部部署仍是在雲平臺中,人工智能都有可能自動將工做負載移動到適當的着陸點。Bizo說:「人工智能和機器學習未來應該根據有關性能、成本、治理、安全性、風險和可持續性的衆多規範,對將工做負載放置在何處作出實時決策。」

例如,能夠將工做負載自動轉移到節能的服務器上,同時確保服務器以最高效率(利用率爲70%~80%)運行。人工智能系統能夠將性能數據整合到其中,所以對時間敏感的應用程序能夠在高效的服務器上運行,同時確保不須要快速執行的應用程序不會消耗過多的能量。

基於人工智能的工做負載優化引發了麻省理工學院研究人員的注意,他們去年宣佈開發了一我的工智能系統,能夠自動學習如何在數千臺服務器上調度數據處理操做。

可是,正如Bushong指出的那樣,現實狀況是,當今的工做負載優化是像Amazon、谷歌和Azure這樣的超大規模企業的重中之重,而不是企業數據中心。這有不少緣由。

實施人工智能的挑戰

優化和自動化數據中心是正在進行的數字化轉型計劃不可或缺的一部分。戴爾公司的Tabet補充說:「因爲發生疫情,許多組織正在尋求進一步的自動化,推進人工智能驅動並可以自我修復的‘數字數據中心’的構想。」

谷歌公司在2018年宣佈,已將其幾個超大規模數據中心的冷卻系統控制權轉爲人工智能程序,該公司報告稱,人工智能算法提供的建議使能源使用量減小了40%。

可是對於不少企業來講,在數據中心中採用人工智能技術很是有抱負。Bizo說,「一些人工智能和機器學習功能可用於事件處理、基礎設施運行情況和冷卻優化。可是,要想實現人工智能和機器學習模型超越當今標準數據中心基礎設施管理(DCIM)所能實現的更多突破,這須要多年的時間。」

Tabet說,「一些障礙是須要僱用或培訓合適的工做人員來管理系統。另外一個須要注意的問題是數據標準和相關架構的須要。AIOps平臺的成熟度、IT技能和運營成熟度是主要障礙。高級部署面臨的其餘新挑戰包括數據質量以及IT基礎設施和運營團隊中缺少數據科學技能」。

Bushong補充說,最大的障礙始終是工做人員。他指出,聘用數據科學家對許多企業來講都是一個挑戰,而培訓現有員工也是一個難題。長期以來,不少員工一直在抵制讓他們沒法掌控的技術。他指出,軟件定義網絡(SDN)技術已經存在10年的時間,可是超過75%的IT運營仍然是命令行界面(CLI)驅動的。

Bushong說:「「不少人相信,各類基礎設施的運營商都準備將控制權交給人工智能。」

而這就是Bushong建議企業應該向着人工智能方向邁進的緣由。

【責任編輯:趙寧寧 TEL:(010)68476606】

相關文章
相關標籤/搜索