阿里雲E-HPC賦能製造業仿真雲彈性

摘要: 從公測開始提及 去年9月份E-HPC開始公測,某仿真客戶便開始申請使用彈性高性能服務。該客戶由於業務關係已開始或多或少使用雲計算產品,另外一方面傳統制造業發展問題也促使客戶想嘗試作出一些改變。 通過同客戶的初步交流,客戶的主要痛點集中在如下方面:客戶從事仿真行業,經過服務傳統的製造業得到營收,所以客戶的客戶集中在汽車,航天,船舶等。算法

從公測開始提及後端

去年9月份E-HPC開始公測,某仿真客戶便開始申請使用彈性高性能服務。該客戶由於業務關係已開始或多或少使用雲計算產品,另外一方面傳統制造業發展問題也促使客戶想嘗試作出一些改變。服務器

通過同客戶的初步交流,客戶的主要痛點集中在如下方面:客戶從事仿真行業,經過服務傳統的製造業得到營收,所以客戶的客戶集中在汽車,航天,船舶等。一方面該仿真企業的客戶在不一樣階段對算力的需求也不盡相同,有時也忽然遇到比較大的仿真需求的客戶,本身機房的小規模的機器常常知足不了生產須要,總的來講一年四季客戶對計算力的需求老是會有各類各樣的波動。網絡

最開始的彈性運維

E-HPC剛上線時爲在雲上資源所創建的集羣提供了計算機羣擴容和縮容的功能,這意味者在雲上New出來的計算節點一方面要能部署同其餘計算節點同樣高性能軟件棧,另一方面要求節點要有同一套POSIX帳號體系,以便集羣做業調度器可以將用戶提交的做業調度到該節點上運行。客戶剛開始便很快完成了基於ECS的集羣建立,剛開始運行須要幾十個計算核心的算例,經過E-HPC的擴容完成計算機羣節點的增長,同時能夠立刻在該集羣運行更多核心的結構和流體求解器計算做業。分佈式

能自動伸縮的彈性

       客戶爲製造企業提供仿真服務,有些算例客戶在運行前能夠預估大概須要多少計算核心計算多少時間,但有些複雜算例,客戶也沒法肯定資源需求量。客戶但願E-HPC產品提供的計算機羣可以貼着客戶從仿真系統提交的做業數量和實際的真正運行做業的計算核心數走,即客戶想盡量用好每個CPU週期,所以但願E-HPC能幫助客戶自動完成自動增長計算節點和自動減小集羣的計算節點。因此,AutoScale功能便上線了。AutoScale能夠根據整個高性能集羣的負載和策略動態調整計算機羣擴容和縮容。性能

同雲桌面/GPU服務器的結合

 

通常在仿真工做流裏面,完成大量的仿真計算後會進入到渲染階段,因此通常會通過GPU服務器集羣的Pipeline,最後經過雲桌面展現給客戶的客戶。因而E-HPC開始支持自定義鏡像,方便客戶從帶有特色渲染軟件的鏡像啓動GPU實例完成仿真後處理工做,而且E-HPC開始推出支持競價實例的擴容方式以便客戶可以使用較低的成本完成一些無狀態的訓練任務。測試

超級計算集羣

傳統的高能計算,爲了計算的極致,從每一年的Top500來看,在計算存儲網絡方面都有很明顯的特色。首先,在計算方面高能計算的集羣的計算節點傾向於選擇高主頻類型的處理器,頻率基本都在3GHz~4GH;其次在存儲方面 基本是基於傳統企業級盤陣,存儲系統的可靠性放在盤陣自身的容錯能力上,不多使用多副本的方案;在網絡方面,傳統應用多使用基於同步通訊的並行算法,所以爲了能達到較大的加速比通常使用低延遲的RDMA網絡甚至是專門定製的通訊網絡。阿里雲

年初雲上超級計算集羣(SCC)開始公測,提供能運行超算應用的計算存儲和網絡基礎設施,SCC可以給流體仿真之類的有限元分析軟件提供近乎線性的加速比。結合E-HPC提供的彈性,客戶很快便完成了POC測試。雲計算

咱們能夠看到對於一樣幾億單元的有限元分析,使用SCC不管是單節點的計算能力仍是多節點加速比都有顯著提高,所以客戶給反饋了以下的測試感覺:

「1.計算性能強勁:不管是單節點的計算能力,仍是多節點分佈式計算能力都有顯著提高,在測試項目計算規模以內,均可以得到很是不錯的加速效率」

「2.集羣互聯IO性能:RDMA高速互聯能夠知足必定範圍內的大規模的機械,流體等仿真應用計算要求,效果顯著」 ,要性能有性能,要彈性有彈性以後,客戶便更有信心將仿真生產系統往雲上遷移。

仿真應用遷雲

該仿真客戶通過多年的仿真服務實踐,開發了一款仿真系統,該系統集成了製造仿真行業經常使用的商業軟件,基本覆蓋碰撞仿真,流體動力學,機械結構,電磁模擬等。 

該仿真系統提供了統一的Portal給不一樣的製造企業以一致的體驗完成仿真工做流,早期的系統結構基本以下圖所示:從中咱們能夠看出早期的結構基本立足於傳統超算,融合了CAE並行計算、計算資源調度、軟硬件資源管理、遠程圖形桌面以及CAE專業應用等技術,由此面向仿真用戶提供仿真計算服務。客戶須要很重的成原本擁有這些基礎設置做爲生產資料來服務客戶的客戶。然而,通過交流,客戶的心聲是作仿真他們是專業的,可是經營IT基礎設施只是爲了維持他們的仿真生產系統而進行的活動;他們想專一於仿真服務,而將IT基礎設施遷往雲上,因而客戶便有了仿真系統遷雲的想法。

客戶想經過將仿真系統遷雲,達到如下效果:

1.用戶不須要購買任何物理IT硬件資源,經過Web便可開展仿真分析工做。

2.統一管理和調配專業軟件軟件管理,充分利用昂貴的CAE軟件資源。  

3.經過雲計算彈性充分利用雲上資源進行仿真。

通過逐漸的驗證,客戶在阿里雲上完成了將仿真流程收斂到下面的結構:

從上面的分析,咱們能夠發現客戶可以更加專一於仿真工做流自己,而將對IT基礎設施的使用變成了阿里雲上一條一條的OpenAPI;須要集羣時經過一條OpenAPI New出一個超算集羣,算力不夠時經過一條Open API New出新的計算機羣,做業空閒時經過一條Open API釋放計算機羣,不想手動操做時經過一條Open API 自動伸縮集羣。客戶不用再考慮自建機房,備貨,擴建,設備運維...... 。

總結 

隨着工業仿真技術的不斷髮展和成熟以及工業產品的自身的複雜程度愈來愈高,目前如今多數工業仿真對象都是在各類複雜物理環境條件狀況下進行的,這種狀況決定了完成工業級的仿真工做須要大量的計算和高性能的存儲資源,以及配套的能夠執行快建立和訪問仿真模型和數據,並可以實現較高程度的自動化仿真流程。工業上的仿真技術在產品研發中所扮演的角色在流程上愈來愈靠前,再也不是產品設計完成後的後端驗證。與此同時,工業仿真技術在產品生命週期的下游也發揮着愈來愈重要的做用,好比分析來自工業物聯網中機器的實時操做數據。所以,工業仿真所需計算資源、人才培養、環境建設的難度都在增長。但對於企業來說,搭建一個環境並培養專職的仿真工程師並不容易,僅僅是購買軟硬件的需求調研就可能花費數月時間,以後還得投入大量的時間和精力進行專業領域仿真培訓和應用部署。 

同其餘的企業級IT應用同樣,雲計算技術正在給仿真應用帶來巨大的改變。經過仿真雲平臺可以對產品進行設計、改進、創新進行模型的快速驗證和方案的對比。對於傳統制造企業來講,使用雲計算技術的價值歸根結底是不用購買和管理物理計算集羣,從而能夠改變傳統的仿真應用流程,更加專一於仿真應用自己。基於雲計算技術,企業將能夠用到更加靈活的軟件使用價格,並能夠隨時隨地進行建模解決複雜的仿真應用問題。藉助同時模擬多個不一樣設計方案的能力,基於雲計算技術的仿真能夠支持傳統制造業更輕鬆地進行產品設計和工程仿真。經過在阿里雲上仿真,能夠很快獲取彈性資源,可以在很短的時間就能夠進行完整的仿真生產流程。無論是加快產品創新,仍是知足製造業不斷增加的仿真需求或是,增強全球合做提升IT投資回報率,都會收到立竿見影的效果。

原文連接

相關文章
相關標籤/搜索