綁定TensorFlow,開放TPU,谷歌雲想用AI優點換道超車AWS?

本文由 「AI前線」原創,原文連接:綁定TensorFlow,開放TPU,谷歌雲想用AI優點換道超車AWS?
編譯 | Debra
做者 | AI 前線編輯部

AI 前線導讀:」北京時間 2 月 13 日凌晨,谷歌雲平臺博客發佈了一篇文章:即日起,測試版雲端 TPU(Cloud TPU)現已開放上市測試版。Jeff Dean 更是連更推特十條進行介紹。根據官方消息:Cloud TPU 不只擁有更快的模型訓練速度,而費用僅爲 6.5 美圓 / 小時。」html


谷歌新殺器:Cloud TPUgit

根據官方博客介紹,Cloud TPU 是 Google 設計的一系列硬件加速器,通過優化,可加速和擴展使用 TensorFlow 編程的特定 ML 工做負載。每一個雲端 TPU 由四個定製 ASIC(硬件編程芯片)構成,可將高達 180 teraflops 的浮點性能和 64 GB 高帶寬內存打包到單個板上。github

這些主板能夠單獨使用,也能夠經過超快專用網絡鏈接在一塊兒,造成被稱之爲「TPU pod」的多 petaflop ML 超級計算機。今年晚些時候,Google 將在 GCP 上提供這些大型超級計算機。web

Cloud TPU 具備的優點以下:數據庫

  • 能夠經過控制並可自定義的 Google Compute Engine 虛擬機,以互動方式獨佔訪問鏈接網絡的 Cloud TPU,而無需等待做業在共享計算羣集上進行安排。
  • 與其等上幾天或幾周來培訓關鍵業務型 ML 模型,用戶能夠在一系列雲端 TPU 上過夜培訓同一型號的多個變體,並在次日在生產中部署最精確的培訓模型。
  • 用戶能夠在不到一天的時間內訓練 ResNet-50 以達到 ImageNet 基準測試挑戰的預期精度,且價格不超過 200 美圓。

2017 年 5 月 18 日,Google I/O 大會上,咱們第一次見到了傳說中的 TPU 2.0,結構中包括了四個芯片,每秒可處理 180 萬億次浮點運算。Google 還找到一種方法,使用新的計算機網絡將 64 個 TPU 組合到一塊兒,升級爲所謂的 TPU Pods,可提供大約 11500 萬億次浮點運算能力。編程


輕鬆搞定 ML 模型訓練安全

傳統上,爲定製 ASIC 和超級計算機編寫程序須要深刻的專業知識。相比之下,您可使用高級 TensorFlow API 編程 Cloud TPU,並使用 Google 開源的一套高性能 Cloud TPU 模型部署的參考項目,能夠快速上手:服務器

github.com/tensorflow/…網絡

爲了節省使用者的時間和精力,Google 不斷測試這些模型實現的性能和收斂性,以達到標準數據集上的預期精度。架構

未來還將開放其餘模型部署的方法。Adventurous ML 專家可使用 Google 提供的文檔和工具,自行優化其餘 TensorFlow 雲端 TPU 模型。

Google 在 NIPS 2017 上曾經宣佈,使用完整的 TPU Pod,ResNet-50 和 Transformer 的訓練時間將從一成天的時間縮短到不到 30 分鐘,且無需更改代碼。

博客中還提到了一家正在使用 Cloud TPU 的企業,投資管理公司 Two Sigma:

「咱們決定將咱們的深度學習研究集中在雲上的緣由有不少,但主要是爲了得到最新的機器學習基礎設施。將 TensorFlow 的工做負荷移至 TPU 可大大下降編程新模型的複雜性以及訓練時間,從而提升了咱們的生產力。使用 Cloud TPU 代替其餘加速器集羣,使咱們可以專一於構建模型,而沒必要分散精力注意集羣通訊模型的複雜性。「 ——Two Sigma 首席技術官 Alfred Spector

Cloud TPU 還簡化了對 ML 計算資源的計算和管理:

  • Cloud TPU 可以使得 ML 模型加速最優化,並根據需求動態調整容量。
  • Cloud TPU 的大規模、高集羣的 ML 模型已通過多年優化,您無需投入專門的能源、冷卻、網絡和存儲設備等方面的精力、時間和專業知識來進行設計、安裝和維護。
  • 無需費力保持大量工做站和服務器保持最新的狀態,由於 Cloud TPU 已進行了預先配置,而無需安裝驅動程序!
  • 享有和全部 Google Cloud 服務相同的複雜的安全保護機制。


綁定自家 TensorFlow,腳踩他家 GPU

谷歌的壟斷地位愈來愈牢固了。

2016 年 5 月,谷歌發佈了機器學習專屬芯片:TPU,去年又推出了第二代產品 Cloud TPU。第一代產品僅可以處理推理任務,第二代 TPU 增長了可用於機器學習模型訓練的功能。谷歌搜索、街景、谷歌照片和谷歌翻譯等 Google 服務如今都有一個共同點:他們都使用了張量處理單元(TPU)來加速他們在幕後的神經網絡計算。

在軟件方面,Google 在機器學習方面的聲譽必將給 Cloud TPU 服務帶來更多新用戶。而且已經使用 Google 的深度學習框架 TensorFlow 的開發人員,無需對其代碼進行更改便可使用此服務。TPU 也爲 TensorFlow 特意優化過,也就是說 TensorFlow 在 TPU 上會有更好的運行效果。換言之,想要用 TPU 的人可能就不會選擇其餘的深度學習框架。從長遠來看,這給了 Google Cloud 一種與 AWS 和 Azure 不一樣的脫穎而出的方式。畢竟,如今大多數廠家都提供相同的基礎雲計算服務,而容器的出現使得將工做負載從一個平臺轉移到另外一個平臺變得更加容易。經過 TensorFlow 和 TPU 的結合,Google 在短時間內具備獨特的優點。

在硬件方面,將 TPU 與英特爾和英偉達的芯片相比的話,Google 曾經宣稱「咱們發現 TPU 的性能比如今的 CPU 和 GPU 高出 15-30 倍,每瓦特性能高出 30-80 倍。這些優點幫助 Google 的許多服務以規模和成本實現了最早進的神經網絡」。谷歌在其 I/O 大會上舉了個例子,來代表這款芯片有多麼強大:大規模翻譯模型可能須要 32 個 GPU 一成天的時間來訓練;但只須要一個下午,用八分之一個 TPU,就能把這件事情作好了。

英偉達於去年 12 月公佈了首款基於 Volta 架構的 Titan V,官方宣稱是目前「全球最強的 GPU」,主要針對的就是 AI 或深度學習等相關領域的科研人士,深度學習計算能力達到 110 teraflops,售價卻高達 2999 美圓。而 TPU,谷歌並無直接售賣芯片,而是經過雲服務的方式提供服務,讓人人都用得起,而且還能提供技術支持,讓用戶沒有後顧之憂。

在雲計算的市場上,已經造成以亞馬遜、微軟、谷歌、阿里爲第一梯隊的全球格局。亞馬遜最先推出雲計算,搶佔了先機,並具備全方位的服務;微軟在安全方面有獨特優點;阿里做爲國內雲計算服務的領頭羊,已經連續多年保持高幅度增加;谷歌的核心是搜索業務,其營收主要來自於廣告,但云計算服務愈來愈受到重視。Cloud TPU 可經過谷歌雲服務進行選擇使用,經過 Google Cloud,任何人均可以租用 Cloud TPUs,而且價格和 GPU 差很少。無疑也增長了谷歌雲服務的特殊優點。


雲服務巨頭廠商哪家強?

雲計算的熱潮已經席捲全球,這並不奇怪。 對於大多數企業來講,在公司內部複雜的服務器機房和網絡中痛苦掙扎的日子已通過去了。 在過去的十年中,雲計算已變得更具成本效益、安全性和可靠性。雲計算行業的主要供應商如今正大力投資於硬件、軟件和全球網絡基礎設施,以期得到更多的市場份額,所以也催生了更好的計算性能。 良好的競爭對於消費者和供應商合做夥伴來講是件好事,由於這能使他們下降成本,而且供應商們也會不斷創新以保持領先。

一般來講,當咱們談到雲計算供應商,大部分是時候指的是業界三巨頭:微軟 Azure、谷歌 Cloud 和亞馬遜 AWS。在這篇文章中,咱們將對其中的兩家:Google Cloud 和 AWS 進行對比,咱們將力求使這篇文章不偏不倚,並以通俗的語言解釋全部內容。 這兩個提供商都會有各自的優勢和缺點,所以不管你最後選擇哪一個供應商,在使用過程當中均可能會遇到一些問題。


雲計算趨勢

在咱們深刻比較 Google Cloud 和 AWS 以前,讓咱們先看看最新的雲計算趨勢。2017 年 1 月,RightScale 進行了第六次年度雲計算現狀調查,他們採訪了 1000 多名 IT 專業人員,分析當前的雲計算趨勢,其中有很多有趣的發現。

  • 2016 年,32% 的受訪者認爲雲計算最大的挑戰是缺乏資源或者專業知識,而 2017 年這個數字降低到了 25%。
  • 2016 年,29% 的受訪者表示對雲計算相關的安全問題感到擔心,而 2017 年這個數字降低到了 25%。
  • 2016 年,15% 的受訪者認爲性能是雲計算的一項重要挑戰,而到 2017 年只有 11% 的受訪者這麼認爲。

雲計算面對的挑戰(源自:RightScale)

從上述與專業知識相關的數據變化中,咱們能夠看到進入雲計算行業的門檻正在迅速下降。你再也不須要先成爲專家才能使用 Google Cloud 或 AWS 託管你的網站。如今許多雲計算託管服務提供商可讓你直接使用雲服務,而無需擔憂專業技術知識。大型企業如今甚至會投資於本身的員工和工程師去考取 Google Cloud、AWS 和 Azure 的認證資格:

  • Google Cloud 認證:雲端架構師、數據工程師、G Suite 管理員
  • AWS 認證:解決方案架構師、DevOps 工程師、開發人員、SysOps 管理員
  • Azure 認證:MCSA:雲平臺、MTA:IT 基礎架構、MCSA:Linux on Azure、MCSE:雲平臺和基礎架構等

過去幾年中,性能和安全性也取得了日新月異的發展,由於雲計算提供商不得不發明新的方式來更安全地託管數據,同時提供更快的計算速度。大多數提供商如今默認對數據中心之間的流量進行加密。

這項調查中還有一個有趣的發現,就是 2017 年與 2016 年公共雲採用狀況的統計數據。AWS 的公有云採用數據保持不變,而 Azure 和 Google Cloud 都有至關大的增加。AWS 仍然是毫無疑問的領頭羊,但這主要是由於他們進入雲計算行業最先。Google Cloud 和 Azure 後續確定還會不斷追趕。

公有云採用狀況(源自:RightScale)

如下是有關雲計算行業的其餘統計數據和預測:

德勤技術

www2.deloitte.com/content/dam…

根據德勤技術預測,到 2018 年末,在數據中心、軟件和服務的 IT 即服務支出將達到 5470 億美圓。

德豪技術展望調查

www.bdo.com/getattachme…

德豪技術展望調查發現,74%的技術首席財務官(CFO)表示,雲計算在 2018 年將對其業務產生至關大的影響。

IDC FutureScape

cofinaeventos.pt/portugaldig…

IDC FutureScape 預測,到 2018 年,至少一半的 IT 支出將基於雲計算,到 2020 年這項支出將達到全部 IT 基礎設施支出的 60%,以及全部軟件、服務和技術支出的 60-70%。

維基百科

siliconangle.com/blog/2017/0…

維基百科預測,企業雲計算支出在 2016 年至 2026 年間會以 16%的複合年增加率(CAGR)增加。

看看谷歌趨勢這段時間的興趣指數也頗有趣,在過去五年雲計算一直在穩定增加。

雲計算提供商的谷歌趨勢

Stack Overflow 做爲開發者最大的在線社區之一,也有一個很是漂亮的趨勢工具,在這個工具中,他們根據每月提問的問題百分比來分析模式。開發人員是行業的重要組成部分。雖然首席技術官可能擁有最終決定權,但實際上真正去實施雲計算解決方案的是開發人員、工程師和系統管理員。

Overflow 上的雲計算趨勢

2017 年 12 月 20 日,Jefferies 的分析師 John DiFucci 推出了公有云服務的季度快照。儘管亞馬遜在公有云上還是霸主,但 2017 年穀歌雲平臺年同比增加 125%,實在使人難以置信!阿里巴巴和微軟 Azure 也在飛速增加。

Google Cloud vs AWS(IaaS/Paas 市場)(源自:MarketWatch)


Google 雲平臺(Google Cloud Platform)

Google 雲平臺由許多不一樣的服務和解決方案組成,這些服務和解決方案讓用戶能夠利用 Google 用在本身產品(例如 YouTube 和 Gmail)上相同的軟件和硬件基礎架構。他們於 2008 年推出了第一款服務 Google App Engine,並推出公衆預覽版本。

Google 雲平臺擁有 50 餘項產品,其中包括:Google 計算引擎(Compute Engine)、Google 應用程序引擎(App Engine)、Google 容器引擎、Google Cloud Bigtable、Google BigQuery、Google 雲端功能、Google 雲數據存儲、Google 存儲、Google 雲端 CDN、Google 雲端 DNS 等。

在本文中,咱們將主要關注 Google 計算引擎及與之相關聯的服務,它容許用戶按需啓動虛擬機。

Google 計算引擎於 2012 年 6 月發佈公衆預覽版,並於 2013 年 12 月發佈正式版本。目前,使用 Google 計算引擎的知名公司包括 HTC、百思買、育碧(Ubisoft)、飛利浦、多米諾比薩、Leadpages、希思羅、PayPal、可口可樂、Evernote、索尼音樂等等。谷歌首席執行官 Sundar Pichai 表示,Google 雲平臺是公司的前三大優先業務。研究公司 Canalys 預估,Google 雲平臺業務在第三季度將帶來 8.7 億美圓的收入,同比增加 76%。

使用 Google 雲計算引擎的公司

想了解更多信息,能夠查看由 Reto Meier 進行深度註解的 Google Cloud Platformput 歷史記錄:

medium.com/@retomeier/…


亞馬遜網絡服務(AWS)

亞馬遜網絡服務(AWS)是亞馬遜網站的子公司,於 2006 年開始爲企業和我的提供雲計算服務。就像谷歌雲平臺同樣,AWS 也擁有衆多不一樣的服務和解決方案。毋庸置疑,亞馬遜絕對能夠說是爲雲計算鋪平了道路!咱們推薦你看看 TechCrunch 上關於 AWS 是如何誕生的文章:

techcrunch.com/2016/07/02/…

AWS 擁有 200 餘項產品,包括:亞馬遜彈性計算雲(Amazon EC2)、AWS Elastic Beanstalk、亞馬遜 EC2 容器服務、亞馬遜 DynamoDB、亞馬遜 Redshift、亞馬遜 S3 等。

本文將主要關注亞馬遜彈性計算雲(Amazon EC2)及與之相關聯的服務,EC2 提供和 Google 計算引擎一樣的服務。Amazon EC2 於 2006 年 8 月對公衆推出 beta 版本,比谷歌計算引擎早了 6 年。目前使用 Amazon EC2 的知名公司包括 Netflix、Time、NASA、Expedia、Airbnb 和蘭博基尼等。

使用 Amazon EC2 的公司


Google Cloud vs AWS

由於谷歌雲和 AWS 很是類似,咱們能夠從幾個不一樣的維度對他們進行對比。因爲篇幅有限,咱們不可能在這篇文章中對這兩家公司的全部細節都完整覆蓋,畢竟他們都擁有超過 50 項服務!本文將主要針對如下幾項進行對比:計算實例、存儲與磁盤、計費與訂價

計算實例

第一個要對比的是 Google 計算引擎和 AWS EC2 如何處理其虛擬機(實例)。Google Cloud 虛擬機背後的技術是 KVM,而 AWS EC2 虛擬機背後的技術是 Xen。二者都提供豐富多樣的預約義實例配置,包含特定數量的虛擬 CPU、RAM 和網絡。可是它們有不一樣的命名約定,可能很容易引發混淆。Google 計算引擎將它們稱爲機器類型(machine types),而 Amazon EC2 將它們稱爲實例類型(instance types)。

  • 你能夠爲 Google 計算引擎實例配備多達 96 個虛擬 CPU 和 624GB 的 RAM(2017 年 10 月 5 日發佈了新的機器類型)。
  • 你能夠爲 AWS EC2 實例配置多達 128 個虛擬 CPU 和 3,904GB 的 RAM。

如下是兩家雲計算廠商的相似虛擬機的比較,如高內存、高 CPU、SSD 存儲等。

須要注意的是,Google Cloud 容許用戶脫離上述預約義的配置,並根據本身的工做負載對實例的 CPU 和 RAM 資源進行自定義,這被稱爲定製化機器類型。其餘類型還包括 Google Cloud Preemptible VM 和 AWS EC2 Spot Instances。

存儲與磁盤

雲提供商使用的存儲和磁盤類型扮演着很是重要的角色,由於他們對性能有直接影響,例如預期的吞吐量(IO),每卷 / 實例的最大 IOP 數以及短期爆發容量的能力。 當您比較 Google 與 AWS:塊存儲和對象存儲時,有兩種主要類型的存儲選項。

塊存儲

塊存儲本質上是與基於雲的虛擬機一塊兒使用的虛擬磁盤卷。Google Compute Engine 提供持久性磁盤,而 AWS EC2 則經過 Elastic Block Store(EBS)提供。

對象存儲

對象存儲(有時也稱爲分佈式對象存儲)實質上是用於存儲和訪問大量二進制對象或 blob 的託管服務。Google Compute Engine 經過他們的 Google Cloud Storage 服務提供此服務,而 AWS 則經過其 Amazon S3 服務提供此服務。


除了標準的網絡塊和對象存儲以外,計算引擎和 Amazon EC2 都容許用戶使用本地鏈接到運行實例的物理機的磁盤。與永久磁盤相比,本地存儲提供了出色的性能,極高的每秒輸入 / 輸出操做(IOPS)和很是低的延遲。這種類型的存儲甚至能夠達到幾 GB 的讀 / 寫速度。

Google Cloud 調用這些本地 SSD,而 AWS EC2 將它們稱爲實例存儲卷。Google 容許您將本地固態硬盤鏈接到任何實例類型,而 AWS 僅支持如下實例類型:C3,F1,G2,HI1,I2,I3,M3,R3 和 X1。2017 年 8 月,Google Cloud 還宣佈針對按需和可搶佔實例在本地固態硬盤上進行降價。


計費與訂價

比較 Google Cloud 和 AWS 時,計費處理方式會有很大不一樣。說實話,除非用戶對這些平臺很是熟悉,不然可能會被複雜的計費方式弄得暈頭轉向。若是你是剛剛開始使用這兩者的用戶,這兩個平臺的月度計價器你應該會用得上:

cloud.google.com/products/ca…

估算每個月在這兩家雲服務商身上的費用是一個挑戰。甚至還有如 reOptimize 或 Cloudability 這樣的專業工具來幫助幫助用戶更好地分析本身的帳單。AWS 提供一個專門的儀表板方便用戶查看帳單。Google 雲端平臺經過其 BigQuery 工具讓用戶估算開銷。兩家供應商都在想盡辦法下降成本,簡化計費。

每秒計費

AWS 在 2017 年 9 月宣佈了按每秒鐘計費 (在 EC2 實例上至少是 1 分鐘)。這爲那些須要在短期內建立新實例並作大量工做的客戶提供了更大的靈活性。絕不意外,谷歌雲平臺也發佈了他們的每秒鐘計費規則 (谷歌計算引擎實例的最小值)。AWS 和 GCP 幾乎同時推出新功能,更是說明了雲平臺市場的競爭力。

谷歌在他們公佈的帖子中舉了一個很好的例子:

若是您的虛擬機使用壽命平均每分鐘收費時間增長 30 秒,那麼您天天運行 2600 個 vCPU 所節省的費用就足以支付您的早晨咖啡(99 美分,假設您能夠以某種方式找到 99 美分的咖啡)。相比之下,每小時計費產生的浪費足以天天早上購買一臺咖啡機(在這個例子中超過 100 美圓)。


承諾的使用折扣與預留實例

Google 雲和 AWS 都爲那些專一投資於他們平臺的用戶提供了不一樣的優惠。

AWS EC2 提供了他們所稱的預留實例,與按需訂價相比,AWS 提供了顯着的折扣(高達 75%),並在特定的可用區域中使用時提供容量預留。他們有不一樣類型的保留實例:

  • 標準預留實例
  • 可轉換預留實例
  • 計劃預留實例

Google Cloud 則提出了「 承諾使用折扣」,截至 2017 年 9 月,全部計算引擎客戶均可以使用折扣。這基本上是購買承諾使用合同以得到虛擬機使用的很是優惠價格的能力。

Right Scale 對 Google Cloud 承諾使用折扣與 AWS 預留實例進行了比較,得出瞭如下結論:

  • 當比較谷歌對 AWS 1 年標準 RI 的 1 年使用折扣時,谷歌的總成本比 AWS 少 28%。
  • 當比較 Google 的 3 年期承諾使用折扣和 AWS 3 年可轉換折扣時,Google 環境的總成本比 AWS 低 35%。

Google Cloud 承諾使用折扣與 AWS 預留實例

持續折扣

Google Cloud 提供的另外一個很是節省成本的折是官方稱之爲持續使用折扣的優惠。這些是 Google 雲端平臺提供的自動折扣,與須要長時間預留實例的 AWS 不一樣,Google 提供的使用時間更長。免費試用或許有些用戶是第一次使用雲平臺,還不知道該選擇哪一個,不用擔憂,由於這兩家平臺都爲用戶提供免費試用。

Google Cloud 提供持續 12 個月的價值 300 美圓的試用。截至 2017 年 3 月,他們還有免費的等級,沒有時間限制。如下是用戶可使用 GCP 免費運行的實例示例:0.2 個虛擬 CPU,0.60 GB 內存的 f1-micro 實例,由共享物理內核支持。(僅限美國地區)5 GB 雲存儲 +30 GB 磁盤AWS 也提供爲期 12 個月的免費試用。如下是您能夠運行的實例的示例:t2.micro 實例,750 小時 / 月30GB 磁盤(包括 750 小時 / 月的託管 MySQL 數據庫)和 5GB 雲存儲請務必查看每一個提供商的網站以瞭解更多詳細信息,由於它們都提供了許多產品的免費試用版,而不只僅是它們的計算實例。結論比較了這麼多,Google Cloud 和 AWS 誰是贏家?其實這兩個提供商都有其優勢和缺點。可是,根據測評,談到訂價和速度,Google Cloud Platform 絕對是您想要的一款!

AWS 在過去十年當中,也爲全球多家企業提供雲計算服務。他們確實是推進雲計算行業向前發展的先驅,而且仍然是 Google 和 Azure 等雲服務商想要努力複製和超越的。他們的支持性,冗餘度和每一個地區的可用性都很是出色。

Google Cloud 和 AWS 提供了許多其餘產品和服務,咱們沒法在這篇文章中介紹。但請放心,雲計算提供商爲得到更多市場份額而不斷開展的戰鬥只會讓消費者和合做夥伴受益。這意味着他們會帶來更低的價格,更多的產品和服務以及更高的性能。

參考資料

Google Cloud vs AWS in 2018 (Comparing the Giants)

更多幹貨內容,可關注AI前線,ID:ai-front,後臺回覆「AI」、「TF」、「大數據」可得到《AI前線》系列PDF迷你書和技能圖譜。

相關文章
相關標籤/搜索