不少剛初次接觸MaxCompute的用戶,面對繁多的產品文檔內容以及社區文章,每每很難快速、全面瞭解MaxCompute產品全貌。同時,不少擁有大數據開發經驗的開發者,也但願可以結合自身的背景知識,將MaxCompute產品能力與開源項目、商業軟件之間創建某種關聯和映射,以快速尋找或判斷MaxCompute是否知足自身的須要,並結合相關經驗更輕鬆地學習和使用產品。算法
本文將站在一個更宏觀的視角來分主題地介紹MaxCompute產品,以期讀者可以經過本文快速獲取對MaxCompute產品的認識。sql
產品名稱:大數據計算服務(英文名:MaxCompute)shell
產品說明:MaxCompute(原ODPS)是一項大數據計算服務,它能提供快速、徹底託管的PB級數據倉庫解決方案,使您能夠經濟並高效的分析處理海量數據。數據庫
產品說明的前半部分,將MaxCompute定義爲大數據計算服務,能夠理解爲它的功能定位於支持大數據計算,同時是一款基於雲的服務化的產品。後半部分,說明了它的適用場景:大規模數據倉庫、海量數據處理、分析。編程
單從這裏還不能瞭解到大數據計算服務提供了哪些的計算能力,具有怎樣的服務化?產品定義中出現了數據倉庫字眼,咱們可以瞭解到MaxCompute可以處理較大規模(這裏提到了PB級別)結構化數據。而「海量數據處理」除了數據規模大以外,對於非結構化數據的處理有待驗證,同時」分析」是否在常見的SQL分析能力以外,提供了其餘複雜分析的能力。安全
帶着這樣的問題,咱們繼續開始介紹,但願在後面的內容中可以清晰地回答這些問題。微信
在介紹功能前,先提綱挈領從產品總體邏輯結構開始,讓讀者有個全貌瞭解。架構
MaxCompute提供了雲原生、多租戶的服務架構,在底層大規模計算、存儲資源之上預先構建好了MaxCompute計算服務、服務接口,提供了配套的安全管控手段和開發工具管理工具,產品開箱即用。併發
用戶能夠在阿里雲控制檯,在幾分鐘內完成服務開通並建立MaxCompute項目,無需進行底層資源開通、軟件部署、基礎設施運維,系統自動進行(由阿里雲專業團隊)版本升級、問題修復。app
數據存儲
多種計算模型
須要說明的是,傳統數據倉庫場景下,實踐中有大部分的數據分析需求能夠經過SQL+UDF來完成。但隨着企業對數據價值的重視以及更多不一樣的角色開始使用數據時,企業也會要求有更豐富的計算功能來知足不一樣場景、不一樣用戶的需求。
MaxCompute不只僅提供SQL數據分析語言,它在統一的數據存儲和權限體系之上,支持了多種計算類型。
MaxCompute SQL:
TPC-DS 100% 支持,同時語法高度兼容Hive,有Hive背景開發者直接上手,特別在大數據規模下性能強大。
MapReduce:
MaxCompute Graph圖模型:
PyODPS:
用熟悉的Python利用MaxCompute大規模計算能力處理MaxCompute數據。
PyODPS是MaxCompute 的 Python SDK,同時也提供 DataFrame 框架,提供相似 pandas 的語法,能利用 MaxCompute 強大的處理能力來處理超大規模數據。
Spark:
MaxCompute提供了Spark on MaxCompute的解決方案,使MaxCompute提供的兼容開源的Spark計算服務,讓它在統一的計算資源和數據集權限體系之上,提供Spark計算框架,支持用戶以熟悉的開發使用方式提交運行Spark做業。
MaxCompute產品的交互式查詢服務,特性以下:
機器學習:
爲便於讀者,特別是有開源社區經驗的讀者快速創建對MaxCompute主要功能的瞭解,這裏作簡單地映射說明。
dataworks和MaxCompute之間的關係與區別?
這是2個產品,MaxCompute作數據存儲和數據分析處理,Dataworks是集成了數據集成、數據開發調試、做業編排及運維、元數據管理、數據質量管理、數據API服務等等功能的大數據開發IDE套件。相似Spark和HUE的關係,不知道這個對比是否準確。
想測試、體驗MaxCompute,成本費用高嗎?
不高,應該說很低。MaxCompute提供了按做業付費的模式,其中單個做業的費用有和做業處理的數據大小密切相關。開通按量付費服務,並建立1項目。利用MaxCompute客戶端工具(ODPSCMD)或者在dataworks裏,建立表並上傳測試數據,就能夠開始測試體驗了。數據不大的話,10元錢能夠用很長一段時間。
固然,MaxCompute還有獨佔資源的模式,出於費用可控的考慮,也選擇了預付費的模式。
另外,MaxCompute立刻推出」開發者版」,每月爲開發者贈送必定的免費額度用於開發、學習。
MaxCompute存儲目前只暴露表,能處理非結構化數據嗎?
能夠,非結構化數據能夠存放在OSS上,一種方式是經過外表方式,經過自定義Extractor來實現非結構化處理爲結構化數據的邏輯。另外,也能夠用Spark on MaxCompute對OSS進行訪問,經過Spark程序對OSS目錄下的文件進行抽取轉換,結果寫入MaxCompute表。
支持哪些數據源接入到MaxCompute
經過Dataworks數據集成服務或者本身使用DataX,能夠實現阿里雲上的各類離線數據源如數據庫、HDFS、FTP等數據源的接入;
也能夠用MaxCompute Tunnel工具/SDK,經過命令或SDK批量進行數據上傳、下載;
流式數據,能夠利用MaxCompute提供的Flume/logstash插件,將流式數據寫入Datahub,而後歸檔到MaxCompute表;
支持阿里雲SLS、DTS服務數據寫入MaxCompute表;
本文簡要介紹了MaxCompute這個產品基本概念和功能,並和你們熟悉的開源社區服務進行了對比映射,但願對你們快速瞭解阿里雲大數據計算服務。
更多的內容見MaxCompute產品官方地址:https://www.aliyun.com/product/odps
原文連接 更多技術乾貨 請關注阿里云云棲社區微信號 :yunqiinsight