做者 | 王新港
出品 | CDA數據分析研究院
馬雲曾在卸任演講的時候說過這樣一段話:python
「不少人還沒搞清楚什麼是PC互聯網,移動互聯網來了,咱們還沒搞清楚移動互聯的時候,大數據時代又來了。」
而大數據專家埃裏克·西格爾 博士曾在《大數據預測》一書中描繪了一個大數據時代下的一天:算法
2020年的一天,在你驅車前往公司的路上, 導航系統經過預測交通流量,會自動幫你選擇一條最合適的交通路線; 車內推薦系統會根據你的飲食習慣預測你可能會喜歡吃什麼,並推薦沿途的早餐店;你的 電子社交助理已經爲你自動選擇了你可能感興趣的社交網信息。
離埃裏克博士所說的2020年雖然還有3個月左右的時間,可是書中闡述的技術如「大數據交通技術」「個性化推薦系統」「人工智能語音助理」等已經逐漸實現,並被人們普遍應用。而這些技術都離不開「大數據」。數據庫
Volume大容量、Variety多樣性、Value有價值、Velocity速度,4個V是業界廣泛認定的大數據特色。那麼大數據是如何改變咱們的生活方式的呢?咱們須要瞭解最重要的兩個問題。即編程
「大數據最核心的價值是什麼?」
「大數據最核心的技術是什麼?」
首先,咱們須要知道現代人類的衣食住行無外乎三大產業「農業」「工業」「服務業」,而全部產業都會從大數據的發展中受益。小程序
農業:segmentfault
大數據技術能夠應用在如「土壤抽樣分析」「氣象統計監管」等與土壤,農做物,供應鏈相關的農業領域上,幫助第一產業的發展。現在國外已經有一些公司把大數據技術與農業進行落地,而在我國,農業大數據還僅僅是一個起步階段。在將來,農民能夠「知天而做」依靠大數據技術實現農做物產量翻倍,下降天然災害對農產品的影響等願景。工業:工業大數據是我國重點發展的一個方向,工業與信息化部門一直致力於我國工業大數據的發展。若是工業產業下的各個行業與大數據能夠緊密結合,對人類的生活方式的改變將是巨大的。僅僅是電力系統的配電環節,若是能夠作到基於海量用戶用電特徵數據分析,進而實現臺區的負荷預測、用電調度、有序用電,將極大地優化我國電力資源的分配,實現可持續發展。服務業:網絡
第三產業是與人們的生活貼合最緊密的一個產業。咱們從幼年到老年,教育,交通,醫療,金融等行業或多或少都與咱們生活相關,而這些行業與大數據更是密不可分。app
醫療:框架
臨牀數據的採集分析,優化診療流程機器學習
可穿戴設備經過監測我的的行爲如行走步數等改善咱們的健康情況
經過大數據分析生成報告顯示用戶所在地區的流感活動。
交通:
智能化公交app「車來了」
路網監控優化重點城市交通壓力
電子導航即時分析道路情況,爲車主調整最佳路線
物流行業的車輛,路線,網點建設
娛樂:
網易雲音樂「個性化推薦」
今日頭條與抖音的新聞推薦,視頻推薦
《紙牌屋》演員的篩選
電信:
經過大數據平臺優化網絡佈局,提高用戶體驗
記錄用戶在Wifi網絡中的地理位置等數據銷售給廣告客戶。
銀行:
風控模型的創建與優化
定製化金融服務等
因爲某些客觀緣由,相對於第一產業和第二產業來講,第三產業憑藉自身的優點,大多匯聚了當前最海量的數據以及大批的科研中堅力量。而不管在哪一產業,隨着計算機處理能力的日益強大,你能得到的數據量越大,你能挖掘到的價值就越多。
分佈式系統:
Hadoop:做爲一個開源的框架,專爲離線和大規模數據分析而設計。
數據採集:
Sqoop:用來將關係型數據庫和Hadoop中的數據進行相互轉移的工具,能夠將一個關係型數據庫中的數據導入到Hadoop(中,也能夠將Hadoop中的數據導入到關係型數據庫中。
數據存儲,預處理:
HBase:是一個分佈式的、面向列的開源數據庫,能夠認爲是hdfs的封裝,本質是數據存儲、NoSQL數據庫。
Hql:Hibernate Query Language的縮寫,提供更加豐富靈活、更爲強大的查詢能力;HQL更接近SQL語句查詢語法。
MapReduce:Hadoop的查詢引擎,用於大規模數據集的並行計算,」Map(映射)」和」Reduce(歸約)」,是它的主要思想。它極大的方便了編程人員在不會分佈式並行編程的狀況下,將本身的程序運行在分佈式系統中。
數據分析:
Hive:核心工做就是把SQL語句翻譯成MR程序,能夠將結構化的數據映射爲一張數據庫表,並提供 HQL(Hive SQL)查詢功能。
Spark:擁有Hadoop MapReduce所具備的特色,它不須要讀取HDFS。Spark 啓用了內存分佈數據集,除了可以提供交互式查詢外,它還能夠優化迭代工做負載。
Pyspark:由python和spark組合使用,作前期數據處理速度快,還自帶mllib能夠實現一些基本的模型
建模,數據挖掘:
SparkMLlib:是Spark的機器學習(ML)庫。其目標是使實際的機器學習可擴展和容易,同時包括相關的測試和數據生成器。Spark的設計初衷就是爲了支持一些迭代的Job, 這正好符合不少機器學習算法的特色。
現在大數據分析的技術愈發成熟,相關的崗位也急速增長,薪水更是直線飆升,高達30K。如下圖片源自某研究社:
說明:曲線越向上表明市場需求量越大,就業狀況越好。該數據由各地招聘網站統計而來,僅供參考。
https://www.cda.cn/?seo-segme...