計算機專科畢業,.net開發已有8年有餘,中途斷斷續續,似懂非懂,積累了一些經驗知識,可是不求甚解,屬於那種一瓶不滿半瓶子晃盪,這麼一個狀態。前端
主要從事web開發,涉及一些前端jq等,還有接口開發,搜索,語音識別,支付,加速,等各類第三方調用,還有一些文件監控,分解分發任務。等一些功能的應用程序。java
後來公司主要語言從.net改成java,主要緣由 招人不方便,主力技術總監以java熟,我也就跟着慢慢學習一些java知識,在語言語法上沒有什麼大的 障礙,就是在工具開發使用環境上面比較繁瑣。python
怎麼說呢,java這一塊算是否是很熟,基本能作的就是改寫發佈這一套流程。接下來技術總監幾經更換,,目前面臨往如下方面發展:c++
1. 大數據底層存儲方向:hadoop集羣搭建(除原生外,還可關注CDH)、hbase、hdfs
2. 流式計算方向:spark core、spark streaming、spark sql,語言java和python都可,建議python,不推薦scala
3. 人工智能方向:spark MLlib、Kaldi,spark MLlib語言使用python,java也行,Kaldi建議c++, 不推薦c程序員
這是目前的一些要求,選取區中一個方向學習研究,通過分析,java目前我是轉java過來最弱的,通過這幾年,目前公司轉java來的,我這個部門的,目前就我本身。對python來講,起跑線基本持平,web
因此選擇python沒有什麼弱勢,而且在興趣上,對計算還比較感興趣。因此決定學習python 學習spark core、spark streaming、spark sql這些東西,記錄一下。sql
如下蒐集的一些資料信息,並不必定徹底正確,理解上也是隻知其一;不知其二,還望指正。windows
一:對於這三者關係的理解maven
Spark Core :ide
Spark的基礎,底層的最小數據單位是:RDD ; 主要是處理一些離線(能夠經過結合Spark Streaming來處理實時的數據流)、非格式化數據。
Spark SQL:
Spark SQL 底層的數據處理單位是:DataFrame(新版本爲DataSet<Row>) ; 主要是經過執行標準 SQL 來處理一些離線(能夠經過結合Spark Streaming來處理實時的數據流)、格式化數據。
Spark Streaming:
Spark Streaming底層的數據處理單位是:DStream ; 主要是處理流式數據(數據一直不停的在向Spark程序發送),這裏能夠結合 Spark Core 和 Spark SQL 來處理數據,若是來源數據是非結構化的數據,那麼咱們這裏就能夠結合 Spark Core 來處理,若是數據爲結構化的數據,那麼咱們這裏就能夠結合Spark SQL 來進行處理。
---------------------
來源:https://blog.csdn.net/Han_Lin_/article/details/86669681
二:安裝python環境(python 3.X 及以上版本)向下不兼容,開發環境在windows上
1.下載適合本身電腦的最新版本便可 https://www.python.org/downloads/windows/ 30M左右 我下載的是安裝版3.7
3.7中安裝的時候把環境變量必定要勾選,方便之後使用
畫圈的都要裝一下pip很重要,就像是java的maven同樣,我感受,像是一個安裝庫的工具
建議2,3,4,5都裝一下其餘選裝。
剩下的一步步安裝完成
python安裝好以後,咱們要檢測一下是否安裝成功,用系統管理員打開命令行工具cmd,輸入「python -V」,而後敲回車,若是出現以下界面,則表示咱們安裝成功了;
寫程序
安裝成功以後,固然要寫第一個python程序了,按照慣例,咱們寫一個「hello world」;
仍是打開cmd,輸入「python」後敲回車,
進入到python程序中,能夠直接在裏面輸入,而後敲回車執行程序,
咱們打印一個「hello world」看看,在裏面輸入 print("hello world"),敲回車,全部程序員都會遇到的第一個程序就出現啦;
基於python的開發環境idle使用不方便,idle算是迷你ide,而後我選擇了自認爲比較好用的開發工具Pycharm.
下載地址https://www.jetbrains.com/pycharm/download/#section=windows 300M左右註冊碼什麼的本身找,找不到用免費的。
啓動的時候選擇 不導入配置
具體安裝步驟 參見 http://www.javashuo.com/article/p-rrxddzlk-mv.html
下一節 學習pyspark包導入實現。