小白的python之路序

時間 2019-11-09

標籤白的 python 之路欄目 Python 简体版

原文原文鏈接

計算機專科畢業，.net開發已有8年有餘，中途斷斷續續，似懂非懂，積累了一些經驗知識，可是不求甚解，屬於那種一瓶不滿半瓶子晃盪，這麼一個狀態。前端

主要從事web開發，涉及一些前端jq等，還有接口開發，搜索，語音識別，支付，加速，等各類第三方調用，還有一些文件監控，分解分發任務。等一些功能的應用程序。java

後來公司主要語言從.net改成java，主要緣由招人不方便，主力技術總監以java熟，我也就跟着慢慢學習一些java知識，在語言語法上沒有什麼大的障礙，就是在工具開發使用環境上面比較繁瑣。python

怎麼說呢，java這一塊算是否是很熟，基本能作的就是改寫發佈這一套流程。接下來技術總監幾經更換，，目前面臨往如下方面發展：c++

1. 大數據底層存儲方向：hadoop集羣搭建（除原生外，還可關注CDH）、hbase、hdfs
2. 流式計算方向：spark core、spark streaming、spark sql，語言java和python都可，建議python，不推薦scala
3. 人工智能方向：spark MLlib、Kaldi，spark MLlib語言使用python，java也行，Kaldi建議c++，不推薦c程序員

這是目前的一些要求，選取區中一個方向學習研究，通過分析，java目前我是轉java過來最弱的，通過這幾年，目前公司轉java來的，我這個部門的，目前就我本身。對python來講，起跑線基本持平，web

因此選擇python沒有什麼弱勢，而且在興趣上，對計算還比較感興趣。因此決定學習python 學習spark core、spark streaming、spark sql這些東西，記錄一下。sql

如下蒐集的一些資料信息，並不必定徹底正確，理解上也是隻知其一;不知其二，還望指正。windows

一：對於這三者關係的理解maven

Spark Core ：ide

Spark的基礎，底層的最小數據單位是：RDD ; 主要是處理一些離線(能夠經過結合Spark Streaming來處理實時的數據流)、非格式化數據。

Spark SQL：

Spark SQL 底層的數據處理單位是：DataFrame(新版本爲DataSet<Row>) ; 主要是經過執行標準 SQL 來處理一些離線(能夠經過結合Spark Streaming來處理實時的數據流)、格式化數據。

Spark Streaming：

Spark Streaming底層的數據處理單位是：DStream ; 主要是處理流式數據(數據一直不停的在向Spark程序發送)，這裏能夠結合 Spark Core 和 Spark SQL 來處理數據，若是來源數據是非結構化的數據，那麼咱們這裏就能夠結合 Spark Core 來處理，若是數據爲結構化的數據，那麼咱們這裏就能夠結合Spark SQL 來進行處理。
---------------------
來源：https://blog.csdn.net/Han_Lin_/article/details/86669681

二：安裝python環境（python 3.X 及以上版本）向下不兼容,開發環境在windows上

1.下載適合本身電腦的最新版本便可 https://www.python.org/downloads/windows/ 30M左右我下載的是安裝版3.7

3.7中安裝的時候把環境變量必定要勾選，方便之後使用