工做後,很不幸的成爲了團隊中的QA。QA這個角色吧,提及來高大上,實際很苦逼,一句話歸納一下:吃力不討好!做爲新人,公司每個月一分錢沒少我,至少如今跟開發的待遇是同樣的,因此我仍是得兢兢業業的對待本身的工做。python
項目越作越複雜,寫驗收測試的時候,每每驗收場景容易構造,可是該場景下的預期數據、甚至是原始數據太難構造了,尤爲我是處於通訊行業,數據庫的表數據字段極其多、數據表也極其的多。不怕你們笑話,我開始的時候是經過Scala的函數式編程,一點一點的本身寫程序維護表的字段名稱、數據的split(還好都是csv格式的數據)、表join、格式的轉換等。後來就瘋了!個人視力都是模糊的最後。數據庫
有一次參加團隊內部外請教練的一個培訓,上面的教練口若懸河的講着她關於本身的一套推薦系統多麼多麼的nubility,你們在下面無聊的聽着。引發我注意的是她們使用Python做爲開發語言。Python我是知道的,上學的時候作個一個基於圖像的測量項目,先是使用python版本的OpenCV開發的,後來才改成C++。她重點推薦的是Python的numpy、Pandas和Ipython。當時我就在筆記本上記了一下。編程
後來內部要作數據分析,我買了一本書《利用Python進行數據分析》大概,裏面詳細的介紹了Pandas、numpy等。不怕你們笑話,個人數據分析能力沒什麼長進,可是被Pandas的數據處理方式震撼了(請你們原諒我不是一個IT人士,剛入行)。Pandas就是我要找的構造預期數據的神器啊!windows
可能有人就會笑了,構造數據用得着使用Pandas麼,直接使用SQL就好!可問題是,咱們使用Spark集羣環境,環境不穩定,並且運行較慢,動不動會出現問題,並且開發的代碼不少也是使用SQL實現,總有點「抄襲」的嫌疑,爲了表示個人工做是獨立的,固然不能使用SQL,並且也很差用。因此,我下定決心要將Pandas、numpy引入個人工做中!瀏覽器
目前來看,效果仍是不錯的,後來到Pandas的貼吧,發現好冷清,並且網上的資料大多都是翻譯官網的10分鐘入門。其實Pandas很簡單,複雜在處理問題的方法太多了,讓新手無法選擇!我就掙扎了不少天,每天抱着手機看官網的doc,纔有點明白,並且結合個人工做,有些方法就活起來了。函數式編程
沒別的用處,就是想分享幾個個人Pandas應用場景。因爲我才疏學淺,可能有不恰當的地方,因爲工做的限制,可能Pandas全貌我也不用太清楚,可是仍是嘗試一下吧。函數
本文先講一下我安裝的一些軟件,和一些注意事項。測試
爲了運行Pandas,必須安裝以下軟件:ui
Python,2.7或者3.4均可以,我最早使用的是3.4,後來因爲Spark集羣只支持python2,因此改成了2.7,官網下載安裝便可。.net
numpy,官網下載windows源代碼,或者可以下載到exe可執行包也行,若是使用源代碼,在安裝的使用可能會有點問題,後面會講到。
pandas,官網下載源代碼,我使用的是0.16的。
ipython,這個能夠下載源代碼,不過推薦pip的方式安裝。
另外,可能還須要TDM-GCC,這個是windows的gcc平臺,主要是編譯numpy的源代碼要用到。
若是下載的是最新的python,其默認包含pip程序,在cmd中,輸入pip install 軟件名稱便可安裝程序。
可是安裝順序推薦以下:
1. python,exe包,安裝便可。
2. numpy,源代碼包,cmd進入解壓目錄,找到setup.py,輸入python setup.py install,若是出現
「Unable to find vcvarsall.bat」錯誤,就是由於numpy須要編譯C和一些代碼,而你的電腦中沒有合適的C編譯器,能夠參考
http://my.oschina.net/zhangdapeng89/blog/54407
的解決方法。這裏我將Migwin改成了TDM-GCC,由於TDM-GCC確實簡單一些,將TDM-GCC的bin加入path,而後將其中的一個mingw32-make.exe改成make.exe便可,而後在安裝numpy的cmd中輸入:python setup.py install build --compiler=mingw32 便可。
3. 安裝Pandas,若是出現相似問題,同2;
4. 安裝ipython,這裏推薦在cmd中使用:pip install ipython命令,提示缺什麼包,就使用pip install 包名,安裝便可。安裝完以後,能夠在開始的菜單中的運行窗口輸入:
ipython notebook 命令,就能啓動ipython的基於瀏覽器的集成編譯環境。
最後,我使用PyCharm的集成編譯環境,做爲後備環境。
不早了,今天先到這裏,下次再聊!