你們好,我是白雲。python
這篇跟你們一塊兒來看一下怎麼樣用python作數據分析,這大概是我寫過最詳細的一篇乾貨了。我會分五步來跟你們詳細的展現一套完整的數據分析流程是怎麼樣的,那咱們一塊兒來看一下吧。程序員
數據分析的流程和思路主要分爲五部分,分別是提出問題、收集數據、數據處理和清洗、數據分析以及可視化。數據庫
那咱們先從提出問題和數據收集開始,通常想收集數據主要有四種來源:觀測、統計、問卷、調研、數據庫以及網絡爬蟲。編程
3、數據清洗數組
1數據預處理markdown
#導入數據分析包
import pandas as pd
import numpy as np
▲理解這份數據集
▲結合代碼來看數據.網絡
2調整數據類型編程語言
3修改列名函數
4選擇部分子集工具
5邏輯問題須要篩選
6格式一致化
▲大小寫/去除空格
▲去除字符串符號 去亂碼
▲空格分割
7處理缺失值
4、數據分析
那麼下面就跟你們介紹一下Pandas和Numpy兩個數據分析包。
Python這種編程語言在數據處理的許多方面都有很是多成熟的已經編寫好的模塊,只要幾行代碼就能解決一個複雜的操做,能夠說是站在前人的肩膀上起飛。
在python中Numpy、pandas這兩個就是前人的肩膀。Numpy做爲一個科學計算模塊,提供了一個叫作n維數組的數據類型,能夠實現複雜的數據批量計算,並且內置大量函數,讓計算更加高效科學,甚至支持線性代數、特徵向量、廣義逆矩陣、超幾何分佈。
另外一個強大的模塊是pandas,它提供了series和Data Frame這兩種數據類型,和一大堆用於操做大型數據集的內置函數,爲你的數據分析插上了想象的翅膀。例如從幾萬行混合髒數據的視頻會員訂單數據中挖掘用戶購買規律,制定簡單的量化交易策略,衡量股票投資收益,甚至設立入門的數據挖掘和數據預測等領域,得到深刻洞察,而這些都依賴於Numpy和Pandas的數據類型。
5、數據可視化
大部分人對形狀、顏色的敏感度要高於數字,因此數據可視化能讓人快速的理解數據,發現問題或規律,找到數據背後隱藏的價值,從數據中發現關係、規律和趨勢。
Python中經常使用的可視化工具matplotlib和它的子模塊pyplot可視化圖表有不少種,好比平常工做中常
見的折線圖、柱狀圖、散點圖等。根據數據之間的關係和想要展現的目的能夠將圖表概括爲5大類:趨勢、分佈、構成、比較和聯繫。
Matplotlib
學習方式:從examples入門學習
Python的2D繪圖庫,僅須要幾行代碼,即可以生成繪圖,直方圖,功率譜,條形
圖,散點圖等。並且代碼官網都已經寫好給咱們啦!只要複製粘貼改數據就能夠咯~
plotly
Python數據可視化開發庫,它提供了完善的交互能力和靈活的繪製選項,官網有很全面的代碼教學。
一、首先推薦 「A Byte of Python3(中文版)」這本書
這本書是我讀過的最適合初學者的一本,內容儘可能簡潔易懂,雖然不會將一些知識的複雜用法所有講透,可是說實話不少複雜功能尤爲在初學階段真的用不到。
這本書原版是英文,但因爲英文版更新了,而國內的官方指定中文譯本還未更新,因此被 GitHub 上的一位大佬翻譯,並將其放在 GitHub 上供你們下載。不過我時間有點長我已經找不到當初的網站了,只有電子版的書。另外也能夠閱讀官方中文譯本。
官方中文譯本:bop.mol.uno/
二、廖雪峯的 Python 教程
這能夠說是國內 Python 最全面的免費教程了。甚至能夠當作工具書來查看,不過對於初學者可能內容跨度會稍微有點大,致使連貫性欠佳,因此建議先看完上面推薦的電子書,再來看這個。
課程網址:www.liaoxuefeng.com/
三、「利用Python進行數據分析·第2版」
當 Python 已經入門後,就能夠看這本關於數據分析的書。這本書能夠說是不可多得的關於數據分析的好書,裏面不光對 Python 數據分析的工具(Jupyter notebook)進行了講解,並且還詳細的講解了 Numpy 庫和 Pandas 庫,這兩個能夠說是數據分析的最重要的庫了。
並且仍是根據數據分析的流程一步步的去講解每一個流程、須要的操做以及這些操做須要用到的函數。雖然說沒有一個完整的項目,但看完後徹底能夠當作工具書來查詢。強烈推薦。
電子書網址:www.jianshu.com/p/04d180d90…
四、科賽網(Kesci)的「這十套練習,教你如何使用Pandas作數據分析」
在學習了上面的 Python 知識後,那麼也該實戰一下了。這個網站提供了十個實際問題的練習,而且提供在線的編程環境(和 Jupyter notebook的界面很像),最重要的是提供了數據集。能夠說是幫你準備了一切,讓你能夠專心的去思考。
五、當你將上面的都所有學完,這時候就能夠正式開始你數據分析師的第一個項目了,這個項目就是「泰坦尼克號數據分析」,這能夠說是數據分析的經典項目了,不少人進入數據分析行業都是從這個項目開始的。雖然將這個項目寫入簡歷沒什麼,但對提高本身而言,絕對是很是棒的。爲何這麼說?由於網上關於該數據集的分析文章很是多,這樣你本身作完整個項目後能夠參考不少其餘人的意見,吸收別人的分析思惟,這是很是關鍵的地方。初學階段最快的提高辦法其實就是模仿。
\