人工智能第三課:數據科學中的Python

我用了兩天左右的時間完成了這一門課《Introduction to Python for Data Science》的學習,以前對Python有一些基礎,因此在語言層面仍是比較順利的,這門課程的最大收穫是讓我看到了在數據科學中Python的真正威力(也理解了爲何Python這麼流行),同時本次課程的交互式練習體驗(Datacamp)很是棒。 html

 

 

這門課程主要包括了6個單元的內容,一開始介紹了Python的基本概念(常見數據類型和變量),從第二節開始講解列表在Python中的使用,而且逐步演進,咱們還學習了使用真正爲Data Science準備的幾個package的應用。 python

 

 

從數據科學的角度來看,Python可能真的是很適合的一個編程語言和環境。這不光是由於他自己的語法比較簡單,並且目前已經有幾個很是強大的包(Package)對其進行支持。 數據庫

 

 

Python中的list用來表示一系列的數據,它很是靈活,甚至能夠在一個列表中包含不一樣類型的數據,固然這樣也就帶來了必定的負面做用,例如性能。而numpy的array則是對list的一種改進,它進行規劃化(一個array的軸上只支持同一種數據類型),並提供了更多的一些與數據科學的運算(函數)。 編程

 

 

它自身的運算規則也跟列表有極大的區別,例如 網絡

 

 

numpy庫內置支持不少科學運算的函數,不須要依賴其餘庫 編程語言

 

 

 

數據科學不光是對數據的處理,並且還須要對數據進行展現。目前全世界最流行的用來作數據可視化的庫是matplotlib。 函數

 

 

下圖是一個最簡單的例子 性能

 

 

請注意,圖形的數據來源既能夠是List,也能夠是Array,固然還能夠是下面的終極解決方案DataFrame,來自pandas這個庫。 學習

 

numpy和matplotlib,能夠很好地處理數據科學的場景。但若是數據量真的很大,則可能須要用到pandas了。 人工智能

 

 

pandas提供了一個全新的dataframe的對象,它是徹底爲科學運算和統計而設計的,並且它自帶了可視化組件庫,不須要額外依賴matplotlib。

 

從技術上說,DataFrame很像是一個Excel表格或者數據庫,它具備行和列的概念,也有索引的技術。

 

DataFrame還支持從外部文件(例如csv)或者網絡地址加載數據,這將使得它真正具備實用的價值。

 

最後,我以前提到過了,本次課程給我最驚喜的一個體驗是交互式練習。這是一個第三方學習平臺(DataCamp)提供的,很是酷。

 

 

最後,基於Jupyter構建的notebooks.azure.com ,讓咱們能夠在線編輯python,而且運行,造成筆記——不須要azure訂閱便可使用。若是你願意,你還能夠在本地安裝Jupyter。

 

本地安裝Jupyter,請參考 https://jupyter.org/install.html

 

 

請經過 https://aka.ms/learningAI 或者掃描下面的二維碼關注本系列文章《人工智能學習筆記》

 

相關文章
相關標籤/搜索