人工智能第三課：數據科學中的Python

時間 2019-11-05

原文原文鏈接

我用了兩天左右的時間完成了這一門課《Introduction to Python for Data Science》的學習，以前對Python有一些基礎，因此在語言層面仍是比較順利的，這門課程的最大收穫是讓我看到了在數據科學中Python的真正威力（也理解了爲何Python這麼流行），同時本次課程的交互式練習體驗（Datacamp）很是棒。 html

這門課程主要包括了6個單元的內容，一開始介紹了Python的基本概念（常見數據類型和變量），從第二節開始講解列表在Python中的使用，而且逐步演進，咱們還學習了使用真正爲Data Science準備的幾個package的應用。 python

從數據科學的角度來看，Python可能真的是很適合的一個編程語言和環境。這不光是由於他自己的語法比較簡單，並且目前已經有幾個很是強大的包（Package）對其進行支持。數據庫

Python中的list用來表示一系列的數據，它很是靈活，甚至能夠在一個列表中包含不一樣類型的數據，固然這樣也就帶來了必定的負面做用，例如性能。而numpy的array則是對list的一種改進，它進行規劃化（一個array的軸上只支持同一種數據類型），並提供了更多的一些與數據科學的運算（函數）。編程

它自身的運算規則也跟列表有極大的區別，例如網絡

numpy庫內置支持不少科學運算的函數，不須要依賴其餘庫編程語言

數據科學不光是對數據的處理，並且還須要對數據進行展現。目前全世界最流行的用來作數據可視化的庫是matplotlib。函數

下圖是一個最簡單的例子性能

請注意，圖形的數據來源既能夠是List，也能夠是Array，固然還能夠是下面的終極解決方案DataFrame，來自pandas這個庫。學習

numpy和matplotlib，能夠很好地處理數據科學的場景。但若是數據量真的很大，則可能須要用到pandas了。人工智能

pandas提供了一個全新的dataframe的對象，它是徹底爲科學運算和統計而設計的，並且它自帶了可視化組件庫，不須要額外依賴matplotlib。

從技術上說，DataFrame很像是一個Excel表格或者數據庫，它具備行和列的概念，也有索引的技術。

DataFrame還支持從外部文件（例如csv）或者網絡地址加載數據，這將使得它真正具備實用的價值。

最後，我以前提到過了，本次課程給我最驚喜的一個體驗是交互式練習。這是一個第三方學習平臺（DataCamp）提供的，很是酷。

最後，基於Jupyter構建的notebooks.azure.com ，讓咱們能夠在線編輯python，而且運行，造成筆記——不須要azure訂閱便可使用。若是你願意，你還能夠在本地安裝Jupyter。

本地安裝Jupyter，請參考 https://jupyter.org/install.html