Mr.林:今天咱們來學習數據導入,須要使用到Pandas模塊。
小白:模塊?這個是什麼東東?
Mr.林:模塊至關因而一個文件夾,它可以用於存放同個主題相關的Python代碼段,包括定義函數、類和變量。
例如將數據處理相關的函數都存放在一個模塊裏,將數據分析相關的函數都存放在一個模塊裏,將數據可視化相關的函數都存放在一個模塊裏。這樣就能夠在其餘有須要的地方進行調用,在編寫程序的時候,常常須要引用其它模塊。
你能夠將Excel菜單中的每一個選項卡 當作是一個模塊,例如數據選項卡下就包含了數據獲取和轉換、鏈接、排序和篩選、數據工具等功能。只是它以圖形界面的方式供咱們選擇使用。
而Python中的模塊通常看不見摸不着,須要在使用的時候進行導入使用,因此對初學者來講不算太友好,這也是你們認爲Python難學的緣由之一。
另外Python中模塊的概念,在 Java 中稱之爲包(package),而在 C\C++中則稱之爲庫(library),Java和C\C++都是程序員經常使用的編程語言,因此有些程序員就會把Python 中的模塊混淆稱之爲包和庫,你只要明白它們說的是一回事便可。
小白:原來是這麼回事,那Pandas模塊又是什麼?
Mr.林:Pandas模塊是Python的一個數據分析模塊,它最初被用做金融數據分析工具而開發出來,因此Pandas爲時間序列分析提供了很好的支持。
爲了提供高效操做大型數據集的工具,Pandas提出了一套相似Excel的標準數據應用框架,包含了相似Excel表格的數據框DataFrame,以及快速便捷地處理數據的函數和方法,讓數據分析整個過程變得快速、簡單。能夠絕不誇張地說,Pandas是Python中進行數據分析的最好工具。
小白:Pandas模塊怎麼使用呢?它在哪呢?
Mr.林:在安裝Anaconda的時候,都已經一塊兒安裝好了,咱們只需把它導入就可使用了,主要有兩種使用方法:
第一種是使用import語句進行導入。
import 模塊名
這是模塊導入最常使用的方法,模塊導入後,就能夠經過使用 模塊名.變量名調用模塊中的變量,使用 模塊名.函數名 調用模塊中的函數。
第二種是使用 from import 語句進行導入。
from 模塊名 import 函數名
這種狀況就是明 確知道要導入哪一個模塊哪一個函數或變量的時候使用。使用這種導入的方式,在使用函 數或變量的時候,就不用在前面加上對應的模塊名了。
小白:那咱們是否是能夠導入Pandas模塊了?
Mr.林:能夠,不過不用那麼急,咱們先來看咱們要導入的數據data.csv,先使用Notepad++打開查看數據是什麼樣子的:
這份數據是一份用戶數據,記錄了用戶的id,註冊日期reg_date,用戶的身份證號id_num,性別gender,生日birthday,年齡age六個字段數據,每一個字段使用英文逗號分隔。
還有一個很重要的信息,就是這份數據採用UTF-8的編碼格式記錄數據。
UTF-8是互聯網上使用最廣的一種unicode的實現方式,爲傳輸而設計的編碼,最大的特色是統一無國界,能夠顯示全世界上全部文化的字符。
如今咱們能夠來導入數據了,打開spyder,輸入如下代碼python
1import pandas 2data = pandas.read_csv( 3'D:/D/data.csv', 4 engine='python', 5 encoding='utf8' 6)
小白:前三行我大概看懂了,那麼第4、五行都是什麼意思呀?
Mr.林:我給代碼加上對應的註釋,使用#來添加註釋,這樣解析器就不會執行註釋所在的行的內容。你再看看。程序員
1# 導入pandas模塊 2import pandas 3# 使用pandas模塊中的read_csv導入data.csv文件 4data = pandas.read_csv( 5# 第一個參數爲數據文件所在的路徑,由於是字符串須要用單引號引發 6'D:/D/data.csv', 7# 第二個參數是爲了解決路徑中包含中文字符沒法導入的問題 8 engine='python', 9# 第三個參數是設置數據文件對應的編碼格式 10 encoding='utf8' 11)
小白:懂了,懂了,原來是這麼回事。
Mr.林:在變量瀏覽窗口中就能夠看到剛導入的data變量了,雙擊打開data變量,就能夠獲得下面這張表。
Mr.林:今天就到這,下次咱們繼續學習數據導入的其餘操做,小白你回去要多多練習,多敲代碼。編程
長按識別下方二維碼,並關注公衆號
回覆「DR」獲取案例數據
回覆「++」獲取Notepad++下載地址框架