跟小白學Python數據分析——數據導入1

時間 2021-01-02

標籤 python 程序員編程框架編程語言 ide 函數工具學習編碼欄目 Python 简体版

原文原文鏈接

Mr.林：今天咱們來學習數據導入，須要使用到Pandas模塊。
小白：模塊？這個是什麼東東？
Mr.林：模塊至關因而一個文件夾，它可以用於存放同個主題相關的Python代碼段，包括定義函數、類和變量。
例如將數據處理相關的函數都存放在一個模塊裏，將數據分析相關的函數都存放在一個模塊裏，將數據可視化相關的函數都存放在一個模塊裏。這樣就能夠在其餘有須要的地方進行調用，在編寫程序的時候，常常須要引用其它模塊。
你能夠將Excel菜單中的每一個選項卡當作是一個模塊，例如數據選項卡下就包含了數據獲取和轉換、鏈接、排序和篩選、數據工具等功能。只是它以圖形界面的方式供咱們選擇使用。

而Python中的模塊通常看不見摸不着，須要在使用的時候進行導入使用，因此對初學者來講不算太友好，這也是你們認爲Python難學的緣由之一。
另外Python中模塊的概念，在 Java 中稱之爲包（package），而在 C\C++中則稱之爲庫（library），Java和C\C++都是程序員經常使用的編程語言，因此有些程序員就會把Python 中的模塊混淆稱之爲包和庫，你只要明白它們說的是一回事便可。
小白：原來是這麼回事，那Pandas模塊又是什麼？
Mr.林：Pandas模塊是Python的一個數據分析模塊，它最初被用做金融數據分析工具而開發出來，因此Pandas爲時間序列分析提供了很好的支持。
爲了提供高效操做大型數據集的工具，Pandas提出了一套相似Excel的標準數據應用框架，包含了相似Excel表格的數據框DataFrame，以及快速便捷地處理數據的函數和方法，讓數據分析整個過程變得快速、簡單。能夠絕不誇張地說，Pandas是Python中進行數據分析的最好工具。
小白：Pandas模塊怎麼使用呢？它在哪呢？
Mr.林：在安裝Anaconda的時候，都已經一塊兒安裝好了，咱們只需把它導入就可使用了，主要有兩種使用方法：
第一種是使用import語句進行導入。
import 模塊名
這是模塊導入最常使用的方法，模塊導入後，就能夠經過使用模塊名.變量名調用模塊中的變量，使用模塊名.函數名調用模塊中的函數。
第二種是使用 from import 語句進行導入。
from 模塊名 import 函數名
這種狀況就是明確知道要導入哪一個模塊哪一個函數或變量的時候使用。使用這種導入的方式，在使用函數或變量的時候，就不用在前面加上對應的模塊名了。
小白：那咱們是否是能夠導入Pandas模塊了？
Mr.林：能夠，不過不用那麼急，咱們先來看咱們要導入的數據data.csv，先使用Notepad++打開查看數據是什麼樣子的：

這份數據是一份用戶數據，記錄了用戶的id,註冊日期reg_date,用戶的身份證號id_num,性別gender,生日birthday,年齡age六個字段數據，每一個字段使用英文逗號分隔。
還有一個很重要的信息，就是這份數據採用UTF-8的編碼格式記錄數據。
UTF-8是互聯網上使用最廣的一種unicode的實現方式，爲傳輸而設計的編碼，最大的特色是統一無國界，能夠顯示全世界上全部文化的字符。
如今咱們能夠來導入數據了，打開spyder，輸入如下代碼python

1import pandas
2data = pandas.read_csv(
3'D:/D/data.csv',
4 engine='python',
5 encoding='utf8'
6)

小白：前三行我大概看懂了，那麼第4、五行都是什麼意思呀？
Mr.林：我給代碼加上對應的註釋，使用#來添加註釋，這樣解析器就不會執行註釋所在的行的內容。你再看看。程序員

1# 導入pandas模塊
 2import pandas
 3# 使用pandas模塊中的read_csv導入data.csv文件
 4data = pandas.read_csv(
 5# 第一個參數爲數據文件所在的路徑，由於是字符串須要用單引號引發
 6'D:/D/data.csv',
 7# 第二個參數是爲了解決路徑中包含中文字符沒法導入的問題
 8 engine='python',
 9# 第三個參數是設置數據文件對應的編碼格式
10 encoding='utf8'
11)

小白：懂了，懂了，原來是這麼回事。
Mr.林：在變量瀏覽窗口中就能夠看到剛導入的data變量了，雙擊打開data變量，就能夠獲得下面這張表。

Mr.林：今天就到這，下次咱們繼續學習數據導入的其餘操做，小白你回去要多多練習，多敲代碼。
編程