咱們從菜市場買來的菜,用王水洗一洗,你猜會怎麼樣?機器學習
今天學習一個數據分析工具 Pandas (王水 霧)。由於比較懶,因此直接在pycharm裏安裝好了。工具
咱們先用以前在菜市場買好的菜:一個機器學習經典數據集,大概是些花花草草的葉子長、寬和它們屬於的類別。咱們用這些花花草草作清洗實驗,甚至把它們洗得連莖都不剩!學習
先看代碼:spa
import os import pandas as pd import requests #os.get_exec_path() PATH = r'/Users/tzontlilic/Desktop/' r = requests.get('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data') #print(r.text) with open (PATH + 'iris.txt', 'w') as f: f.write(r.text) os.chdir(PATH) df = pd.read_csv(PATH + 'iris.txt' , names=['sepal length', 'speal width', 'petal length', 'petal width','class']) print(df.head())
咱們先將獲取的機器學習數據集(花花草草)保存在一個名爲「iris.txt」的文件中,而後用pandas.read_csv()方法來讀取。code
這裏有必要先學習一下CSV文件是什麼。blog
百度百科給咱們的答案是,csv是一種逗號分割值文件格式。簡單來講就是一種多用於儲存表格中的數據而存在的一種文件格式。他有一些規則:ci
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4.....get
經過pandas.read_csv()方法,咱們給數據增添了列名,而後進行了處理,print(df.head())的輸出值以下:pycharm
sepal length speal width petal length petal width class
0 5.1 3.5 1.4 0.2 Iris-setosa
1 4.9 3.0 1.4 0.2 Iris-setosa
2 4.7 3.2 1.3 0.2 Iris-setosa
3 4.6 3.1 1.5 0.2 lris-setosa
4 5.0 3.6 1.4 0.2 Iris-setosa數據分析
實際上 pandas.read_csv()是pandas庫的數據解析功能,這只是它衆多強大功能中的一個,若是你願意,你能夠把它們洗得連渣都不剩。
今天就先把王水開個頭,具體怎麼樣能用王水把花花草草洗成本身想要的樣子還須要更多的研究才行。