機械狗的機器學習入門(三)——王水(1)。2019/4/1

  咱們從菜市場買來的菜,用王水洗一洗,你猜會怎麼樣?機器學習

 

  今天學習一個數據分析工具 Pandas (王水 霧)。由於比較懶,因此直接在pycharm裏安裝好了。工具

咱們先用以前在菜市場買好的菜:一個機器學習經典數據集,大概是些花花草草的葉子長、寬和它們屬於的類別。咱們用這些花花草草作清洗實驗,甚至把它們洗得連莖都不剩!學習

先看代碼:spa

import os
import pandas as pd
import requests
#os.get_exec_path()
PATH = r'/Users/tzontlilic/Desktop/'
r = requests.get('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data')
#print(r.text)
with open (PATH + 'iris.txt', 'w') as f:
    f.write(r.text)

os.chdir(PATH)

df = pd.read_csv(PATH + 'iris.txt' , names=['sepal length', 'speal width', 'petal length', 'petal width','class'])

print(df.head())

咱們先將獲取的機器學習數據集(花花草草)保存在一個名爲「iris.txt」的文件中,而後用pandas.read_csv()方法來讀取。code

這裏有必要先學習一下CSV文件是什麼。blog

百度百科給咱們的答案是,csv是一種逗號分割值文件格式。簡單來講就是一種多用於儲存表格中的數據而存在的一種文件格式。他有一些規則:ci

1 開頭是不留空,以行爲單位。
2 可含或不含列名,含列名則居文件第一行。
3 一行數據不跨行,無空行。
4 以 半角逗號(即,)做分隔符,列爲空也要表達其存在。
5列內容如存在半角引號(即"),替換成半角雙引號("")轉義,即用半角引號(即"")將該字段值包含起來。
6文件讀寫時引號,逗號操做規則互逆。
7內碼格式不限,可爲 ASCII、Unicode 或者其餘。
8不支持數字
9不支持特殊字符
(以上內容由百度百科提供)
 
咱們能夠來看看它長什麼樣
 

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4.....get

 

經過pandas.read_csv()方法,咱們給數據增添了列名,而後進行了處理,print(df.head())的輸出值以下:pycharm

 

  sepal length     speal width          petal length      petal width    class
0          5.1         3.5         1.4          0.2          Iris-setosa
1       4.9      3.0         1.4            0.2       Iris-setosa
2      4.7      3.2        1.3       0.2        Iris-setosa
3      4.6      3.1        1.5          0.2    lris-setosa
4      5.0      3.6       1.4          0.2       Iris-setosa數據分析

 

 實際上 pandas.read_csv()是pandas庫的數據解析功能,這只是它衆多強大功能中的一個,若是你願意,你能夠把它們洗得連渣都不剩。

 

今天就先把王水開個頭,具體怎麼樣能用王水把花花草草洗成本身想要的樣子還須要更多的研究才行。

相關文章
相關標籤/搜索