import numpy as np
import pandas as pd
odata = pd.read_csv('example.csv')`複製代碼
這三行代碼就能夠實現csv文件的導入,注意文件的路徑python
Data1 = data.drop([16,17])複製代碼
這句代碼的意思是刪除文件中的第16和17行,而且,後面第18和19並不會自動補到16和17的位置上去,行號從15之後就直接跳到18了安全
.drop()方法若是不設置參數inplace=True
,則只能在生成的新數據塊中實現刪除效果,而不能刪除原有數據塊的相應行。也就是inplace屬性能夠對原來的數據進行刪除操做Inplace = True
用法:bash
odata.drop(odata.index[[16,17]],inplace=True)複製代碼
咱們要注意到用與不用inplace的區別,不用inplace的時候,咱們使用另一個變量Data1來暫時保存處理後的數據,而使用inplace的時候,咱們直接調用一個函數對原來的數據進行操做。值得注意的是,inplace屬性並不會修改原來的文件,因此是安全的。也就是雖然直接對原來數據刪除,但並不會刪除到文件,只會在內存裏操做原來變量。函數
del data['date']複製代碼
代碼如上所示,直接刪除,注意這個del的方括號裏只可以有一個參數。一次只能刪除一列。ui
.pop方法能夠將所選列從原數據塊中彈出,原數據塊再也不保留該列,google
Data1=data.pop(‘latitude’)複製代碼
.pop方法將單獨的數據取出來,在咱們想要對某一塊數據很感興趣的時候很是實用。spa
咱們在數據預處理的時候不少時候要對一串帶有各類符號的數據進行處理。可是實際運行時咱們要將它們分開處理,因此須要用到python帶的split函數來處理code
str = ('www.google.com')
print str
str_split = str.split('.')
print str_split複製代碼
這樣運行出來的結果是內存
www.google.com
[‘www’,‘google’,‘com’]複製代碼
若是咱們想要設置分割的個數,就在split裏面添加參數:字符串
str_split = str.split(‘.’,1)複製代碼
這樣得出的結果是:
www.google.com
[‘www’,’google.com’]複製代碼
也就是隻分割了第一個字符,第二個就沒有分割了。
對於split函數,字符串和字符是同樣的,好比咱們想要的數據被字符串「||」隔開,咱們要想分割也是一樣寫法:
str = ('WinXP||Win7||Win8||Win8.1')
print str
str_split = str.split('||')
print str_split複製代碼
獲得(注意是單引號,不由於是字符串而換成雙引號)
[‘WinXP’,’Win7’,’Win8’,’Win8.1’]複製代碼
咱們在處理實際數據的時候,每每須要根據多種分隔符來分割,好比對於'Beautiful, is; better*than\nugly'
這樣的字符串來講,咱們要將其分割成獨立的單詞,僅僅用split就沒法作到,由於split函數運行一次以後將數據轉爲list類型,split函數不能處理list數據,因此不能運行兩次split。而且split函數並不能設置多個參數,因此python內置的re模塊幫咱們解決這個問題。具體使用以下
Import re
a='Beautiful, is; better*than\nugly'
x= re.split('[,|; |\*|\n]',a)
print(x)複製代碼
獲得結果是:
[‘Beautiful’,’is’,’better’,’than’,’nugly’]複製代碼