1.經過傳入一個list的值來建立一個Series對象,並讓pandas建立一個默認的序號索引:dom
import pandas as pd import numpy as np s = pd.Series([1,3,6,np.NAN,23,1]) print(s) >>>> 0 1.0 1 3.0 2 6.0 3 NaN 4 23.0 5 1.0 dtype: float64
2.經過傳入一個list的值來建立一個Series對象,並讓pandas建立一個自定義的序號索引(以時間日期爲例):函數
import pandas as pd import numpy as np k = pd.date_range('2018-8-10',periods=2) #data_range()爲日期函數 print(k) #索引指定爲k s = pd.Series([[1,2,3],[4,5,6]],index=k) print(s) >>>>> DatetimeIndex(['2018-08-10', '2018-08-11'], dtype='datetime64[ns]', freq='D') 2018-08-10 [1, 2, 3] 2018-08-11 [4, 5, 6] Freq: D, dtype: object
3.經過傳入一個list的值來建立一個DataFrame對象,並讓pandas建立一個默認的序號索引:(DataFrame對象比如是一個EXCEL表格,索引值已經默認生成,每一列是一類內容)spa
import pandas as pd import numpy as np s = pd.DataFrame(np.random.randn(6,4), columns=list('ABCD')) print(s) >>> A B C D 0 -1.493380 0.009195 1.548569 0.050338 1 -0.139341 1.246836 0.309992 -0.914084 2 1.610661 -2.255323 1.421774 0.152989 3 -0.299182 -1.723575 0.305811 -0.561350 4 -0.189062 0.872633 0.649384 1.204343 5 0.890815 0.109442 0.466272 -1.103311
4.經過字典來建立DataFrame對象:code
import pandas as pd import numpy as np df = pd.DataFrame({'景點':np.array(['故宮', '泰山','圓明園','黃山','赤壁','黃鶴樓']), '門票':np.array([80,np.NAN,20,130,75,np.NAN]), '省份':np.array(['北京','山東','北京','安徽','湖北','湖北']), }) print(df) >>> 景點 省份 門票 0 故宮 北京 80.0 1 泰山 山東 NaN 2 圓明園 北京 20.0 3 黃山 安徽 130.0 4 赤壁 湖北 75.0 5 黃鶴樓 湖北 NaN
5.對DataFrame對象進行操做:對象
import pandas as pd import numpy as np df = pd.DataFrame({'景點':np.array(['故宮', '泰山','圓明園','黃山','赤壁','黃鶴樓']), '門票':np.array([80,np.NAN,20,130,75,np.NAN]), '省份':np.array(['北京','山東','北京','安徽','湖北','湖北']), }) print(df.dropna()) >>> 景點 省份 門票 0 故宮 北京 80.0 2 圓明園 北京 20.0 3 黃山 安徽 130.0 4 赤壁 湖北 75.0
2.將空值賦值:df.pd.fillna(value=)blog
import pandas as pd import numpy as np df = pd.DataFrame({'景點':np.array(['故宮', '泰山','圓明園','黃山','赤壁','黃鶴樓']), '門票':np.array([80,np.NAN,20,130,75,np.NAN]), '省份':np.array(['北京','山東','北京','安徽','湖北','湖北']), }) print(df.fillna(value=56)) >>> 景點 省份 門票 0 故宮 北京 80.0 1 泰山 山東 56.0 2 圓明園 北京 20.0 3 黃山 安徽 130.0 4 赤壁 湖北 75.0 5 黃鶴樓 湖北 56.0
3.groupby分組:索引
import pandas as pd import numpy as np df = pd.DataFrame({'景點':np.array(['故宮', '泰山','圓明園','黃山','赤壁','黃鶴樓']), '門票':np.array([80,np.NAN,20,130,75,np.NAN]), '省份':np.array(['北京','山東','北京','安徽','湖北','湖北']), }) #數據分組統計 df['A'].groupby(df['B']).mean() A按照B進行分組 print(df['門票'].groupby(df['省份']).max()) >>> 省份 北京 80.0 安徽 130.0 山東 NaN 湖北 75.0 Name: 門票, dtype: float64
6.字符串方法字符串
import pandas as pd import numpy as np s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat']) #將大寫變成小寫 print(s.str.lower()) >>> 0 a 1 b 2 c 3 aaba 4 baca 5 NaN 6 caba 7 dog 8 cat dtype: object