pandas

時間 2019-11-14

標籤 pandas 简体版

原文原文鏈接

1.經過傳入一個list的值來建立一個Series對象，並讓pandas建立一個默認的序號索引：dom

import pandas as pd
import numpy as np

s = pd.Series([1,3,6,np.NAN,23,1])
print(s)

>>>>
0     1.0
1     3.0
2     6.0
3     NaN
4    23.0
5     1.0
dtype: float64

2.經過傳入一個list的值來建立一個Series對象，並讓pandas建立一個自定義的序號索引（以時間日期爲例）：函數

import pandas as pd
import numpy as np

k = pd.date_range('2018-8-10',periods=2) #data_range（）爲日期函數
print(k)
#索引指定爲k
s = pd.Series([[1,2,3],[4,5,6]],index=k)
print(s)

>>>>>
DatetimeIndex(['2018-08-10', '2018-08-11'], dtype='datetime64[ns]', freq='D')
2018-08-10    [1, 2, 3]
2018-08-11    [4, 5, 6]
Freq: D, dtype: object

3.經過傳入一個list的值來建立一個DataFrame對象，並讓pandas建立一個默認的序號索引：(DataFrame對象比如是一個EXCEL表格，索引值已經默認生成，每一列是一類內容)spa

import pandas as pd
import numpy as np

s = pd.DataFrame(np.random.randn(6,4), columns=list('ABCD'))
print(s)

>>>
         A         B         C         D
0 -1.493380  0.009195  1.548569  0.050338
1 -0.139341  1.246836  0.309992 -0.914084
2  1.610661 -2.255323  1.421774  0.152989
3 -0.299182 -1.723575  0.305811 -0.561350
4 -0.189062  0.872633  0.649384  1.204343
5  0.890815  0.109442  0.466272 -1.103311

4.經過字典來建立DataFrame對象：code

import pandas as pd
import numpy as np

df = pd.DataFrame({'景點':np.array(['故宮', '泰山','圓明園','黃山','赤壁','黃鶴樓']),
                   '門票':np.array([80,np.NAN,20,130,75,np.NAN]),
                   '省份':np.array(['北京','山東','北京','安徽','湖北','湖北']),
                   })
print(df)

>>>
    景點  省份     門票
0   故宮  北京   80.0
1   泰山  山東    NaN
2  圓明園  北京   20.0
3   黃山  安徽  130.0
4   赤壁  湖北   75.0
5  黃鶴樓  湖北    NaN

5.對DataFrame對象進行操做：對象

去除空值:df.pd.dropna()

import pandas as pd
import numpy as np

df = pd.DataFrame({'景點':np.array(['故宮', '泰山','圓明園','黃山','赤壁','黃鶴樓']),
                   '門票':np.array([80,np.NAN,20,130,75,np.NAN]),
                   '省份':np.array(['北京','山東','北京','安徽','湖北','湖北']),
                   })
print(df.dropna())

>>>
    景點  省份     門票
0   故宮  北京   80.0
2  圓明園  北京   20.0
3   黃山  安徽  130.0
4   赤壁  湖北   75.0

2.將空值賦值：df.pd.fillna(value=)blog

import pandas as pd
import numpy as np

df = pd.DataFrame({'景點':np.array(['故宮', '泰山','圓明園','黃山','赤壁','黃鶴樓']),
                   '門票':np.array([80,np.NAN,20,130,75,np.NAN]),
                   '省份':np.array(['北京','山東','北京','安徽','湖北','湖北']),
                   })
print(df.fillna(value=56))

>>>
   景點  省份     門票
0   故宮  北京   80.0
1   泰山  山東   56.0
2  圓明園  北京   20.0
3   黃山  安徽  130.0
4   赤壁  湖北   75.0
5  黃鶴樓  湖北   56.0

3.groupby分組：索引

import pandas as pd
import numpy as np

df = pd.DataFrame({'景點':np.array(['故宮', '泰山','圓明園','黃山','赤壁','黃鶴樓']),
                   '門票':np.array([80,np.NAN,20,130,75,np.NAN]),
                   '省份':np.array(['北京','山東','北京','安徽','湖北','湖北']),
                   })
#數據分組統計  df['A'].groupby(df['B']).mean() A按照B進行分組
print(df['門票'].groupby(df['省份']).max())

>>>
省份
北京     80.0
安徽    130.0
山東      NaN
湖北     75.0
Name: 門票, dtype: float64

6.字符串方法字符串

import pandas as pd
import numpy as np

s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
#將大寫變成小寫
print(s.str.lower())

>>>
0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

相關標籤/搜索

python+pandas+statsmodels

pyautogui+pil+pandas

pandas+mysql+excel

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。