python pandas 數據處理 pandas 數據索引與選取

 內容彙總目錄:html

df插入一行app

 

相同列名df合併dom

df去極值post

 

df行、列分別求和this

 

http://www.javashuo.com/article/p-dgzlupog-mh.htmlurl

一、修改一個或多個列名spa

二、增長列、插入列、刪除列或行.net

三、刪除特定行或特定列,能夠按照索引(行名)、列名、元素值來篩選code

四、df兩行之間運算htm

五、判斷元素是否在Series中

 

將字符串類型日期修改成datetime日期類型

 

將df或者Series等分

 

一、df數據選取

二、set_index、reset_index、sort_index、reindex、sort_values

三、暴力修改索引

 

計算累積收益率

df中eval用法

df中數據格式轉換

 

pandas.DataFrame.iterrows

pandas.Series.searchsorted

 

df插入一行

分兩種狀況,1、插入行沒有索引;2、插入的行有索引,用reindex從新設置索引

df = pd.DataFrame(np.arange(12).reshape(3, 4), columns=list('abcd'))
df
Out[9]: 
   a  b   c   d
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11
df.loc[-1]=[1,1,1,1]
df
Out[12]: 
    a  b   c   d
 0  0  1   2   3
 1  4  5   6   7
 2  8  9  10  11
-1  1  1   1   1
df.loc[df.shape[0]+1]=[1,1,1,1]
df
Out[14]: 
    a  b   c   d
 0  0  1   2   3
 1  4  5   6   7
 2  8  9  10  11
-1  1  1   1   1
 5  1  1   1   1
df.index=['aa','bb','cb','dd','ee']
df
Out[24]:
    a  b   c   d
aa  0  1   2   3
bb  4  5   6   7
cb  8  9  10  11
dd  1  1   1   1
ee  1  1   1   1

 

相同列名df合併

df.append(df)
Out[22]: 
   a  b   c   d         e
0  0  1   2   3 -1.564839
1  4  5   6   7 -0.268072
2  8  9  10  11  0.229017
0  0  1   2   3 -1.564839
1  4  5   6   7 -0.268072
2  8  9  10  11  0.229017

 

功能:df去極值

df = pd.DataFrame(np.arange(12).reshape(3, 4), columns=list('abcd'))
df.where(df<df.median(),df.median(),axis=1)
Out[73]: 
   a  b  c  d
0  0  1  2  3
1  4  5  6  7
2  4  5  6  7

 

功能:df行、列分別求和

#DataFrame行、列分別求和
from pandas import Series, DataFrame 
import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(12).reshape(3, 4), columns=list('abcd')) df Out[31]: a b c d 0 0 1 2 3 1 4 5 6 7 2 8 9 10 11 df['col_sum']=df.sum(axis=1) df Out[34]: a b c d col_sum 0 0 1 2 3 6 1 4 5 6 7 22 2 8 9 10 11 38 df.ix['row_sum']=df.sum() df Out[36]: a b c d col_sum 0 0 1 2 3 6 1 4 5 6 7 22 2 8 9 10 11 38 row_sum 12 15 18 21 66

 

功能:

一、修改一個或多個列名

二、增長列、插入列、刪除列或行

三、刪除特定行或特定列,能夠按照索引(行名)、列名、元素值來篩選

四、df兩行之間運算

五、判斷元素是否在Series中

df = pd.DataFrame(np.arange(1, 17).reshape(4, 4), index=pd.date_range('2017/1/1', periods=4), columns=list('mnxy'))
df
Out[39]: 
                     m   n   x   y
2017-01-01   1   2   3   4
2017-01-02   5   6   7   8
2017-01-03   9  10  11  12
2017-01-04  13  14  15  16
# 修改特定(某一列或某幾列)列名
df.rename(columns={'m': 'n', 'n': 'm'}, inplace=True)
df
Out[41]: 
                     n   m   x   y
2017-01-01   1   2   3   4
2017-01-02   5   6   7   8
2017-01-03   9  10  11  12
2017-01-04  13  14  15  16
# 增長列
df['mn']=1
df
Out[44]: 
                     n   m   x   y  mn
2017-01-01   1   2   3   4   1
2017-01-02   5   6   7   8   1
2017-01-03   9  10  11  12   1
2017-01-04  13  14  15  16   1
# 插入列
df.insert(1, 'e', 1000)  # 1爲插入位置,1000爲插入內容
df
Out[46]: 
                      n     e   m   x   y  mn
2017-01-01   1  1000   2   3   4   1
2017-01-02   5  1000   6   7   8   1
2017-01-03   9  1000  10  11  12   1
2017-01-04  13  1000  14  15  16   1
# 刪除列
del df['mn']
df
Out[48]: 
                      n     e   m   x   y
2017-01-01   1  1000   2   3   4
2017-01-02   5  1000   6   7   8
2017-01-03   9  1000  10  11  12
2017-01-04  13  1000  14  15  16

# drop刪除列,inplcae=False,不改變原數據,返回dataframe存放刪除後的數據
# inplace=True,改變原數據,返回None
# drop比del好,del只能刪除列,drop行和列均可以
df1 = df.drop(['m', 'n'], axis=1)
df
Out[50]: 
                      n     e   m   x   y
2017-01-01   1  1000   2   3   4
2017-01-02   5  1000   6   7   8
2017-01-03   9  1000  10  11  12
2017-01-04  13  1000  14  15  16
df1
Out[51]: 
                           e   x   y
2017-01-01  1000   3   4
2017-01-02  1000   7   8
2017-01-03  1000  11  12
2017-01-04  1000  15  16
df2 = df.drop(['m', 'n'], axis=1, inplace=True)
df
Out[53]: 
                         e   x   y
2017-01-01  1000   3   4
2017-01-02  1000   7   8
2017-01-03  1000  11  12
2017-01-04  1000  15  16
df2  #

# drop刪除行,與上面用法相似
df.index=['a','b','c','d']
df
Out[58]: 
      e   x   y
a  1000   3   4
b  1000   7   8
c  1000  11  12
d  1000  15  16
df.drop(['a'],inplace=True)
df
Out[60]: 
      e   x   y
b  1000   7   8
c  1000  11  12
d  1000  15  16

# 獲取特定的幾行
df = df.ix[['b','c']]
# 刪除特定行,刪除與選取相似 # 一、例如刪除x列中爲7的行 df = df[df['x'] != 7] df Out[65]: e x y c 1000 11 12 d 1000 15 16 # 二、刪除多個非特定元素的行,如刪除m列中爲6和9的行 # 方法一:多刪除幾回便可
# 方法二:

#‘B’列中值爲'one','two'的df
#df[df['B'].isin(['one','two'])]
#‘B’列中值不爲‘one','two'的df
#df[~df['B'].isin(['one','two'])]
#索引中爲’a‘,’b‘的df
#df[df.index.isin(['a','b')]
#索引中不爲'b','b'的df
#df[~df.index.isin(['a','b'])]
# 刪除特定列,例如索引爲c的行中爲某值(好比11)的列,即刪去‘x’列 # 能夠先轉置,按照上面方法刪除,再轉置回來便可 # DataFrame兩行相減 df.ix['f'] = df.ix['c'] - df.ix['d'] #這個之後要被Deprecated,用loc df Out[69]: e x y c 1000 11 12 d 1000 15 16 f 0 -4 -4 df.loc['g'] = df.loc['c'] - df.loc['d'] # 多用loc和iloc,用這兩個就夠了!!!! df Out[71]: e x y c 1000 11 12 d 1000 15 16 f 0 -4 -4 g 0 -4 -4 # 刪除掉Series中小於3的數據 new_data = df['e'][df['e'] >= 3] new_data Out[73]: c 1000 d 1000 Name: e, dtype: int64 # 刪除掉dataframe中小於0的數據 new_data = df[df >= 0] # 將小於0的數據替換爲NaN,可用dorpna()完全刪除 new_data Out[75]: e x y c 1000 11.0 12.0 d 1000 15.0 16.0 f 0 NaN NaN g 0 NaN NaN new_data.dropna(inplace=True) new_data Out[77]: e x y c 1000 11.0 12.0 d 1000 15.0 16.0

 可參考博客    pandas 數據索引與選取

#接上面代碼
# 判斷某一元素是否在Series中
11 in df['x'].tolist()
Out[83]: True
# 判斷某一些元素是否在Series中
df['x'].isin(['a', 'b', 11])  # 判斷元素'a','b',11是否在Series中
Out[85]: 
c     True
d    False
f    False
g    False
Name: x, dtype: bool

 

功能:將字符串類型日期修改成datetime日期類型

# 將字符串類型日期修改成datetime日期類型
#方法1: .to_datetime 和 .set_index
df=pd.DataFrame({'date':'2018-01-01','price':20},index=list('ab'))
df
Out[7]: 
         date  price
a  2018-01-01     20
b  2018-01-01     20
df['date']=pd.to_datetime(df['date'])
df.set_index('date',inplace=True)
df
Out[11]: 
            price
date             
2018-01-01     20
2018-01-01     20
df.index
Out[12]: DatetimeIndex(['2018-01-01', '2018-01-01'], dtype='datetime64[ns]', name='date', freq=None)

#方法2:.set_index和 .DatetimeIndex
df=pd.DataFrame({'date':'2018-01-01','price':20},index=list('ab'))
df
Out[14]: 
         date  price
a  2018-01-01     20
b  2018-01-01     20
df.set_index('date',inplace=True)
df.index=pd.DatetimeIndex(df.index)
df
Out[17]: 
            price
date             
2018-01-01     20
2018-01-01     20
df.index
Out[18]: DatetimeIndex(['2018-01-01', '2018-01-01'], dtype='datetime64[ns]', name='date', freq=None)

 

功能:將df或者Series等分

# 將dataframe或者series三等分
# cut區間範圍等分,每一個範圍數據個數不等,qcut分位數等分,每一個範圍數據個數相等
# cut和qcut返回的factor對象可直接用於groupby
frame = pd.DataFrame({'data1': np.random.randn(10), 'data2': np.random.randn(10)})
frame
Out[20]: 
      data1     data2
0 -0.420824  0.517133
1 -1.085327  0.969493
2  1.111569 -1.444616
3 -1.837042  0.934159
4 -1.290986  0.565812
5  2.792878  0.756323
6 -0.925471 -0.193387
7 -0.035497 -0.795628
8 -0.737259  0.121162
9  0.375720 -0.380498
factor = pd.cut(frame['data1'], 4)  # 也能夠改成qcut,桶等分
for i in frame.groupby(factor):
    print(i)
    
(Interval(-1.8420000000000001, -0.68000000000000005, closed='right'),       data1     data2
1 -1.085327  0.969493
3 -1.837042  0.934159
4 -1.290986  0.565812
6 -0.925471 -0.193387
8 -0.737259  0.121162)
(Interval(-0.68000000000000005, 0.47799999999999998, closed='right'),       data1     data2
0 -0.420824  0.517133
7 -0.035497 -0.795628
9  0.375720 -0.380498)
(Interval(0.47799999999999998, 1.635, closed='right'),       data1     data2
2  1.111569 -1.444616)
(Interval(1.635, 2.7930000000000001, closed='right'),       data1     data2
5  2.792878  0.756323)

 功能:df數據選取

import pandas as pd
from pandas import Series, DataFrame
import numpy as np

# SettingWithCopyWarning:
# A value is trying to be set on a copy of a slice from a DataFrame.
# Try using .loc[row_indexer,col_indexer] = value instead
# See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy

# 是選數據的時候方法問題,用的
df = pd.DataFrame(np.arange(12).reshape(3, 4), columns=list('abcd'))
a = df[['x', 'y']]        # 錯誤用法
a = df.loc[:, ['x', 'y']] #正確用法

def do_something(df):
    foo = df[['bar', 'baz']]  # Is foo a view? A copy? Nobody knows!
    # ... many lines here ...
    foo['quux'] = 'value'  # We don't know whether this will modify df or not!
    return foo
df = pd.DataFrame(np.arange(12).reshape(3, 4), index=list('xyz'), columns=['A', 'B', 'C', 'D'])
df
Out[134]: 
   A  B   C   D
x  0  1   2   3
y  4  5   6   7
z  8  9  10  11
# 列-->>索引 set_index() #原來的索引被刪掉,即x、y、z被刪掉
df = df.set_index(['A'])
df
Out[136]: 
   B   C   D
A           
0  1   2   3
4  5   6   7
8  9  10  11
df = df.set_index('B')
print(df)
    C   D
B        
1   2   3
5   6   7
9  10  11
# 索引-->>列 reset_index   #注意,若是要丟掉原來索引,從新排列,能夠pd.reset_index(drop=True)便可,Series也能夠
df = df.reset_index()
df
Out[139]: 
   B   C   D
0  1   2   3
1  5   6   7
2  9  10  11
df['index'] = df.index
df
Out[141]: 
   B   C   D  index
0  1   2   3      0
1  5   6   7      1
2  9  10  11      2
# 索引重排列,方法一
df.sort_index()
Out[154]: 
   B   C   D  index
0  1   2   3      0
1  5   6   7      1
2  9  10  11      2
# 索引重排列,方法二
df = df.reindex([1, 2, 0])
df
Out[143]: 
   B   C   D  index
1  5   6   7      1
2  9  10  11      2
0  1   2   3      0
# 暴力修改索引,用的較少,可是沒有索引名字了
df.index = ['x', 'y', 'z']
df
Out[145]: 
   B   C   D  index
x  5   6   7      1
y  9  10  11      2
z  1   2   3      0
# 按照列的值排序
df.sort_values(by='B')
Out[147]: 
   B   C   D  index
z  1   2   3      0
x  5   6   7      1
y  9  10  11      2

 

功能:計算累積收益率

# 計算累計收益率,假設m列中均爲股票S價格,結果均爲series
df = pd.DataFrame(np.arange(1, 17).reshape(4, 4), index=pd.date_range('2017/1/1', periods=4), columns=list('mnxy'))
df
Out[163]: 
             m   n   x   y
2017-01-01   1   2   3   4
2017-01-02   5   6   7   8
2017-01-03   9  10  11  12
2017-01-04  13  14  15  16
series_data = df['m']
returns = series_data.pct_change()
ret_index = (1 + returns).cumprod()
ret_index[0] = 1
ret_index
Out[165]: 
2017-01-01     1.0
2017-01-02     5.0
2017-01-03     9.0
2017-01-04    13.0
Freq: D, Name: m, dtype: float64

 

功能:df中eval用法

#DataFrame 中 eval用法
df = pd.DataFrame(np.arange(15).reshape(5, 3), index=pd.date_range('2017/1/1', periods=5), columns=list('mnx')) df Out[119]: m n x 2017-01-01 0 1 2 2017-01-02 3 4 5 2017-01-03 6 7 8 2017-01-04 9 10 11 2017-01-05 12 13 14 df.eval('n=m/2') Out[120]: m n x 2017-01-01 0 0.0 2 2017-01-02 3 1.5 5 2017-01-03 6 3.0 8 2017-01-04 9 4.5 11 2017-01-05 12 6.0 14 df.eval('y=m+n+x') Out[121]: m n x y 2017-01-01 0 1 2 3 2017-01-02 3 4 5 12 2017-01-03 6 7 8 21 2017-01-04 9 10 11 30 2017-01-05 12 13 14 39

 

 功能:df中數據格式轉換

#DataFrame中數據格式轉換
df= pd.DataFrame({'data1': np.random.randn(10), 'data2': np.random.randn(10)})
df
Out[158]: 
      data1     data2
0  0.502123 -0.509918
1 -0.951938  1.087244
2  0.813539  1.472696
3 -2.371410  1.653909
4 -2.003656 -0.377436
5 -0.568296  0.860488
6 -0.298069  0.524529
7  1.495561 -0.168975
8  0.071808 -0.657124
9  1.033833 -0.792216
#保留兩位小數
df.round(2)  #注意:df本沒有變化,若是要直接修改,應是:df=df.round(2)
Out[159]: 
   data1  data2
0   0.50  -0.51
1  -0.95   1.09
2   0.81   1.47
3  -2.37   1.65
4  -2.00  -0.38
5  -0.57   0.86
6  -0.30   0.52
7   1.50  -0.17
8   0.07  -0.66
9   1.03  -0.79
#浮點型轉換爲字符串,也能夠一列一列修改,下同
df.astype('str')
Out[160]: 
                 data1                 data2
0   0.5021230983459903   -0.5099175252419896
1  -0.9519381099105976     1.087243798112059
2   0.8135390670890555    1.4726958935479506
3   -2.371409829647876    1.6539092429632931
4  -2.0036555631578294  -0.37743579303176955
5  -0.5682959379210526    0.8604878115460606
6  -0.2980691412731598    0.5245286812900314
7   1.4955614539023945  -0.16897501597784825
8  0.07180772648583414   -0.6571243077010698
9    1.033833479234571   -0.7922160997192839
#字符串轉換爲整數
df.astype('int')
Out[161]: 
   data1  data2
0      0      0
1      0      1
2      0      1
3     -2      1
4     -2      0
5      0      0
6      0      0
7      1      0
8      0      0
9      1      0

 

一、pandas.DataFrame.iterrows

二、pandas.Series.searchsorted

import numpy as np
x=pd.DataFrame(np.arange(16).reshape(4,4),index=list('numb'),columns=list('xyzi'))
x
Out[12]: 
    x   y   z   i
n   0   1   2   3
u   4   5   6   7
m   8   9  10  11
b  12  13  14  15
y=x.iterrows()
y
Out[14]: <generator object DataFrame.iterrows at 0x000001F88B224D58>
for i in y:
    print(i)
    
('n', x    0
y    1
z    2
i    3
Name: n, dtype: int32)
('u', x    4
y    5
z    6
i    7
Name: u, dtype: int32)
('m', x     8
y     9
z    10
i    11
Name: m, dtype: int32)
('b', x    12
y    13
z    14
i    15
Name: b, dtype: int32)
x.index
Out[16]: Index(['n', 'u', 'm', 'b'], dtype='object')
x.index.searchsorted('u')
Out[17]: 4
x.index.searchsorted('a')
Out[18]: 0
x.index.searchsorted('z')
Out[19]: 4
x.index.searchsorted('b')
Out[20]: 0
相關文章
相關標籤/搜索