數據處理——數據合併

時間 2019-11-18

原文原文鏈接

# 同樣，數據處理就先給導入pandas先
import pandas as pd

# df1==df2
df1 = pd.DataFrame({'一班':[90,80,66,75,99,55,76,78,98,None,90],
                   '二班':[75,98,100,None,77,45,None,66,56,80,57],
                   '三班':[45,89,77,67,65,100,None,75,64,88,99]})
df2 = pd.DataFrame({'一班':[90,80,66,75,99,55,76,78,98,None,90],
                  '二班':[75,98,100,None,77,45,None,66,56,80,57],
                  '三班':[45,89,77,67,65,100,None,75,64,88,99]})

1數據堆疊

　　數據堆疊分爲如下兩種：app

- 行堆疊
- 列堆疊

　　pd.concat(objs, axis=0)函數

objs：參與合併的多個DataFrame。無默認
axis：表示軸向，axis=0表示行合併，axis=1表示列合併

pd.concat([df1, df2, df3], axis=1)

	一班	三班	二班	一班	三班	二班	一班	三班	二班
0	90.0	45.0	75.0	90.0	45.0	75.0	90.0	45.0	75.0
1	80.0	89.0	98.0	80.0	89.0	98.0	80.0	89.0	98.0
2	66.0	77.0	100.0	66.0	77.0	100.0	66.0	77.0	100.0
3	75.0	67.0	NaN	75.0	67.0	NaN	75.0	67.0	NaN
4	99.0	65.0	77.0	99.0	65.0	77.0	99.0	65.0	77.0
5	55.0	100.0	45.0	55.0	100.0	45.0	55.0	100.0	45.0
6	76.0	NaN	NaN	76.0	NaN	NaN	76.0	NaN	NaN
7	78.0	75.0	66.0	78.0	75.0	66.0	78.0	75.0	66.0
8	98.0	64.0	56.0	98.0	64.0	56.0	98.0	64.0	56.0
9	NaN	88.0	80.0	NaN	88.0	80.0	NaN	88.0	80.0
10	90.0	99.0	57.0	90.0	99.0	57.0	90.0	99.0	57.0

　　固然，若是axis=0（行堆疊）時，也能夠使用append函數spa

# append 直接在末尾追加，注意特徵數目相同，而且數據類型相同
df1.append(df2)

	一班	三班	二班
0	90.0	45.0	75.0
1	80.0	89.0	98.0
2	66.0	77.0	100.0
3	75.0	67.0	NaN
4	99.0	65.0	77.0
5	55.0	100.0	45.0
6	76.0	NaN	NaN
7	78.0	75.0	66.0
8	98.0	64.0	56.0
9	NaN	88.0	80.0
10	90.0	99.0	57.0
0	90.0	45.0	75.0
1	80.0	89.0	98.0
2	66.0	77.0	100.0
3	75.0	67.0	NaN
4	99.0	65.0	77.0
5	55.0	100.0	45.0
6	76.0	NaN	NaN
7	78.0	75.0	66.0
8	98.0	64.0	56.0
9	NaN	88.0	80.0
10	90.0	99.0	57.0

2主鍵合併

　　主鍵合併大概是應用最關的合併方式了，也是我最喜歡的方式。code

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, suffixes=('_x', '_y'))blog

left：表示進行合併的左邊的DataFrame。無默認。
right：表示進行合併的右邊的DataFrame。無默認。
how：表示合併的方法。默認爲'inner'。可取'left'(左鏈接),'right'（右鏈接）,'inner'（內鏈接）,'outer'（外鏈接）。
on：表示合併的主鍵。默認爲空。
left_on：表示左邊的合併主鍵。默認爲空。
right_on：表示右邊的合併主鍵。默認爲空。
suffixes：表示列名相同的時候的後綴。默認爲('_x', '_y')

# 合併數據
pd.merge(df1, df2, on='一班')

	一班	三班_x	二班_x	三班_y	二班_y
0	90.0	45.0	75.0	45.0	75.0
1	90.0	45.0	75.0	99.0	57.0
2	90.0	99.0	57.0	45.0	75.0
3	90.0	99.0	57.0	99.0	57.0
4	80.0	89.0	98.0	89.0	98.0
5	66.0	77.0	100.0	77.0	100.0
6	75.0	67.0	NaN	67.0	NaN
7	99.0	65.0	77.0	65.0	77.0
8	55.0	100.0	45.0	100.0	45.0
9	76.0	NaN	NaN	NaN	NaN
10	78.0	75.0	66.0	75.0	66.0
11	98.0	64.0	56.0	64.0	56.0
12	NaN	88.0	80.0	88.0	80.0

pd.merge(df1, df2, left_on='一班', right_on='二班', suffixes=('_1', '_2))

	一班_1	三班_1	二班_1	一班_2	三班_2	二班_2
0	80.0	89.0	98.0	NaN	88.0	80.0
1	66.0	77.0	100.0	78.0	75.0	66.0
2	75.0	67.0	NaN	90.0	45.0	75.0
3	98.0	64.0	56.0	80.0	89.0	98.0
4	NaN	88.0	80.0	75.0	67.0	NaN
5	NaN	88.0	80.0	76.0	NaN	NaN

3重疊合並

　　不是特別建議，畢竟重疊合並沒什麼依據，並且浪費數據資源。資源

　　DataFrame.combine_first(other) 重疊合並，當二者皆有之前者爲準，爲空時，則使用後者的補上。pandas

df1['一班'].combine_first(df1['二班'])

0     90.0
1     80.0
2     66.0
3     75.0
4     99.0
5     55.0
6     76.0
7     78.0
8     98.0
9     80.0
10    90.0
Name: 一班, dtype: float64

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。