pandas

1.簡介python

pandas是python的一個數據分析包,由AQR於2008年4月開發,2009年末開源。數據庫

pandas最初被做爲金融數據分析工具而開發出來,所以pandas爲時間序列分析提供了很好的支持。數組

 

基本功能數據結構

集成時間序列功能工具

既能處理時間序列數據,也能處理非時間序列數據的數據結構spa

靈活處理缺失數據code

合併及其餘出如今常見數據庫中的關係型運算對象

 

數據結構blog

Series,是一種相似於一維數組的對象,它由一組數據以及與一組與之相關的數據標籤(即索引)組成。索引

Series的字符串表現形式爲:索引在左邊,值在右邊。

from pandas import Series

print('用數組生成Series,不指定索引')
s1 = Series([4,7,-5,3])
print(s1)
print(s1.values)
print(s1.index)

 

print('指定Series的index')
s2 = Series([4, 7, -5, 3], index = ['d', 'b', 'a', 'c'])
print(s2)
print(s2.index)
print(s2['a'])
s2['d'] = 6
print(s2[['c', 'a', 'd']])
print(s2[s2 > 0])  # 找出大於0的元素
print('b' in s2)  # 判斷索引是否存在
print('e' in s2)
print('使用字典生成Series')
sdata = {'Ohio':45000, 'Texas':71000, 'Oregon':16000, 'Utah':5000}
s3 = Series(sdata)
print(s3)
print('使用字典生成series,並額外指定index,不匹配部分爲NaN')
states = ['California', 'Ohio', 'Oregon', 'Texas']
s4 = Series(sdata, index = states)
print(s4)

print('series相加,相同索引部分相加')
print(s3+s4)

print('指定series及其索引的名字')
s4.name = 'population'
s4.index.name = 'state'
print(s4)

print('替換index')
s1.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
print(s1)

DataFrame

是一個表格型的數據結構,它含有一組有序的列,每列能夠使不一樣的值類型。

既有行索引,又有列索引,它能夠被看作由Series組成的字典。

相關文章
相關標籤/搜索
本站公眾號
   歡迎關注本站公眾號,獲取更多信息