一 概念 Pandas是一個開源的Python數據分析庫。Pandas把結構化數據分爲了三類: Series,1維序列,可視做爲沒有column名的、只有一個column的DataFrame; DataFrame,同Spark SQL中的DataFrame同樣,其概念來自於R語言,爲多column並schema化的2維結構化數據,可視做爲Series的容器(container); Panel,爲3維的結構化數據,可視做爲DataFrame的容器; 二 建立DataFrame # 標準建立 df2 = pd.DataFrame(np.arange(16).reshape((4,4)),index=['a','b','c','d'], columns=['one','two','three','four']) print "df2 =", df2 # 用傳入等長列表組成的字典來建立(用DataFrame自帶索引) 自帶列名 data={'c':['1','2'],'a':['5','6']} df=pd.DataFrame(data) print "df =", df # 傳入嵌套字典(字典的值也是字典)建立DataFrame (使用字典內嵌索引) 自帶列名 nest_dict = {'shanghai': {2015: 100, 2016: 101}, 'beijing': {2015: 102, 2016: 103}} df1=pd.DataFrame(nest_dict) print "df1 =", df1 # 傳入Series (帶大括號,另外需加列名) list = ['1', '2', '3', '4'] s= pd.Series(list, index=['a', 'b', 'c', 'd']) df1=pd.DataFrame({"A": s}) print "df1 =", df1 print df1 三