# -*- coding: utf-8 -*- # @Date: 2017-08-26 # @Original: import numpy as np stock_cnt = 200 view_days = 504 # 生成序列 stock_day_change = np.random.standard_normal((stock_cnt, view_days)) stock_day_change.shape import pandas as pd 列出前5行數據 pd.DataFrame(stock_day_change).head(5) 4.1.2 索引行列序列 # 從2017-1-1向上時間遞進,單位freq='1d'即1天 days = pd.date_range('2017-1-1', periods=stock_day_change.shape[1], freq='1d') # 股票0 -> 股票stock_day_change.shape[0] stock_symbols = ['股票 ' + str(x) for x in range(stock_day_change.shape[0])] # 分別設置index和columns df = pd.DataFrame(stock_day_change, index=stock_symbols, columns=days) # 表4-3所示 df.head(2) df_stock0 = df['股票 0'] print(type(df_stock0)) # 打印出Series的前5行數據, 與DataFrame一致 # <class 'pandas.core.series.Series'> df_stock0.head() 4.2.1 數據總體分析 info()查看數據是否有缺失,及各個子數據的數據類型 tsla_df.info() describe()展現每組數據的統計信息 tsla_df.describe() 4.2.2 索引選取和切片選擇 使用loc配合行名稱、列名稱選取切片示例以下 # 2014-07-23至2014-07-31 開盤價格序列 tsla_df.loc['2014-07-23':'2014-07-31', 'open'] iloc配合行索引數值及列索引數值選取切片 # [1:5]:(1,2,3,4),[2:6]: (2, 3, 4, 5) tsla_df.iloc[1:5, 2:6] 根據列名混合選擇 tsla_df.[['close','high','low']][0:3] 4.2.3 邏輯條件進行數據篩選 # abs爲取絕對值 # 漲跌幅大於8%,交易成交量大於統計週期內的平均值的2.5倍 tsla_df[(np.abs(tsla_df.netChangeRatio) > 8) & (tsla_df.volume > 2.5 * tsla_df.volume.mean())] 4.2.4 數據轉換與規整 tsla_df.sort_index(by='netChangeRatio')[:5] # 若是一行的數據中存在na就刪除這行 tsla_df.dropna() # 經過how控制 若是一行的數據中所有都是na就刪除這行 tsla_df.dropna(how='all') # 使用指定值填充na, inplace表明就地操做,即不返回新的序列在原始序列上修改 tsla_df.fillna(tsla_df.mean(), inplace=True).head() # pct_change()對序列從第二項開始向前作減法後再除之前一項,即漲跌幅 tsla_df.close.pct_change()[:3] # 將change_ratio轉變成與tsla_df.p_change字段同樣的百分百,一樣保留兩位小數 np.round(change_ratio[-5:] * 100, 2) 4.2.5 數據本地序列化操做 tsla_df.to_csv('../gen/tsla_df.csv', columns=tsla_df.columns, index=True) tsla_df_load = pd.read_csv('../gen/tsla_df.csv', parse_dates=True, index_col=0) tsla_df_load.head()