Python數據科學（八）- 資料探索與資料視覺化

時間 2019-11-25

原文原文鏈接

傳送門：html

Python數據科學（一）- python與數據科學應用(Ⅰ)

Python數據科學（二）- python與數據科學應用(Ⅱ)

Python數據科學（三）- python與數據科學應用(Ⅲ)

Python數據科學（四）- 數據收集系列

Python數據科學（五）- 數據處理和數據採集

Python數據科學（六）- 資料清理(Ⅰ)

Python數據科學（七）- 資料清理(Ⅱ)

1.敘述性統計與推論性統計

敘述性統計有系統的概括數據，瞭解數據的輪廓 對數據樣本作敘述性陳述，例如：平均數、標準誤差、計次頻率、百分比對數據資料的圖像化處理，將數據摘要變爲圖標表
推論性統計資料模型的建構 從樣本推論總體資料的概況 相關、迴歸、單因子變異數、因素分析

1.敘述性統計

1.咱們通常有三種方式進行敘述性統計

對大多數資料進行分析，80%都是在於如何加總與平均 eg：
- 銷售份額
- 客戶數量
- 業績成長量
使用SQL作敘述性統計(經過加入限制條件獲得咱們須要的數據)

select * from tb1 where col1 >= 100 limit 3
複製代碼

2.如何操做數據

操做數據咱們經常須要
- 分割數據（Split）
- 轉換數據（Transformation）
- 聚合數據（Aggregation）
- 探索數據（Exploration）
須要如同SQL的語法去操做數據首先咱們須要安裝pandas_datareader，pip install pandas_datareader，pandas_datareader是一個遠程獲取金融數據的Python工具，它提供了下面幾個機構的數據。
- Yahoo! Finance：雅虎金融python
- Google Finance：谷歌金融bash
- Enigma：Enigma是一個公共數據搜索的提供商session
- St.Louis FED (FRED)：聖路易斯聯邦儲備銀行工具
- Kenneth French’s data library：肯尼斯弗蘭奇資料庫post
- World Bank：世界銀行ui
- OECD：經合組織google
- Eurostat：歐盟統計局spa
- Thrift Savings Plan：美國聯邦政府管理離退休的組織3d

import pandas_datareader

pandas_datareader.DataReader(name, data_source=None, start=None, end=None, retry_count=3, 
                                    pause=0.001, session=None, access_key=None)
複製代碼

name：股票名稱
data_source：數據來源，能夠是雅虎，谷歌等等
start：開始日期
end：截止日期
retry_count：若是斷開鏈接從新鏈接幾回
pause：抓取數據的中間是否須要停頓
session：是否須要加入session
access_key：若是接口須要提供access_key，則此項須要填 #2.進行讀取相關數據丘老師是使用pandas_datareader.DataReader來讀取的雅虎提供的阿里巴巴股票數據，如今雅虎已經被棄用。這裏我使用Tushare來讀取金融數據。 Tushare是一個免費、開源的python財經數據接口包。

import tushare

# 獲取大盤指數實時行情列表
df = ts.get_index()

# 查看後五行
df.tail()
複製代碼

備註：返回值說明

code:指數代碼
name:指數名稱
change:漲跌幅
open:開盤點位
preclose:昨日收盤點位
close:收盤點位
high:最高點位
low:最低點位
volume:成交量(手)
amount:成交金額（億元）

# 查看列
df.columns
複製代碼

1.作一些簡易的統計

針對單列進行統計
- 算出總和：df['volume'].sum()
- 算出平均：df['volume'].mean()
- 算出標準差：df['volume'].std()
- 取得最小值：df['volume'].min()
- 取得最大值：df['volume'].max()
- 取得筆數：df['volume'].count()
針對多列進行統計

# 取得最低開盤點位，最低收盤點位
df[['open', 'close']].min()
複製代碼

2.取得總體敘述性統計

df.describe()
複製代碼

3.計算當日大盤指數當日漲跌次數

計算當日漲跌

df['diff'] = df['close'] - df['open']
df['rise'] = df['diff'] > 0  # 漲
df['fall'] = df['diff'] < 0  # 跌
複製代碼

計算漲跌次數

df[['rise', 'fall']].sum()
複製代碼

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。