Python零基礎入門數據分析實戰之小費數據集應用

1、數據來源

本節選用的是Python的第三方庫seaborn自帶的數據集,該小費數據集爲餐飲行業收集的數據,其中total_bill爲消費總金額、tip爲小費金額、sex爲顧客性別、smoker爲顧客是否吸菸、day爲消費的星期、time爲聚餐的時間段、size爲聚餐人數。python

import numpy as np 
from pandas import Series,DataFrame 
import pandas as pd 
import seaborn as sns    #導入seaborn庫 
tips=sns.load_dataset('tips')  #seaborn庫自帶的數據集 
tips.head()

2、問題探索2、問題探索

  • 小費金額與消費總金額是否存在相關性?
  • 性別、是否吸菸、星期幾、聚餐人數和小費金額是否有必定的關聯?
  • 小費金額佔小費總金額的百分比是否服從正態分佈?

3、數據清洗

tips.shape #數據集的維度

(244,7)3d

共有244條數據,7列。code

tips.describe() #描述統計

描述統計結果如上所示。blog

tips.info() #查看缺失值信息

此例完好失值。ip

4、數據探索

tips.plot(kind='scatter',x='total_bill',y='tip') #繪製散點圖

由圖可看出,小費金額與消費總金額存在正相關性。pandas

import numpy as np 
from pandas import Series,DataFrame 
import pandas as pd 
import seaborn as sns   #導入seaborn庫 
tips=sns.load_dataset('tips')#seaborn庫自帶的數據集 
tips.head()

3.0896178343949052class

female_tip = tips[tips['sex'] == 'Female']['tip'].mean() #女性平均消費金額female_tip

2.833448275862069import

s = Series([male_tip,female_tip],index=['male','female']) 
s

male 3.089618float

female 2.833448numpy

dtype: float64

s.plot(kind='bar') #男女平均小費柱狀圖

由圖可看出,女性小費金額小於男性小費金額。

sun_tip = tips[tips['day'] == 'Sun']['tip'].mean() 
sat_tip = tips[tips['day'] == 'Sat']['tip'].mean() 
thur_tip = tips[tips['day'] == 'Thur']['tip'].mean() 
fri_tip = tips[tips['day'] == 'Fri']['tip'].mean()#各個日期的平均小費值 
s = Series([thur_tip,fri_tip,sat_tip,sun_tip],index=['Thur','Fri','Sat','Sun']) 
s

s.plot(kind='bar') #日期平均小費柱狀圖

由圖可看出,周6、週日的小費比周4、週五的小費高。

tips['percent_tip'] = tips['tip']/(tips['total_bill']+tips['tip']) 
tips.head(10) #小費所佔百分比

tips['percent_tip'].hist(bins=50)#小費百分比直方圖

由圖可看出,小費金額佔小費總金額的百分比基本服從正態分佈。

來源:本文爲第三方轉載,若有侵權請聯繫小編刪除。

相關文章
相關標籤/搜索