1、數據來源
本節選用的是Python的第三方庫seaborn自帶的數據集,該小費數據集爲餐飲行業收集的數據,其中total_bill爲消費總金額、tip爲小費金額、sex爲顧客性別、smoker爲顧客是否吸菸、day爲消費的星期、time爲聚餐的時間段、size爲聚餐人數。python
import numpy as np from pandas import Series,DataFrame import pandas as pd import seaborn as sns #導入seaborn庫 tips=sns.load_dataset('tips') #seaborn庫自帶的數據集 tips.head()
2、問題探索2、問題探索
- 小費金額與消費總金額是否存在相關性?
- 性別、是否吸菸、星期幾、聚餐人數和小費金額是否有必定的關聯?
- 小費金額佔小費總金額的百分比是否服從正態分佈?
3、數據清洗
tips.shape #數據集的維度
(244,7)3d
共有244條數據,7列。code
tips.describe() #描述統計
描述統計結果如上所示。blog
tips.info() #查看缺失值信息
此例完好失值。ip
4、數據探索
tips.plot(kind='scatter',x='total_bill',y='tip') #繪製散點圖
由圖可看出,小費金額與消費總金額存在正相關性。pandas
import numpy as np from pandas import Series,DataFrame import pandas as pd import seaborn as sns #導入seaborn庫 tips=sns.load_dataset('tips')#seaborn庫自帶的數據集 tips.head()
3.0896178343949052class
female_tip = tips[tips['sex'] == 'Female']['tip'].mean() #女性平均消費金額female_tip
2.833448275862069import
s = Series([male_tip,female_tip],index=['male','female']) s
male 3.089618float
female 2.833448numpy
dtype: float64
s.plot(kind='bar') #男女平均小費柱狀圖
由圖可看出,女性小費金額小於男性小費金額。
sun_tip = tips[tips['day'] == 'Sun']['tip'].mean() sat_tip = tips[tips['day'] == 'Sat']['tip'].mean() thur_tip = tips[tips['day'] == 'Thur']['tip'].mean() fri_tip = tips[tips['day'] == 'Fri']['tip'].mean()#各個日期的平均小費值 s = Series([thur_tip,fri_tip,sat_tip,sun_tip],index=['Thur','Fri','Sat','Sun']) s
s.plot(kind='bar') #日期平均小費柱狀圖
由圖可看出,周6、週日的小費比周4、週五的小費高。
tips['percent_tip'] = tips['tip']/(tips['total_bill']+tips['tip']) tips.head(10) #小費所佔百分比
tips['percent_tip'].hist(bins=50)#小費百分比直方圖
由圖可看出,小費金額佔小費總金額的百分比基本服從正態分佈。
來源:本文爲第三方轉載,若有侵權請聯繫小編刪除。