世界上的問題不少,小夥伴們都想知道是什麼嗎?NOW,告訴大家,只要給我數據,我用OpenFEA分析分析,就能給您一個比較靠譜的答案。排序
昨天家裏有個小朋友看了一個戶外運動的廣告,她感受蠻好玩的,而後就問爸爸:「爸爸,爲何你每天要加班,而不帶我一塊兒去作戶外運動?」內存
爸爸回答:「小朋友,爸爸身上有房貸,要掙錢養家,爸爸如今又不是土豪!「數據分析
小朋友又問:」爸爸,那土豪是什麼意思,土豪在哪裏?「it
對呀,土豪在哪裏?愛戶外運動的土豪又在哪裏?io
別急,我慢慢算給你聽!csv
1、分析思路nio
土豪標誌就是買!買!買!愛戶外運動的土豪的標誌就是買!買!買!im
騎個車,登個山,跑個步,遊個泳有必要買個萬把塊的戶外運動手錶嗎?這不就是土豪行爲嘛!統計
(一)數據準備命名
上某東,抓數據!怎麼抓?來找我,我當面告訴你!
一、佳明手錶購買評論記錄及手錶價格
二、頌拓手錶購買評論記錄及手錶價格
(二)分析過程
一、把數據上傳到OpenFEA,以下圖:
二、加載數據到內存DF表
三、數據分析與統計
(1)表聯合
(2)分組與統計
(3)重命名字段
(4)結果排序
(5)繪圖
從圖中得出結論:喜歡戶外運動的人士主要分佈在北京、廣州、上海。可是,這些人士並不徹底是土豪,還須要剔除購買低價位戶外運動手錶的人士。
(6)剔除購買低價位戶外運動手錶的記錄,而後再統計分析
最終得出結論:喜歡戶外運動的土豪人士主要分佈在北京、廣州、上海。
2、分析腳本
#加載數據
jmsb = load csv by xhzjmsb.csv
stsb = load csv by xhzstsb.csv
jmprice = load csv by jmprice.csv
stprice = load csv by stprice.csv
#表連接
sbun = union (jmsb,stsb)
#表分組
gt = group sbun by (省份)
#表統計
result = agg gt by (省份:count)
#重命名字段
rename result as (u"省份":u"人數")
#排序
result = order result by (人數) with desc
#繪圖
plot result by 04
priceun = union (jmprice,stprice)
#表關連查型
sbun1 = join (sbun,priceun) by (型號,型號)
#表過濾
sbun2 = filter sbun1 by (price>4000)
gt2 = group sbun2 by (省份)
result2 = agg gt2 by (省份:count)
rename result2 as (u"省份":u"人數")
result2 = order result2 by (人數) with desc
plot result2 by 04