講到維多利亞女神,大家的腦子裏閃過的是那些畫面?數據結構
上兩期,咱們主要作了文胸的品牌及文胸罩杯的專題分析。這一期咱們將從各個角度向你們介紹維多利女神的全部祕密,以便讓各位親早日找到各自的維多利亞女神,並能愉快地生活在一塊兒!.net
女神不必定是最漂亮的,但必定是有品味、有氣質的,並且身材還過得去的。那麼穿衣打扮的品味確定是衡量一個女生是不是女神的一個重要標準,所以,購買何種價位的內衣固然是考量的一個維度。另外,合適的罩杯大小毫無疑問是衡量身材好與很差的重要維度。所以,找女神咱們有後面的女神公式。blog
小編幫你們找到女神還不夠,如何能與女神愉快地生活在一塊兒也是咱們要講的重點。所以,你有必要了解女神們的做息規律、平常偏好,又好比她們傾向於購買何種品牌、何種質地、何種色系的內衣等等都是咱們須要一一瞭解的信息。所謂知已知彼,百戰百勝嘛!get
一、數據準備與處理思路:產品
通過社區爬蟲達人(燕子)幾天的辛勤爬取,共取得某網購平臺100多萬的文胸網購評論數據/商品型號/價格三部分數據,分別造成3個文本文件。經FEA處理後的數據結構以下。io
(1)數據結構社區
A:文胸網購評論數據(comments2)cli
B:商品詳情信息(goods2:文胸產品名稱、產品購物網址、旗艦店名稱、文胸貨號代碼)終端
C:文胸價格(price2:文胸貨號代碼、價格)im
(2)分析思路
A:根據文胸網購評論數據(comments2),咱們對錶中的referencename字段進行分組統計,能夠統計出最受歡迎的文胸產品名稱,以及文胸品牌25強;
對錶中的userlevelname字段進行分組統計,能夠統計出購物平臺上會員等級的分佈組成狀況;
對錶中的userclientshow字段進行分組統計,能夠統計出購物平臺上,顧客通常是經過何種終端進行下單購買的;
對錶中的productcolor字段進行分組統計,能夠統計出你們都偏心哪幾種顏色,進而分析主要的幾個顏色色系。
對錶中的userprovince字段進行分組統計,能夠統計出網購客戶主要分佈在全國哪些省市。
對錶中的productsize字段進行分組統計,能夠統計出全國女生罩杯大小數量上的一個概況統計。
對錶中的userprovince、productsize兩個字段組合進行分組統計,能夠統計出全國各省女生罩杯大小數量上的一個概況統計。
對錶中的creationtime字段按位進行拆分(年、月、日、小時),而後逐一進行分組統計,能夠統計出每一年、每個月、每日、每小時段的累計購買數量,從購買時間上對購買行爲有一個大概的瞭解。比方說,哪幾個月是銷售旺季,你們最喜歡在一天當中的哪一個小時時段裏下單購買。
B: 將文胸網購評論數據(comments2)與商品詳情信息(goods2)按文胸產品名稱字段進行兩表關聯,而後對旗艦店名稱進行分組統計,能夠計算出哪些店鋪銷售量比較靠前。
C:將商品詳情信息(goods2)與文胸價格信息(price2)兩表按文胸貨號代碼進行兩表關聯,能夠得出每一個商品的價格,而後再與網購評論數據(comments2)中的產品名稱字段進行關聯,獲得一個包含文胸價格、文胸名稱、罩杯大小、顧客所在省份等全字段的一張總表,以下:
這時,對多個字段組合進行分組統計,或者按多個字段條件進行過濾,能夠計算出一些更有意思的結果。如身材好的人分佈在哪些省份,女神主要分佈在哪些省份等等。
(注:受爬取的數據質量限制及網購平臺上商品罩杯分類標準規則較多等客觀因素,分析結果與思路僅供參考)
二、維多利亞女神的祕密
(1)最受女生歡迎的文胸品牌與文胸店鋪25強
(基於爬取的數據)從以上兩圖能夠看出,像冰堂秀、幻薇、古今、曼妮芬、黛安芬、水中花等大商場常見專櫃品牌都是榜上有名。
(2)顧客羣體分析
從以上兩圖能夠看出,廣東、北京、江蘇、四川、浙江五地的顧客人數排名靠前。
從上圖咱們能夠看出,該購物平臺中,銅牌會員與銀牌會員佔有較大比重;這些網購人員中,大部份是經過安卓手機客戶端與蘋果手機客戶端來進行下單購買的。
(3)購買時間分析
從上圖中的文胸月累積銷售量柱狀圖中能夠看出,每一年的六、七、八、九、11月份是一個購買旺季。這頗有可能跟夏季的穿戴洗護次數頻繁有關,至於11月份這一個銷售量可能與天貓等網購平臺大促銷政策有關。
(4)文胸色系分佈
從上圖能夠看出,黑色與膚色兩種色系均爲25%左右。這與咱們夏季常常看到女生穿黑絲襪、漏黑色肩帶是有很大關係的。到了這,各位看官,大家在爲大家的女神挑選文胸與絲襪時應該買什麼色系應該內心有數了吧。
(4)文胸價格分析
我對53萬個文胸的購買價格進行初步分析後發現:平均價格爲102元,50%的人購買價格爲98元,75%的人購買價格爲119元,整體來說單價都是大衆消費水平的。
(5)我們的維多利亞女神
女神的定義:學識淵博、經濟獨立、顏值高、身材好、氣質佳……
鑑於小編爬取的數據有限,我只能膚淺地給出以下女神計算公式:
By the way,這裏要感謝一下我團隊里美女小倩,是她告訴我如何解讀文胸罩杯型號數據:前面數字表明身材胖瘦,後面字母表明罩杯大小。
從以上兩圖咱們能夠看出,在爲數很少的女神裏面,人數排名靠前的省市有廣東、北京、江蘇、四川、浙江。
上期回顧: