用Python分析2000款避孕套,得出這些有趣的結論

到如今爲止,咱們的淘寶教程已經寫到了第四篇,前三篇分別是:git

今天,咱們來看看淘寶系列的第四篇github

咱們在上一篇的時候已經將淘寶數據爬取下來了,可是並無作數據分析。因此今天這篇文章就是教你們如何去分析數據,得出一些有用的結論!微信

Python語言相比其餘語言的優點在哪裏?豬哥認爲是數據分析人工智能這兩大塊,並且這兩個方向需求會慢慢增大,因此那些想學習Python殊不知道要朝着哪一個目標學習的同窗能夠考慮往這兩個方向發展!cookie

1、分析目標

數據分析以前咱們須要清楚的知道本身想要分析什麼東西,也就是先搞清楚咱們的目標。在公司多是公司財報、用戶增量變化、產品受歡迎程度、一些報表等等。echarts

那咱們今天的目標有哪些呢?咱們來看看:學習

  1. 分析避孕套標題高頻關鍵字
  2. 分析避孕套標題高頻關鍵字 與 商品數量關係
  3. 分析避孕套標題高頻關鍵字 與 平均銷量關係
  4. 分析避孕套標題高頻關鍵字 與 平均售價關係
  5. 分析避孕套商品價格區間分佈關係
  6. 分析避孕套商品銷量區間分佈關係
  7. 分析避孕套商品價格區間 與 平均銷量關係
  8. 分析避孕套商家數量全國分佈關係
  9. 分析避孕套商家全國平均銷量關係

注意: 以上數據分析所有基於上次爬取的2500款淘寶商品(默認排序),並不表明淘寶全部避孕套商品!人工智能

2、分析實現

有了明確的目標以後,咱們就要開始技術選型。.net

首先數據處理的庫這個很好肯定,基本就是numpypandas這兩個必備的庫,因此你們首先確保已經安裝了這兩個庫。3d

而後數據可視化庫呢?這麼多可視化庫該怎麼選?若是你不知道怎麼選,那豬哥給你推薦:pyecharts 這個由中國人開發的可視化庫,想要什麼類型的圖在下面文檔裏面找就行。excel

中文文檔:pyecharts.org/#/zh-cn/int… 源碼地址:github.com/pyecharts/p…

最後技術選型完畢,咱們就能夠開始正式的敲代碼分析了。(分析的標題將和上面的分析目標一一對應)

0.數據清洗

在咱們數據分析以前,咱們須要對數據進行清洗。由於從淘寶爬取下來的數據並非標準的數據,好比:商品銷量,爬取下來的數據是:2.5萬 人付款,咱們須要將它轉爲:25000(整型),這樣才方面後面的處理!

咱們先來看看從淘寶爬取的原始數據,看看那些數據須要清洗

在這裏插入圖片描述
根據使用庫的經驗豬哥認爲有兩列數據須要清洗:一、銷量轉成整型 二、地區轉成只包含省份,具體如何清洗咱們直接看代碼吧!
在這裏插入圖片描述
你們能夠看到最後豬哥又重新生成了一個excel文件,目的就是不去污染原始數據, 由於原始數據很是重要,因此咱們在之後的數據處理中要儘可能保存好原始數據,多備份幾個都很少餘!

1.分析避孕套標題高頻關鍵字

數據清洗完畢以後,咱們就能夠開始分析了。

分析標題高頻關鍵字這都是老生常談的一個流程,也就是使用jieba分詞,而後統計詞頻,最後生成一個詞雲圖,我相信常常看豬哥公衆號的同窗看都看膩了吧,這種小功能閉着眼睛都會了。

在這裏插入圖片描述
十幾行代碼就搞定了,咱們來看看效果圖吧
在這裏插入圖片描述
分析結論:

  1. 從總體看商家取名偏心情趣二字
  2. 從材質看尿酸的最多
  3. 從功能看顆粒、螺紋的較多

ps:別問豬哥最中意哪一個詞,問就是延時

2.分析避孕套標題高頻關鍵字 與 商品數量關係

上面咱們只看到大概哪些功能受歡迎,若是須要看具體的數據怎麼辦呢?

咱們就來統計一下包含這些高頻關鍵詞的商品數據數量吧,代碼講解在圖片下方,下同!

在這裏插入圖片描述
咱們取最高頻的20個關鍵字,而後遍歷全部數據的標題中是否包含其中關鍵字,若是包含則該關鍵字的value就 1。來看看生成的柱狀圖效果吧!
在這裏插入圖片描述
分析結論:

  1. 包含情趣二字的商品有1150款,佔到總數(2500款 )的46%。
  2. 前三甲是:情趣、尿酸、顆粒

ps:豬哥有個疑問想請教各位老司機:這個 免洗 是咋玩的?

3.分析避孕套標題高頻關鍵字 與 平均銷量關係

這個分析有意思了,就至關於用戶更喜歡哪一種功能或者材質的套套。

在這裏插入圖片描述
在這裏插入圖片描述
高頻關鍵字與平均銷量分析數據的實現方法是,一樣遍歷全部數據的標題,若是包含某個關鍵字,則把該項數據的銷量放在關鍵字的value中(一個list),統計完後再對每一個關鍵字的value進行求平均值,最後再根據平均銷量排序。來看看效果吧!

在這裏插入圖片描述
分析結論:

  1. 螺紋功能平均銷量最高,你們的最愛
  2. 功能平均銷量前三分別是:螺紋、顆粒、狼牙
  3. 小號居然上榜,哈哈

ps:有不少同窗問:爲何不是超薄?超薄本身是爽了,可女友呢?

4.分析避孕套標題高頻關鍵字 與 平均售價關係

分析完你們喜歡的功能,再來分析下這些功能的價格如何?哪些功能的避孕套比較貴呢?

在這裏插入圖片描述
在這裏插入圖片描述
高頻關鍵字 與 平均售價關係分析原理與上面是類似的,使用的同一個方法,只不過是將原來的銷量換成價格,來看看效果圖吧!
在這裏插入圖片描述
分析結果:

  1. 能夠看到前排幾個基本都是關於材質的
  2. 凝膠、透明質、免洗這三項均價最貴,超過100大洋

ps:相似凝膠、透明質、免洗的哪位老司機用過,和通常的有啥區別?

5.分析避孕套商品價格區間分佈關係

商品的標題和功能差很少分析完了,咱們來分析下價格吧!

在這裏插入圖片描述
在這裏插入圖片描述
豬哥人爲的對價格進行了劃分,一共分爲:'0-20', '21-40', '41-60', '61-80', '81-100', '101-120', '121-150', '151-200', '200以上'這9個區間,而後對數據切割、統計、排序,最後分別生成柱狀圖和餅圖。
在這裏插入圖片描述
在這裏插入圖片描述
分析結論:

  1. 價格區間在21-40的商品最多爲778款,大約佔比31%。
  2. 價格在一百之內與超過一百的商品比大概爲7:1

ps:沒想到還有這麼多超過100塊的,我想問下200塊價格的套套是啥感受?

6.分析避孕套商品銷量區間分佈關係

分析完價格固然是分析銷量區間了

在這裏插入圖片描述
在這裏插入圖片描述
銷量區間分佈分析實現原理:認爲爲銷量分區,大概分爲:'一千之內', '一千到五千', '五千到一萬', '一萬到五萬', '五萬到十萬', '十萬以上',這六個區間,而後同上方法進行統計、排序最後可視化。
在這裏插入圖片描述
在這裏插入圖片描述
分析結論:

  1. 銷量在1000之內的最多,大概佔比90%
  2. 銷量過萬的一共也才10款,說明爆款真的不多
  3. 有一款套套銷量居然超過10萬

ps:想知道那款超過10萬銷量的避孕套商品信息嗎?關注豬哥微信公衆號「裸睡的豬」回覆:爆款套套,便可查看!

7.分析避孕套商品價格區間 與 平均銷量關係

假如你是一個避孕套賣家,新推出一款避孕套,你想知道價格定爲多少銷量纔會比較高呢?

這時候咱們就能夠經過分析價格與商品的銷量關係,用實際的數據來訂價,這也正是數據分析的價值之一。

在這裏插入圖片描述
商品價格區間 與 平均銷量關係分析實現原理是:使用pandas自動分區將價格劃分爲12個分區,而後對銷量數據分組、求平均值,來看看可視化以後的效果。
在這裏插入圖片描述
分析結論:

  1. 訂價在31.9-39這個區間平均銷量最高,爲893
  2. 訂價在10元之內的銷量居然高居第二

ps:誰用過10之內一盒的套套,出來走走

8.分析避孕套商家數量全國分佈關係

標題、價格、銷量都分析過了,最後咱們還分析下商家位置的數據。

分析的目標是統計全國各省避孕套商家數量,而後作成熱力圖和柱狀圖。

在這裏插入圖片描述
統計商家數量仍是比較簡單,由於咱們以前在數據清洗的時候已經只保留了省份數據,因此直接value_counts()就能夠的到想要的數據,看看效果如何!
在這裏插入圖片描述
在這裏插入圖片描述
分析結論:

  1. 避孕套商家前三甲:廣東、上海、浙江

ps:貴州四周都有賣套套的,爲什麼就它沒有?難道和地理有關?

9.分析避孕套商家全國平均銷量關係

分析完商家數後,咱們來看看各省的平均銷量吧。

在這裏插入圖片描述
商家全國平均銷量關係分析實現原理:咱們新建立一個透視表並對銷量求平均值,而後再排序,最後生成熱力圖和柱狀圖。
在這裏插入圖片描述
在這裏插入圖片描述

分析結論:

  1. 出乎意料的是山西39個商家平均銷量居然是第一爲1535。

ps:爲什麼山西平均銷量是第一?緣由是啥真想不通

3、總結

經過上面的數據分析,咱們獲得了一些有趣的結論:

  1. 用戶偏心螺紋、顆粒、狼牙等功能
  2. 凝膠、透明質、免洗這三項均價最貴,超過100大洋
  3. 價格區間在21-40的商品最多爲778款,大約佔比31%
  4. 銷量在1000之內的最多,大概佔比90%
  5. 訂價在31.9-39這個區間平均銷量最高,爲893
  6. 避孕套商家數量前三甲:廣東、上海、浙江
  7. 山西省平均銷量最高爲山西

經過上述分析結果,若是豬哥做爲一個避孕套商家,想要推出一款產品,設置標題帶螺紋、顆粒、狼牙,價格設置在31.9-39元,這樣可能會更暢銷一些。

數據分析做爲一把利刃,能讓你看見別人看不見的事物,若是使用得當徹底能夠做爲你創業的一個重要支點!

最後豬哥再送你一句忠告:想學數據分析,必定要學好pandas!!!

獲取源碼:關注微信公衆號「裸睡的豬」回覆:分析套套 便可獲取!

相關文章
相關標籤/搜索