segmentfault 線下活動數據分析

開始說明

  • 目標:練習爬蟲python

  • KeyWord:python3.5 scrapy BeautifulSoup4 mysql flask
    echart3mysql

segmentfault 上的不少線下技術交流活動都很好,我本身也參加過一些,就比較好奇這些活動都有哪些特色,好比說:git

  • 通常在星期幾舉辦?github

  • 什麼月份比較多?web

  • 哪一個城市比較多?sql

  • 通常都是哪些類型的?flask

主要分兩個部分:爬蟲抓取部分數據展現部分segmentfault

爬蟲抓取部分

主要思路:

  1. 肯定要抓取的數據有哪些。
    包括:活動名稱、舉辦時間(日期、星期)、城市、活動目前狀態等等。框架

  2. 肯定抓取多少頁。
    一直抓到頁面上沒有「下一頁」按鈕爲止。scrapy

因而,寫了個簡單的爬蟲把這些數據都拿到手,分析了一下。

實施步驟:

1.分析頁面連接和內容,肯定要抓取的內容

圖片描述
這裏主要是結合 BeautifulSoup 來肯定數據;

2.建立數據表

肯定要抓取的數據後存儲在 Mysql 中,語句以下:

CREATE TABLE `blog`.`<table_name>` (
    `id` int(11) NOT NULL AUTO_INCREMENT,
    `name` varchar(100) NOT NULL,
    `c_date` varchar(20) NOT NULL,
    `week` varchar(8) NOT NULL,
    `week_number` int(11) NOT NULL,
    `city` varchar(20) NOT NULL,
    `icon` varchar(100) NOT NULL,
    `status` varchar(10) NOT NULL,
    `detail` varchar(100) NOT NULL,
    `join_link` varchar(100) NOT NULL,
    `link` varchar(100) NOT NULL,
    PRIMARY KEY (`id`)
) ENGINE=`InnoDB` AUTO_INCREMENT=1708 DEFAULT CHARACTER SET utf8
COLLATE utf8_general_ci ROW_FORMAT=COMPACT CHECKSUM=0 DELAY_KEY_WRITE=0;

3.編碼實現

使用 scrapy 框架,代碼在這:爬蟲部分代碼

展現部分

使用百度的 echart3 圖表工具,web 框架使用 flask
代碼在這裏:數據展現部分代碼
下圖是我想到的幾種狀況分析:
圖片描述

以上!

相關文章
相關標籤/搜索