segmentfault 線下活動數據分析

時間 2019-11-10

標籤 segmentfault 線下活動數據分析欄目快樂工作简体版

原文原文鏈接

開始說明

目標：練習爬蟲python
KeyWord：python3.5 scrapy BeautifulSoup4 mysql flask
echart3mysql

segmentfault 上的不少線下技術交流活動都很好，我本身也參加過一些，就比較好奇這些活動都有哪些特色，好比說：git

通常在星期幾舉辦？github
什麼月份比較多？web
哪一個城市比較多？sql
通常都是哪些類型的？flask

主要分兩個部分：爬蟲抓取部分、數據展現部分segmentfault

爬蟲抓取部分

主要思路：

肯定要抓取的數據有哪些。
包括：活動名稱、舉辦時間（日期、星期）、城市、活動目前狀態等等。框架
肯定抓取多少頁。
一直抓到頁面上沒有「下一頁」按鈕爲止。scrapy

因而，寫了個簡單的爬蟲把這些數據都拿到手，分析了一下。

實施步驟：

1.分析頁面連接和內容，肯定要抓取的內容

這裏主要是結合 BeautifulSoup 來肯定數據；

2.建立數據表

肯定要抓取的數據後存儲在 Mysql 中，語句以下：

CREATE TABLE `blog`.`<table_name>` (
    `id` int(11) NOT NULL AUTO_INCREMENT,
    `name` varchar(100) NOT NULL,
    `c_date` varchar(20) NOT NULL,
    `week` varchar(8) NOT NULL,
    `week_number` int(11) NOT NULL,
    `city` varchar(20) NOT NULL,
    `icon` varchar(100) NOT NULL,
    `status` varchar(10) NOT NULL,
    `detail` varchar(100) NOT NULL,
    `join_link` varchar(100) NOT NULL,
    `link` varchar(100) NOT NULL,
    PRIMARY KEY (`id`)
) ENGINE=`InnoDB` AUTO_INCREMENT=1708 DEFAULT CHARACTER SET utf8
COLLATE utf8_general_ci ROW_FORMAT=COMPACT CHECKSUM=0 DELAY_KEY_WRITE=0;