目標:練習爬蟲python
KeyWord:python3.5
scrapy
BeautifulSoup4
mysql
flask
echart3
mysql
segmentfault 上的不少線下技術交流活動都很好,我本身也參加過一些,就比較好奇這些活動都有哪些特色,好比說:git
通常在星期幾舉辦?github
什麼月份比較多?web
哪一個城市比較多?sql
通常都是哪些類型的?flask
主要分兩個部分:爬蟲抓取部分、數據展現部分segmentfault
肯定要抓取的數據有哪些。
包括:活動名稱、舉辦時間(日期、星期)、城市、活動目前狀態等等。框架
肯定抓取多少頁。
一直抓到頁面上沒有「下一頁」按鈕爲止。scrapy
因而,寫了個簡單的爬蟲把這些數據都拿到手,分析了一下。
這裏主要是結合 BeautifulSoup
來肯定數據;
肯定要抓取的數據後存儲在 Mysql
中,語句以下:
CREATE TABLE `blog`.`<table_name>` ( `id` int(11) NOT NULL AUTO_INCREMENT, `name` varchar(100) NOT NULL, `c_date` varchar(20) NOT NULL, `week` varchar(8) NOT NULL, `week_number` int(11) NOT NULL, `city` varchar(20) NOT NULL, `icon` varchar(100) NOT NULL, `status` varchar(10) NOT NULL, `detail` varchar(100) NOT NULL, `join_link` varchar(100) NOT NULL, `link` varchar(100) NOT NULL, PRIMARY KEY (`id`) ) ENGINE=`InnoDB` AUTO_INCREMENT=1708 DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci ROW_FORMAT=COMPACT CHECKSUM=0 DELAY_KEY_WRITE=0;
使用 scrapy
框架,代碼在這:爬蟲部分代碼。
使用百度的 echart3
圖表工具,web 框架使用 flask
。
代碼在這裏:數據展現部分代碼。
下圖是我想到的幾種狀況分析:
以上!