WechatScraper ——基於搜狗搜索的微信公衆號爬蟲

時間 2019-11-08

原文原文鏈接

最近公司有這方面需求，在網上找了一些爬蟲，使用了一段時間以後發現不少沒解決驗證碼和cookie這兩個很頭疼的問題。git

因而想到了PhantomJS和webdriver，Headless瀏覽器，雖然PhantomJS看不到顯示界面，但其實就是在一個瀏覽器內核中運行，這免去了不少麻煩事。github

最初試了Firefox，驗證碼出現的概率幾乎降到了0，文章列表基本上跟真瀏覽器訪問無差，後來移植到centos上，但由於centos上裝firefox仍是比較麻煩，因而改用了PhantomJS，但測試發現PhantomJS的抓取效果很通常，常常關鍵詞抓錯，暫時不知道緣由，但效果相似於將中文字符去掉，英文關鍵詞抓取是沒有問題的，還望有經驗的人士解答。web

本着方便的原則，簡單封裝了幾個操做MySQL方法，能夠直接將數據存到MySQL裏面，sql文件夾下面的兩個文件分別是文章和公衆號的表格建立文件，鏈接MySQL以後直接輸入source，而後把文件拖到命令行就好了。sql

配置文件能夠本身修改，也能夠本身在建立實例的時候輸入config。centos

暫時使用的PhantomJS，須要安裝很多東西，有時間寫個安裝教程。瀏覽器

main.py是測試文件，裏面寫了兩個測試用例，能夠在安裝好東西以後運行一下。cookie

項目地址是WickedDogg/WecharScraper，歡迎提issue，fork和star。less