WechatScraper ——基於搜狗搜索的微信公衆號爬蟲

最近公司有這方面需求,在網上找了一些爬蟲,使用了一段時間以後發現不少沒解決驗證碼和cookie這兩個很頭疼的問題。git

因而想到了PhantomJS和webdriver,Headless瀏覽器,雖然PhantomJS看不到顯示界面,但其實就是在一個瀏覽器內核中運行,這免去了不少麻煩事。github

最初試了Firefox,驗證碼出現的概率幾乎降到了0,文章列表基本上跟真瀏覽器訪問無差,後來移植到centos上,但由於centos上裝firefox仍是比較麻煩,因而改用了PhantomJS,但測試發現PhantomJS的抓取效果很通常,常常關鍵詞抓錯,暫時不知道緣由,但效果相似於將中文字符去掉,英文關鍵詞抓取是沒有問題的,還望有經驗的人士解答。web

本着方便的原則,簡單封裝了幾個操做MySQL方法,能夠直接將數據存到MySQL裏面,sql文件夾下面的兩個文件分別是文章和公衆號的表格建立文件,鏈接MySQL以後直接輸入source,而後把文件拖到命令行就好了。sql

配置文件能夠本身修改,也能夠本身在建立實例的時候輸入config。centos

暫時使用的PhantomJS,須要安裝很多東西,有時間寫個安裝教程。瀏覽器

main.py是測試文件,裏面寫了兩個測試用例,能夠在安裝好東西以後運行一下。cookie

項目地址是WickedDogg/WecharScraper,歡迎提issue,fork和star。less

相關文章
相關標籤/搜索