一個爬取微信公衆號文章的爬蟲mysql
github: https://github.com/bowenpay/w...git
微信爬蟲的由來
咱們是一家幫助中國 5000 萬貧困人口與社會公益組織的對接的公司。github
咱們經過國家和地方政府的「建檔立卡」系統,獲取到了一手的貧困戶數據,目前有 100 萬左右,總數爲 5000 萬,目前每一個月都在增加。redis
爲了幫助這部分貧困戶對接公益機構,我寫了這個微信爬蟲,從微信公衆號發佈的文章中上找出最新的公益項目。sql
這種找項目的方式的可行性,咱們還在試驗中。django
起初,爲了快速上線,本爬蟲的代碼是基於個人另外一個 通用爬蟲項目 開發的,還不是很完善,因此但願任何對本項目感興趣的人聯繫我,與我一同改進這個項目。微信
聯繫方式:在該 issue 下留言告訴我 點擊去留言框架
界面預覽
1 ) 要爬取的微信公衆號列表ide
2 ) 要爬取的文章關鍵字列表spa
3 ) 已經爬取的微信文章
4 ) 查看文章,並標記是否可用
5 ) 控制爬取進程數
使用到的技術和框架django mysql redis lxml selenium