開源公司內部的微信爬蟲,尋求志同道合的人一塊兒來改進

一個爬取微信公衆號文章的爬蟲mysql

github: https://github.com/bowenpay/w...git

微信爬蟲的由來
咱們是一家幫助中國 5000 萬貧困人口與社會公益組織的對接的公司。github

咱們經過國家和地方政府的「建檔立卡」系統,獲取到了一手的貧困戶數據,目前有 100 萬左右,總數爲 5000 萬,目前每一個月都在增加。redis

爲了幫助這部分貧困戶對接公益機構,我寫了這個微信爬蟲,從微信公衆號發佈的文章中上找出最新的公益項目。sql

這種找項目的方式的可行性,咱們還在試驗中。django

起初,爲了快速上線,本爬蟲的代碼是基於個人另外一個 通用爬蟲項目 開發的,還不是很完善,因此但願任何對本項目感興趣的人聯繫我,與我一同改進這個項目。微信

聯繫方式:在該 issue 下留言告訴我 點擊去留言框架

界面預覽
1 ) 要爬取的微信公衆號列表
圖片描述ide

2 ) 要爬取的文章關鍵字列表
圖片描述spa

3 ) 已經爬取的微信文章
圖片描述

4 ) 查看文章,並標記是否可用
圖片描述

5 ) 控制爬取進程數
圖片描述

使用到的技術和框架django mysql redis lxml selenium

相關文章
相關標籤/搜索