一、微信公衆號爬蟲思路:html
參考:記一次微信公衆號爬蟲的經歷python
二、scrapy框架圖git
三、scrapy經典教程github
參考:mongodb
四、其它chrome
參考:shell
一、環境的安裝django
MongoDB:微信
mongodb的安裝與啓動cookie
具體命令以下:
python鏈接MongoDB,需安裝pip install mongoengine
啓動:
sudo ./mongod --port 27017 dbpath "/software/mongodb-4.0.0/data/db" --logpath "/software/mongodb-4.0.0/log/mongodb.log" --logappend --replSet rs0
Windows下MongoDB數據導出:
mongodump --port 27017 -d wechat -o D:\MongoDB
Linux下MongoDB數據導入:
./mongorestore -h 127.0.0.1 --port 27017 -d wechat --drop /software/mongodb-4.0.0/wechat
數據導入時注意:
Do you run mongo in replica set, i.e., mongod --replSet rs0?
If yes, please remember to run in your mongo shell the command: rs.initiate()
參考:
二、cookie獲取
selenium進行登陸驗證,保存cookies,爲scrapy作準備。
三、爬蟲
參考:
scrapy爬蟲利用selenium實現用戶登陸和cookie傳遞
四、django調用爬蟲
五、django構建搜索引擎,搜索爬過的信息
參考:
環境配置:
elasticsearch-rtf安裝、pip install mongo-connector、pip install mongo-connector[elastic5]、pip install elastic2-doc-manager
MongoDB數據同步到elasticsearch:
mongo-connector -m localhost:27017 -t localhost:9200 -d elastic2_doc_manager
一、selenium在新頁面定位元素問題
參考:
解決Selenium彈出新頁面沒法定位元素問題(Unable to locate element)
Selenium Webdriver元素定位的八種經常使用方式
三、在管道中關閉爬蟲
spider.crawler.engine.close_spider(spider, 'bandwidth_exceeded')