<讀書筆記>如何入門爬蟲？

時間 2019-11-12

標籤讀書筆記如何入門爬蟲欄目網絡爬蟲简体版

原文原文鏈接

大部分爬蟲框架都是python

發送請求
得到頁面
解析頁面
下載內容
存儲內容

定個宏偉目標mysql

淘寶1000頁
知乎
豆瓣
...

python基礎正則表達式

list、dict:序列化爬取的內容
切片：分割爬取內容，獲取須要的部分
條件判斷：只找須要的，過濾掉沒用的
循環和迭代：重複爬蟲動做，直到爬取完成
文件讀寫操做：讀取參數，將爬取的內容保存
編碼常識：轉碼和解碼

知識儲備redis

網頁基礎知識：HTML、POST、GET、JS
分析語言：正則表達式、XPath、Beautifulsoup

輔助工具sql

開發者工具：F12
抓包工具：Fiddler 4
正則表達式測試：http://tool.chinaz.com/regex/
谷歌翻譯：https://translate.google.cn/
JSON解析：https://www.json.cn/
PyCharm（Windows）
Eclipse for Python(Linux)

各類模塊　　mongodb

urllib
urllib2
requests
scrapy
selenium
phantomJS

反爬蟲策略數據庫

打碼平臺
PIL（圖像處理標準庫）
OpenCV（（開源）發行的跨平臺計算機視覺庫）　
Pybrain（號稱最好用的Python神經網絡庫）
。。。

數據庫編程

mysql
mongodb
sqlite(scrapy自帶的)
redis(分佈式須要)

數據分析json

numpy:數據分析，相似matlab
pandas:基於numpy的數據分析模塊

進階技術網絡

多線程
分佈式

　　Scrapy + MongoDB + Redis 分佈式爬蟲系統

　　a）. Redis 用來存儲要爬取的網頁隊列，也就是任務隊列

　　b）. MongoDB 用來存儲爬取的內容結果。

　　c) . Scrapy 裏放爬蟲crawler , 分別爬取不一樣的網頁內容。

學以至用

多練習，多使用
編程是最容易得到的超能力。你還在等什麼？

相關文章

相關標籤/搜索

FSFA 讀書筆記

MySQL 讀書筆記

Nginx讀書筆記

爬蟲－反爬蟲

如何閱讀一本書

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<