非計算機專業小白自學爬蟲全指南（附資源）

時間 2019-11-06

標籤計算機專業自學爬蟲指南資源欄目網絡爬蟲简体版

原文原文鏈接

爬蟲是我接觸計算機編程的入門。哥當年寫第一行代碼的時候別提有多痛苦。javascript

本文旨在用一篇文章說透爬蟲如何自學能夠達到找工做的要求。css

爬蟲的學習就是跟着實際項目去學，每一個項目會涉及到不一樣的知識點，項目作多了，天然也就會了。練練練！！！！html

本文推薦的資源就是以項目練習帶動爬蟲學習，囊括了大部分爬蟲工程師要求的知識點。前端

爬蟲工程師要求知識點java

一、python入門和進階（進階的包括多進程等等）python

二、HTTP知識（由於要爬的是網頁，因此要了解網頁）mysql

二、web前端：HTML、CSS、Javascript等web

三、爬蟲知識（爬蟲基本庫的使用、scrapy框架等）算法

四、反爬蟲（代理池、分佈式等等）sql

五、數據庫（大批量數據的儲存涉及mysql等）

先導知識

HTTP協議：https://www.cnblogs.com/ranyo...

html，css，javascript：學爬蟲這些東西是確定要看的，推薦W3school，倒也不用全看，懂個大概就行了

最佳學習資源推薦

前期教程：https://cuiqingcai.com/1052.html（現今網上最全的爬蟲學習教程）

目錄列表：

可是，只學完上面是不夠找工做的，因此我整理了下面的資料，是我花了幾個月時間自學，精選來的教程，重中之重。包含知識點：IP代理、mongoDB、mysql、抓包、分佈式、selenium、模擬登錄、cookie等等

爬蟲實戰項目一，涉及知識點：mysql儲存、斷點續爬、抓包app、ip代理、cookie模擬登錄

一、https://zhuanlan.zhihu.com/p/...

二、https://zhuanlan.zhihu.com/p/...

三、https://www.cnblogs.com/hearz...

四、https://www.jianshu.com/p/887...

爬蟲實戰項目二，涉及知識點：scrapy具體應用

scrapy知識點：https://www.cnblogs.com/cnkai...

scrapy中文文檔：https://scrapy-chs.readthedoc...

scrapy項目實戰：https://www.cnblogs.com/cnkai...

補充：https://segmentfault.com/a/11...

爬蟲實戰項目三，涉及知識點：去重、分佈式、多進程、模擬登錄

一、https://cuiqingcai.com/4352.html

數據庫，掌握基本用法便可

mysql：http://www.runoob.com/mysql/m...

mongodb：http://www.runoob.com/mongodb...

找工做必備

計算機基礎，包含（數據結構與算法、計算機網絡協議等計算機專業基本課程、我前面的文章裏有介紹怎麼學），非計算機專業學生容易忽略

其餘技能（可選，加分）

javascript，驗證碼，app破解

一、要想破解加密，得很是強悍的javascript基礎，這個我也不是很懂

二、驗證碼，工業界目前破解驗證碼仍是用打碼平臺

三、如今不單單是網站破解了，不少公司須要你抓app的數據，抓包最經常使用，你還得會app脫殼之類的，這些我就不懂了。

拓展閱讀：

一文了解爬蟲與反爬蟲

https://segmentfault.com/a/11...

最後，請注意，爬蟲的工做機會相對較少。

討論學習，文章發佈，公衆號：learningthem

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。