爬蟲崗位不多,我總共也就面過五六家,其中某金融互聯網公司技術最好,雖然他們的爬蟲人員也是後來轉的 java
問題一:若是鏈接斷了怎麼辦? 算法
什麼鏈接呢,猜是tcp 鏈接吧,tcp鏈接不是時時聯通的,只有http或者其餘應用協議須要的時候纔會有鏈接,固然也有隧道等特殊狀況 服務器
實際工程中,鏈接的創建都是引用的模塊,無需本身寫程序控制。 負載均衡
問題二:服務器發現你用代理怎麼辦? tcp
服務器能夠發現客戶端用代理嗎,這要看代理的種類,若是是匿名代理則發現不來 分佈式
問題三:服務器返回假數據怎麼辦? 大數據
這種狀況或許有,但沒遇到過,首先服務器能夠有百分之百的肯定你是爬蟲程序,纔會有這樣的狀況,這點幾乎沒法作到。若是我就是模擬用戶行爲慢慢採集呢。 加密
問題四:分佈式 代理
不少招聘高大上,須要分佈式爬蟲經驗,分佈式也分不少種,像不帶負載均衡的分佈式很容易實現,加上負載均衡也不難,關鍵你得肯定任務的粒度,一個採集任務的範圍 。 開發
不少場景只是須要好的任務管理加上分佈式負載均衡即可以
問題五:爬蟲作好了不是就能夠了嗎
不須要維護嗎,雙十一某電商兩小時更新一次加密算法
問題六:爬蟲崗位不多,作爬蟲的很難找到工做
誰說我只會作爬蟲, 遇到不少有經驗的爬蟲工程師逐漸不作爬蟲了,不少吐糟企業的短視。
最後,爬蟲工程師成本高,若是沒有長期信息採集需求,不建議設置此崗位,通常信息採集利用開源程序便可
或者外包出去。
雖然大數據帶動爬蟲崗位很火,但相對於java開發,爬蟲的崗位能夠忽略不計。
愛好能夠空餘作作。