python-37: 模擬登陸

咱們經過前面的兩個實例講解了爬蟲的簡單應用,可是在不少網站中,你將會發現你寫的全部代碼都沒有用
由於你沒有登陸
登陸網站是一種很常見的行爲,就拿百度貼吧來講,你須要先登陸才能發貼回帖簽到什麼的,因此在不少的狀況下,登陸是爬取網頁的前提
我也試過用前面的代碼去爬取一個須要登陸的網站,結果大部分是返回登陸界面的網頁源碼,因此這就有必要在爬取網頁以前作模擬登陸的操做
模擬登陸這一部分相對來講難度要大不少,我也上網查了不少資料,可是不少的代碼要麼是年代過於久遠,要麼是網頁源碼重寫登陸機制已經改變,或者是各類須要驗證碼才能登錄的狀況,反正幾乎沒有可以運行成功的代碼,因此在這上面也耗費了不少時間,最主要的問題是找不到一個合適的網站,一段合適的代碼進行模擬登陸的實例分析,若是一開始就要面對複雜的驗證碼機制的話,難度會較大,並且本人是新手現學現賣,也不是很懂,因此仍是想着用一個按部就班的過程來慢慢學習。
在這期間我也加入了一些論壇,QQ羣等等,遇到好多跟我碰到相同問題的新手,也有好多樂於解答和幫忙的高手,可是最終發現,或者是我的的理解不相同,或者是技術層面不同,不多能獲得想要的答案,最終仍是要靠本身慢慢的摸索

如今把這個過程當中遇到的一些問題記錄一下
    1. 首先要具有必定的網頁基礎知識,包括cookies,post是什麼等等
    2. 弄清楚網站登陸的整個過程是怎麼樣的
    3. 怎麼使用瀏覽器或者使用工具分析登陸過程當中網頁和服務器進行了什麼數據交互
    4. 怎麼在代碼中模擬出網頁登陸的效果,包括須要什麼數據,這些數據怎麼找到等等
    
由於最近精力實在有限,不少的知識不能再慢慢的去看,爲了提升效率,如今將這一部分的思路整理以下:
    1. 網站登陸的流程是什麼
    2. cookies是什麼
        (實例:可否直接用現有的cookies實現登陸)
    3. 如何使用瀏覽器查看數據交互
        (實例:登陸公司的OA系統)
    4. 如何應對複雜的驗證碼機制
        (實例:找一個須要驗證碼登陸的網站)
        
如 果能順利的把這一部分作完,那麼爬蟲的基礎篇應該也就是這麼多了,接下來應該是學習另一些庫的使用,學習新的框架,多線程爬蟲,分佈式爬蟲等等,而後爬蟲就應該結束,轉到學習python創建網站,flask,djange框架等等,最後再作一些圖形化界面的學習,wxpython,pygtk,pyqt,而後再回事數據結構數據分析等等

還有很長的一段路要走,不知道能走到哪裏,盡力而爲!!!!
        


    
    

python

相關文章
相關標籤/搜索