爬蟲 大網站獲取部分網頁信息瀏覽器
一、F12進入開發者模式 二、點擊Network,再點擊XHR 三、點擊下圖左上角兩個紅框中圖標,一個暫停,一個清空 四、點擊一個網址,查看Response,是不是須要的數據,若是是,查看Headers,General中的Request URL即爲須要請求的網址。服務器
一、兩個比較好的學習視頻網絡
Python零基礎:Scrapy爬蟲--免費
Python網絡爬蟲與信息提取 嵩天 北京理工大學
beautiful soup 庫是解析、遍歷、維護‘標籤數'的功能庫
HTTP, Hypertext Transfer Protocol,超文本傳輸協議
HTTP是一個基於‘請求與響應’模式的、無狀態的應用層協議,http協議採用URL做爲定位網絡資源的標識,URL格式以下:
http://host[:port][path]
host:合法的internet主機域名或ip地址
port:端口號,缺省端口爲80
path:請求資源路徑
在瀏覽器中好像能夠不用輸入端口號,端口號是與ip地址一塊兒使用的
例如:www.baidu.com
cmd 中 ping baidu.com 獲得baidu.com ip 123.125.114.144
能夠再瀏覽器中輸入 123.125.114.144 或者 123.125.114.144:80 獲得都是百度主頁,後面80就是默認端口號,輸不輸入均可
TCP協議 面對面溝通、交流 好比QQ軟件 A 與 B交流,A把信息發送到QQ服務器,QQ服務器把信息發送給B,反過來也同樣。
UDP協議 廣播 (一我的說,其餘人聽) 好比上計算機課的時候,老師控制咱們的電腦屏幕
網絡通訊的工做原理