python 爬蟲筆記

時間 2019-12-05

標籤 python 爬蟲筆記欄目 Python 简体版

原文原文鏈接

爬蟲大網站獲取部分網頁信息瀏覽器

一、F12進入開發者模式二、點擊Network，再點擊XHR 三、點擊下圖左上角兩個紅框中圖標，一個暫停，一個清空四、點擊一個網址，查看Response，是不是須要的數據，若是是，查看Headers，General中的Request URL即爲須要請求的網址。服務器

一、兩個比較好的學習視頻網絡

Python零基礎：Scrapy爬蟲--免費

Python網絡爬蟲與信息提取嵩天北京理工大學

beautiful soup 庫是解析、遍歷、維護‘標籤數'的功能庫

HTTP, Hypertext Transfer Protocol,超文本傳輸協議

HTTP是一個基於‘請求與響應’模式的、無狀態的應用層協議，http協議採用URL做爲定位網絡資源的標識，URL格式以下：

http://host[:port][path]

host:合法的internet主機域名或ip地址

port：端口號，缺省端口爲80

path：請求資源路徑

在瀏覽器中好像能夠不用輸入端口號，端口號是與ip地址一塊兒使用的

例如：www.baidu.com

cmd 中 ping baidu.com 獲得baidu.com ip 123.125.114.144

能夠再瀏覽器中輸入 123.125.114.144 或者 123.125.114.144:80 獲得都是百度主頁，後面80就是默認端口號，輸不輸入均可

TCP協議面對面溝通、交流好比QQ軟件 A 與 B交流，A把信息發送到QQ服務器，QQ服務器把信息發送給B,反過來也同樣。

UDP協議廣播（一我的說，其餘人聽）好比上計算機課的時候，老師控制咱們的電腦屏幕

網絡通訊的工做原理

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。