python爬蟲 (一) 爬蟲基礎瞭解,urllib

• URL的含義:網站

統一資源定位符,結構:url

URL的格式由三部分組成:
①第一部分是協議(或稱爲服務方式)。
②第二部分是存有該資源的主機IP地址(有時也包括端口號)。
③第三部分是主機資源的具體地址,如目錄和文件名等。資源

關於URL和URI的區別:https://www.zhihu.com/question/21950864io

• 環境的配置import

IDE的選擇。登錄

 

Φ urllib配置

 

import urllib.requestrequest

response=urllib.request.urlopen("http://www.baidu.com",data,8000);程序

print response.read()im

 

構造Request.

import urllib.request

request = urllib.Request("http://www.baidu.com")
response = urllib.urlopen(request)

print response.read()

 

ΦGET和POST

上面的程序演示了最基本的網頁抓取,不過,如今大多數網站都是動態網頁,須要你動態地傳遞參數給它,它作出對應的響應。因此,在訪問時,咱們須要傳遞數據給它。最多見的狀況是什麼?對了,就是登陸註冊的時候呀

相關文章
相關標籤/搜索