Python爬蟲 requests庫基礎

requests庫簡介html

requests是使用Apache2 licensed 許可證的HTTP庫。python

用python編寫。數據庫

比urllib2模塊更簡潔。瀏覽器

Request支持HTTP鏈接保持和鏈接池,支持使用cookie保持會話,支持文件上傳,支持自動響應內容的編碼,支持國際化的URL和POST數據自動編碼。cookie

在python內置模塊的基礎上進行了高度的封裝,從而使得python進行網絡請求時,變得人性化,使用Requests能夠垂手可得的完成瀏覽器可有的任何操做。網絡

現代,國際化,友好。編碼

requests會自動實現持久鏈接keep-aliveurl

requests庫安裝spa

pip install requests

第一個爬蟲程序:爬取搜狗首頁的頁面數據code

import requests
def main():
    #一、指定url
    url='https://www.sogou.com/'
    #二、發起get請求,會返回一個相應對象
    response=requests.get(url=url)
    #三、獲取響應數據,調用響應對象的text屬性,可獲取頁面源碼數據
    page_text=response.text
    print(page_text)
    #四、進行持久化存儲,這裏是寫入文件,也能夠存入數據庫
    with open('./sogou.html','w',encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬蟲結束!')
if __name__=='__main__':
    main()

這樣就能夠自動獲取到搜狗首頁的數據了,下面是部分截圖

相關文章
相關標籤/搜索