Python爬蟲 requests庫基礎

時間 2020-04-17

標籤 python 爬蟲 requests 基礎欄目 Python 简体版

原文原文鏈接

requests庫簡介html

requests是使用Apache2 licensed 許可證的HTTP庫。python

用python編寫。數據庫

比urllib2模塊更簡潔。瀏覽器

Request支持HTTP鏈接保持和鏈接池，支持使用cookie保持會話，支持文件上傳，支持自動響應內容的編碼，支持國際化的URL和POST數據自動編碼。cookie

在python內置模塊的基礎上進行了高度的封裝，從而使得python進行網絡請求時，變得人性化，使用Requests能夠垂手可得的完成瀏覽器可有的任何操做。網絡

現代，國際化，友好。編碼

requests會自動實現持久鏈接keep-aliveurl

requests庫安裝spa

pip install requests

第一個爬蟲程序：爬取搜狗首頁的頁面數據code

import requests
def main():
    #一、指定url
    url='https://www.sogou.com/'
    #二、發起get請求，會返回一個相應對象
    response=requests.get(url=url)
    #三、獲取響應數據，調用響應對象的text屬性，可獲取頁面源碼數據
    page_text=response.text
    print(page_text)
    #四、進行持久化存儲，這裏是寫入文件，也能夠存入數據庫
    with open('./sogou.html','w',encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬蟲結束！')
if __name__=='__main__':
    main()