爬蟲-Requests 使用入門

requests 的底層實現其實就是 urllib

json在線解析工具

----------------------------------------------html

Linux alias命令用於設置指令的別名。     json

home目錄中~/.bashrc 這個文件主要保存我的的一些個性化設置,如命令別名、路徑等。bash

注意:1,寫絕對路徑服務器

   2,有空格cookie

改好後使用source ~/.bashrc 使用文件生效session

------------------------------------------------工具

assert response.status_code==200

assert response.status_code==200

raise異常

raise 引起一個異常

例子:若是輸入的數據不是整數,則引起一個ValueError

inputValue=input("please input a int data :")
if type(inputValue)!=type(1):
    raise ValueError
else:
    print inputValue
假設輸入1.2,運行結果爲:

please input a int data :1.2
Traceback (most recent call last):
File "C:/Users/lirong/PycharmProjects/untitled/openfile.py", line 3, in <module>
raise ValueError
ValueError

若是輸入1,運行結果爲:

please input a int data :1

url編碼

https://www.baidu.com/s?wd=%E4%BC%A0%E6%99%BA%E6%92%AD%E5%AE%A2

字符串格式化的另外一種方式

"傳{}智播客".format(1)

使用代理ip

  代理IP百度有不少,推薦使用高匿IPpost

用法:requests.get("http://www.baidu.com", proxies = proxies)
proxies的形式:字典
proxies = { 
    "http": "http://12.34.56.79:9527", 
    "https": "https://12.34.56.79:9527", 
    }

 

問題:爲何爬蟲須要使用代理?

  讓服務器覺得不是同一個客戶端在請求

  防止咱們的真實地址被泄露,防止被追究
  • 準備一堆的ip地址,組成ip池,隨機選擇一個ip來時用網站

  • 如何隨機選擇代理ip,讓使用次數較少的ip地址有更大的可能性被用到編碼

    • {"ip":ip,"times":0}

    • [{},{},{},{},{}],對這個ip的列表進行排序,按照使用次數進行排序

    • 選擇使用次數較少的10個ip,從中隨機選擇一個

  • 檢查ip的可用性

    • 可使用requests添加超時參數,判斷ip地址的質量

    • 在線代理ip質量檢測的網站

攜帶cookie請求

  • 攜帶一堆cookie進行請求,把cookie組成cookie池

使用requests提供的session類來請求登錄以後的網站的思路

requests 提供了一個叫作session類,來實現客戶端和服務端的會話保持

         使用方法:
1    實例化一個session對象
2    讓session發送get或者post請求

    session = requests.session()
    response = session.get(url,headers)

 

  • 實例化session

  • 先使用session發送請求,登陸對網站,把cookie保存在session中

  • 再使用session請求登錄以後才能訪問的網站,session可以自動的攜帶登陸成功時保存在其中的cookie,進行請求

不發送post請求,使用cookie獲取登陸後的頁面

  • cookie過時時間很長的網站

  • 在cookie過時以前可以拿到全部的數據,比較麻煩

  • 配合其餘程序一塊兒使用,其餘程序專門獲取cookie,當前程序專門請求頁面

字典推導式,列表推導式

cookies="anonymid=j3jxk555-nrn0wh; _r01_=1; _ga=GA1.2.1274811859.1497951251; 
_de=BF09EE3A28DED52E6B65F6A4705D973F1383380866D39FF5; ln_uact=mr_mao_hacker@163.com; depovince=BJ;
jebecookies=54f5d0fd-9299-4bb4-801c-eefa4fd3012b|||||; JSESSIONID=abcI6TfWH4N4t_aWJnvdw;
ick_login=4be198ce-1f9c-4eab-971d-48abfda70a50; p=0cbee3304bce1ede82a56e901916d0949; first_login_flag=1;
ln_hurl=http://hdn.xnimg.cn/photos/hdn421/20171230/1635/main_JQzq_ae7b0000a8791986.jpg;
t=79bdd322e760beae79c0b511b8c92a6b9; societyguester=79bdd322e760beae79c0b511b8c92a6b9;
id=327550029; xnsid=2ac9a5d8; loginfrom=syshome; ch_id=10016; wp_fold=0
" cookies = {i.split("=")[0]:i.split("=")[1] for i in cookies.split("; ")}
[self.url_temp.format(i * 50) for i in range(1000)]

獲取登陸後的頁面的三種方式

  • 實例化session,使用session發送post請求,在使用他獲取登錄後的頁面

import requests

session = request.session()
post_url = ""
post_data = {"email":"xx@163.com","password":"xxx"}
headers = {
    ...}
# 使用session發送post請求,cookie保存在其中
session.post(post_url,data=post_data,headers=headers)
#在使用session進行請求登錄以後才能訪問的地址
r = session.get("http://www.renren.com/327550029/profile",headers=headers)

#保存頁面
with open("renren1.html","w",encoding="utf-8") as f:
    f.write(r.content.decode())

 

  • headers中添加cookie鍵,值爲cookie字符串

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36",
    "Cookie":...
}
r = requests.get("http://www.renren.com/327550029/profile",headers=headers)

#保存頁面
with open("renren2.html","w",encoding="utf-8") as f:
    f.write(r.content.decode())

 

  • 在請求方法中添加cookies參數,接收字典形式的cookie。字典形式的cookie中的鍵是cookie的name對應的值,值是cookie的value對應的值

 

# coding=utf-8
import requests

headers = {...,}

cookies="anonymid=j3jxk555-nrn0wh; ..."
cookies = {i.split("=")[0]:i.split("=")[1] for i in cookies.split("; ")}
print(cookies)

r=requests.get("http://...",headers=headers,cookies=cookies)

#保存頁面
with open("renren3.html","w",encoding="utf-8") as f:
    f.write(r.content.decode())

-------------------------------------------

response = requests.url(...)

response.encoding  # 查看編碼

response.encoding = 'utf-8' # 指定編碼

response.content.decode() # 將二進制的獲取網頁數據返回到本地進行解碼 另兩種方法 response.content.decode('gbk')  response.text

相關文章
相關標籤/搜索