python 小紅書的圖片爬蟲下載到本地無水印

時間 2019-12-01

標籤 python 圖片爬蟲下載本地水印欄目 Python 简体版

原文原文鏈接

搭建python環境 window

下載Python www.python.org/downloads/w…html
下載包管理工具 pip pypi.org/project/pip… (Python 2.7.9 + 或 Python 3.4+ 以上版本都自帶 pip 工具。)python
配置環境變量如圖注意要配置python的Script目錄才能夠在控制檯使用pipgit

開始碼代碼

使用pip下載包 pip install ...github
- urllib
- requests
首先要獲取html頁面信息web
- 使用Urllib 模塊提供了讀取web頁面數據的接口，咱們能夠像讀取本地文件同樣讀取www和ftp上的數據。正則表達式
```
def getHtml(url):
    page=urllib.urlopen(url)
    html=page.read()
    return html
複製代碼
```

獲取圖片下載到本地windows

首先打開頁面的開發者模式查看元素找出要抓取的信息根據信息寫正則表達式微信

def getImg(html)
    reg = r'style="background-image:url\((\/\/.+?)\)\;"'  
    imgre = re.compile(reg)
    #讀取html中符合咱們正則表達式的數據
    imglist = re.findall(imgre,html)
複製代碼

循環訪問圖片地址保存到本地app

def getImg(html)
    x= 0
    for imgurl in imglist:
        try:
            pic = requests.get("http:" + imgurl, timeout=10)
        except requests.exceptions.ConnectionError:
            print('error！！')
            continue
        dir = '../images/'+ str(x) + '.jpg'
        fp = open(dir, 'wb')
        fp.write(pic.content)
        fp.close()
        x += 1
複製代碼

最終代碼工具

#coding=utf-8
import re
import urllib
import requests

#獲取頁面信息
def getHtml(url):
    #Urllib 模塊提供了讀取web頁面數據的接口，咱們能夠像讀取本地文件同樣讀取www和ftp上的數據。
    page=urllib.urlopen(url)
    html=page.read()
    return html

#獲取圖片並下載
def getImg(html):
    #正則篩選信息 下面的正則是根據小紅書本身定義的 若是要抓取其餘的 要自行根據規則修改
    reg = r'style="background-image:url\((\/\/.+?)\)\;"'  
    imgre = re.compile(reg)
    #讀取html中符合咱們正則表達式的數據
    imglist = re.findall(imgre,html)
    print imglist
    #循環訪問圖片地址保存到本地
    x= 0
    for imgurl in imglist:
    
        try:
            pic = requests.get("http:" + imgurl, timeout=10)

        except requests.exceptions.ConnectionError:
            print('error！！')
            continue
        dir = '../images/'+ str(x) + '.jpg'
        fp = open(dir, 'wb')
        fp.write(pic.content)
        fp.close()
        x += 1

    if len(imglist) > 0 :
        print ('download success!!')
    else :
        print ('Error!! refresh your web url!!')
    
# 例如輸入=》"https://www.xiaohongshu.com/discovery/item/592eb73114de411fb5c7a6b0?appinstall=0" 記住輸入時要帶雙引號
url = input('Input url:')

html = getHtml(url)  

getImg(html)
複製代碼