python簡單應用!用爬蟲來採集天貓全部優惠券信息,寫入本地文件

今天給你們分享一個小網站的數據採集,並寫到excel裏面!python

python簡單應用!用爬蟲來採集天貓全部優惠券信息,寫入本地文件 

分析網站

目標網站是「小咪購」,這裏有天貓全部的含有購物券的商品信息,咱們今天就來抓它吧!ajax

python簡單應用!用爬蟲來採集天貓全部優惠券信息,寫入本地文件 

隨便找一段文字,而後點擊右鍵查看網頁源代碼,看看是否存在該文字,若是存在,那麼這個網頁就是靜態網站了!很幸運,這個網站竟然是靜態的。json

python簡單應用!用爬蟲來採集天貓全部優惠券信息,寫入本地文件 

那就簡單了,不須要去分析ajax加載數據或者找json包了,直接獲取網頁源代碼==>>匹配相關內容==>>保存數據便可!多線程

python簡單應用!用爬蟲來採集天貓全部優惠券信息,寫入本地文件 

工具和庫

Windows+python3.6app

import randomdom

import time函數

import requests工具

from lxml import etree網站

import xlwt線程

用這幾個庫就能夠搞定了!注意xlwt和xlrd這2個庫都是操做excel的,一個是保存數據,一個是讀取數據,不要搞混了。

python簡單應用!用爬蟲來採集天貓全部優惠券信息,寫入本地文件 

開始寫代碼

首先寫一個函數,將全部的爬蟲工做寫到函數裏,以下圖

python簡單應用!用爬蟲來採集天貓全部優惠券信息,寫入本地文件
 這個網站須要寫上headers,不寫是抓不到數據的!新建一個列表,將爬到的相關數據寫入列表,它的形式大概是這樣的:【【產品信息A1,2,3……】,【產品信息B1,2,3……】……】,這麼寫列表是由於咱們最後要將他們寫如excel表格,那麼列表中的每個元素(仍是列表形式)都是一行數據,方便寫入!

注意第33行,列表構成的時候,用+鏈接會將全部列表中的元素放入一個列表,好比:【1,2,3】+【4,5】=【1,2,3,4,5】,而用append()函數則會將後面的內容做爲一個元素加入列表中,好比:[1,2,3].append([4,5])=[1,2,3,[4,5]]

下來就是寫入excel了,首先是新建excel表格,並寫入第一行數據

python簡單應用!用爬蟲來採集天貓全部優惠券信息,寫入本地文件 

後面的數據,依次按格式寫入並最後用wb.save(路徑)的方式保存便可!完整代碼及效果以下

python簡單應用!用爬蟲來採集天貓全部優惠券信息,寫入本地文件 
python簡單應用!用爬蟲來採集天貓全部優惠券信息,寫入本地文件 

因爲網站更新的很快(官方說是10分鐘。。。),因此也沒有抓取那麼多,全部的頁面有大約600多頁,一頁100條信息,也就是說一共有6萬多條商品信息,若是不用多線程的話會很慢!

python簡單應用!用爬蟲來採集天貓全部優惠券信息,寫入本地文件 

代碼在上傳的過程當中會有壓縮,若是實在看不清楚的話,你們能夠私信我獲取源碼!

相關文章
相關標籤/搜索