Python簡單爬蟲入門三

時間 2019-11-09

標籤 python 簡單爬蟲入門欄目 Python 简体版

原文原文鏈接

咱們繼續研究BeautifulSoup分類打印輸出

Python簡單爬蟲入門一

Python簡單爬蟲入門二

前兩部主要講述咱們如何用BeautifulSoup怎去抓取網頁信息以及獲取相應的圖片標題等信息，php

等於咱們已經只知道如何用工具去瀏覽和檢索內容，可是實現只有你知道抓取的是什麼，這時候html

咱們須要整理分類，給他們命名以及分類這樣打印出來別人一看就知道標題是什麼，內容是什麼python

#!usr/bin/env python
# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
import requests
import json

headers ={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36',
    # 'Cookie':'CNZZDATA1260535040=242528197-1478672438-null%7C1478672438',
}
url= 'http://www.beiwo.tv/index.php?s=vod-search-id-14-tid--area--year-$search_year-order-gold.html'

wb_data = requests.get(url,headers=headers)
soup = BeautifulSoup(wb_data.text,'lxml')
imgs = soup.select(" ul.img-list.clearfix > li > a > img ")
titles = soup.select(" ul.img-list.clearfix > li > h5 ")
yanyuans = soup.select(" ul.img-list.clearfix > li > p")
stars = soup.select(" p.star > em")

J_data = {}
count = 0
for title,img,yanyuan,star in zip(titles,imgs,yanyuans,stars):
    data = {
        "title":title.get_text(),
        "img":img.get("src"),
        "演員":list(yanyuan.stripped_strings),
        "評分":star.get_text(),
    }
    J_data[count] = data
    count += 1
    print(data)

with open("test.txt",'w') as f:
    f.write(json.dumps(J_data))

我就直接把完整代碼發出來一點點來講:mysql

首先仍是標準格式導入相應方法這裏我多加了json用來保存抓去的數據，就用來放入txt文件內sql

headers假裝瀏覽器頭文件簡寫方式，url是你抓去網頁的地址(如今不少網站都有反爬保護愈來愈難爬取信息)數據庫

requests請求網頁服務返回的數據wb_data給BeautifulSoup去解析用lxml格式json

抓去的信息以下titles標題imgs圖片yanyuans演員stars評分都加了s是由於返回的是抓去的每項所有相關信息以列表返回瀏覽器

J_data字典後面保存時的格式，count用來計數順便用來當字典的Key鍵值，zip的方法我簡單介紹以下：cookie

能夠把兩個列表同一位置的值一一對應以元組返回行成新列表的方法在這裏我是用他來分類輸出咱們抓去相應信息工具

最後用了經常使用的寫入方法with能夠不用寫文件close關閉，處理完它會收拾後面操做，來看效果以下:

這裏咱們整理全部想要的數據及分類，這樣打印出來相信給其它人看也知道是什麼，因爲評分與演員放在一個標籤下因此沒有演員名時會有點BUG

在來看看txt文檔內保存了什麼以下:

不少人說報錯亂碼什麼的，其實\u6f14就是中文只是用unicode的編碼的格式寫入文本若是你在反向讀取仍是能夠正常打印出來的（因爲文件太長無法截取）

咱們就在新建一個py文件簡單教一下如何讀取文件內容代碼以下：

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import json

with open('test.txt','r') as f:
    dic = json.loads(f.readline())
    
for i in range(len(dic)):
    print(dic[str(i)])