Python第一個爬蟲項目

時間 2021-08-12

標籤 html python json 數組瀏覽器微信 markdown 編輯器 ide post 欄目 Python 简体版

原文原文鏈接

文章目錄

0x00 文章內容

爬蟲博客
簡單講解

PS：需安裝好Python開發環境，前提教程：Python3的安裝（Windows），此外，個人編輯器是pycharm，並且，須要學習一些簡單的python和HTML基礎。html

0x01 爬蟲博客

1. 爬取網頁元素

網頁跳轉：曠課小王子的博客園
打開網頁，右擊，選擇 檢查 （谷歌瀏覽器）/按 F12：
python

2. 完整代碼

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
from urllib import request
from pyquery import PyQuery as pq
import json

# 定義須要解析的url
url = 'https://www.cnblogs.com/kkxwz/default.html'

# 獲取每一個item信息並返回
def parse_item(i, e):
    doc = pq(e)
    title = doc('.postTitle2').text()
    titleLink = doc('.postTitle2').attr('href')
    postFoot = doc('.postfoot').text()
    summary = doc('.c_b_p_desc').text()
    result = {
        'title': title,
        'titleLink': titleLink,
        'postFoot': postFoot,
        'summary': summary
    }
    print(json.dumps(result))
    return result

# 獲取url的內容
with request.urlopen(url) as response:
    body = response.read()
    doc = pq(body)
    items = doc('#main>.post').map(parse_item)  #1.定義一個空數組，用於儲存提取的結果
    with open('kkblog.json', 'wt', encoding="utf-8") as f: # 2.將結果寫入JSON文件
        f.write(json.dumps(items, ensure_ascii=False))

3. 執行前準備工做

a. 須要先安裝pyQuery依賴（此步驟爲後補上，可忽略截圖顏色）
json

4. 執行結果

a. 執行，而後查看查看執行結果

b. 複製到Json數據在線解析界面查看（點擊跳轉在線解析Json數據）
數組

0x02 簡單講解

一、居然要爬取網站的內容，應該先清楚爬的是哪裏的，因此必需要知道URL。
二、而後，應該清楚網頁的內容結構，瞭解到什麼內容對應哪一個標籤，咱們能夠先寫好，或者把獲取URL內容的步驟完成再回來填充，最好是回頭再填充。
三、最後獲取URL的內容，分析咱們要爬取的標籤範圍，肯定是想獲取網頁裏面的哪些信息，而後再遍歷出來便可。瀏覽器

0xFF 總結