Python第一個爬蟲項目

0x00 文章內容
  1. 爬蟲博客
  2. 簡單講解

PS:需安裝好Python開發環境,前提教程:Python3的安裝(Windows),此外,個人編輯器是pycharm,並且,須要學習一些簡單的python和HTML基礎。html

0x01 爬蟲博客
1. 爬取網頁元素

網頁跳轉:曠課小王子的博客園
打開網頁,右擊,選擇 檢查 (谷歌瀏覽器)/按 F12
在這裏插入圖片描述python

2. 完整代碼
#!/usr/bin/env python 
# -*- coding:utf-8 -*-
from urllib import request
from pyquery import PyQuery as pq
import json

# 定義須要解析的url
url = 'https://www.cnblogs.com/kkxwz/default.html'

# 獲取每一個item信息並返回
def parse_item(i, e):
    doc = pq(e)
    title = doc('.postTitle2').text()
    titleLink = doc('.postTitle2').attr('href')
    postFoot = doc('.postfoot').text()
    summary = doc('.c_b_p_desc').text()
    result = {
        'title': title,
        'titleLink': titleLink,
        'postFoot': postFoot,
        'summary': summary
    }
    print(json.dumps(result))
    return result

# 獲取url的內容
with request.urlopen(url) as response:
    body = response.read()
    doc = pq(body)
    items = doc('#main>.post').map(parse_item)  #1.定義一個空數組,用於儲存提取的結果
    with open('kkblog.json', 'wt', encoding="utf-8") as f: # 2.將結果寫入JSON文件
        f.write(json.dumps(items, ensure_ascii=False))
3. 執行前準備工做

a. 須要先安裝pyQuery依賴(此步驟爲後補上,可忽略截圖顏色)
在這裏插入圖片描述json

4. 執行結果

a. 執行,而後查看查看執行結果
在這裏插入圖片描述
b. 複製到Json數據在線解析界面查看(點擊跳轉在線解析Json數據
在這裏插入圖片描述數組

0x02 簡單講解

一、居然要爬取網站的內容,應該先清楚爬的是哪裏的,因此必需要知道URL。
二、而後,應該清楚網頁的內容結構,瞭解到什麼內容對應哪一個標籤,咱們能夠先寫好,或者把獲取URL內容的步驟完成再回來填充,最好是回頭再填充。
三、最後獲取URL的內容,分析咱們要爬取的標籤範圍,肯定是想獲取網頁裏面的哪些信息,而後再遍歷出來便可。瀏覽器

0xFF 總結
  1. 入門級別案例,爬蟲界的HelloWorld,仍是單頁面版本的,後期會進行升級。

做者簡介:邵奈一
全棧工程師、市場洞察者、專欄編輯
| 公衆號 | 微信 | 微博 | CSDN | 簡書 |微信

福利:
邵奈一的技術博客導航
邵奈一 原創不易,如轉載請標明出處。markdown

相關文章
相關標籤/搜索