PS:需安裝好Python開發環境,前提教程:Python3的安裝(Windows),此外,個人編輯器是pycharm,並且,須要學習一些簡單的python和HTML基礎。html
0x01 爬蟲博客網頁跳轉:曠課小王子的博客園
打開網頁,右擊,選擇 檢查
(谷歌瀏覽器)/按 F12:python
#!/usr/bin/env python # -*- coding:utf-8 -*- from urllib import request from pyquery import PyQuery as pq import json # 定義須要解析的url url = 'https://www.cnblogs.com/kkxwz/default.html' # 獲取每一個item信息並返回 def parse_item(i, e): doc = pq(e) title = doc('.postTitle2').text() titleLink = doc('.postTitle2').attr('href') postFoot = doc('.postfoot').text() summary = doc('.c_b_p_desc').text() result = { 'title': title, 'titleLink': titleLink, 'postFoot': postFoot, 'summary': summary } print(json.dumps(result)) return result # 獲取url的內容 with request.urlopen(url) as response: body = response.read() doc = pq(body) items = doc('#main>.post').map(parse_item) #1.定義一個空數組,用於儲存提取的結果 with open('kkblog.json', 'wt', encoding="utf-8") as f: # 2.將結果寫入JSON文件 f.write(json.dumps(items, ensure_ascii=False))
a. 須要先安裝pyQuery依賴(此步驟爲後補上,可忽略截圖顏色)json
a. 執行,而後查看查看執行結果
b. 複製到Json數據在線解析界面查看(點擊跳轉在線解析Json數據)數組
一、居然要爬取網站的內容,應該先清楚爬的是哪裏的,因此必需要知道URL。
二、而後,應該清楚網頁的內容結構,瞭解到什麼內容對應哪一個標籤,咱們能夠先寫好,或者把獲取URL內容的步驟完成再回來填充,最好是回頭再填充。
三、最後獲取URL的內容,分析咱們要爬取的標籤範圍,肯定是想獲取網頁裏面的哪些信息,而後再遍歷出來便可。瀏覽器
做者簡介:邵奈一
全棧工程師、市場洞察者、專欄編輯
| 公衆號 | 微信 | 微博 | CSDN | 簡書 |微信
福利:
邵奈一的技術博客導航
邵奈一 原創不易,如轉載請標明出處。markdown