#037學習Python爬蟲爬取博客園做業

時間 2019-12-05

標籤學習 python 爬蟲博客欄目 Python 简体版

原文原文鏈接

#037學習Python爬蟲爬取博客園做業

爬蟲 python 程序設計 2019/5/7

今日學習內容（只列出關鍵詞）

python函數

傳參調用
實參，形參
元組
打包拆包 ....

python文件使用

大象裝進冰箱分三步html
1. open（）
2. write（）
3. close（）
複習爬蟲python
json文件存儲數據編程

爬取做業提交信息

引用信息
Python語言程序設計2018秋學期助教馬孟林同窗的博客json

須要爬取的內容

做業鏈接
網絡

爬取過程

第一步找html源碼

爬取以後咱們發現html中沒有任何須要的信息
app

經過老師課堂上的講解數據可能放置在json文件中編程語言

JSON(JavaScript Object Notation, JS 對象簡譜) 是一種輕量級的數據交換格式。它基於 ECMAScript
(歐洲計算機協會制定的js規範)的一個子集，採用徹底獨立於編程語言的文本格式來存儲和表示數據。簡潔和清晰的層次結構使得 JSON
成爲理想的數據交換語言。易於人閱讀和編寫，同時也易於機器解析和生成，並有效地提高網絡傳輸效率。函數

孟林馬學長是這麼找出來的

第二步找json文件

F12打開火狐或者谷歌的調試工具
找到network的XHR從新刷新就能找到請求的json文件

有三個文件，通常藏在最大的文件裏實在不行一個一個試試也能夠
找到請求頭就知道數據存放文件地址了

直接訪問該地址就能拿到數據信息了

知道文件在哪裏了按照前幾節課所講解的爬取html的方法便可爬到數據並保存在本地文件中工具

第三步直接開爬

代碼以下不作過多解釋學習

import requests
url = 'https://edu.cnblogs.com/Homework/GetAnswers?homeworkId=3103&_=1557235742010'
try:
    r = requests.get(url,timeout=20)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
except:
    print('網絡異常或頁面未找到，請重試')
f=open('homework.txt','w')
f.write(r.text)
f.close()