#037學習Python爬蟲爬取博客園做業

#037學習Python爬蟲爬取博客園做業

  1. 爬取做業提交信息
  2. 須要爬取的內容
  3. 爬取過程
    1. 第一步找html源碼
    2. 第二步找json文件
    3. 第三步直接開爬
  4. json解析
    1. 目前先學習到這裏留到下節課,繼續學習
    2. 在這裏應該感謝下,馬孟林老學長,能直接從他的博客裏,找到課堂配套的博客

今日學習內容(只列出關鍵詞)

python函數

  1. 傳參調用
  2. 實參,形參
  3. 元組
  4. 打包拆包 ....

python文件使用

  • 大象裝進冰箱分三步html

    1. open()
    2. write()
    3. close()
  • 複習爬蟲python

  • json文件存儲數據編程

爬取做業提交信息

引用信息
Python語言程序設計2018秋學期助教馬孟林同窗的博客json

須要爬取的內容

做業鏈接
爬取做業內容網絡

爬取過程

第一步找html源碼

爬取以後咱們發現html中沒有任何須要的信息
搜索第一名同窗的學號app

經過老師課堂上的講解數據可能放置在json文件中編程語言

JSON(JavaScript Object Notation, JS 對象簡譜) 是一種輕量級的數據交換格式。它基於 ECMAScript
(歐洲計算機協會制定的js規範)的一個子集,採用徹底獨立於編程語言的文本格式來存儲和表示數據。簡潔和清晰的層次結構使得 JSON
成爲理想的數據交換語言。 易於人閱讀和編寫,同時也易於機器解析和生成,並有效地提高網絡傳輸效率。函數

 

孟林馬學長是這麼找出來的
孟林馬學長是這麼找出來的

 

第二步找json文件

F12打開火狐或者谷歌的調試工具
找到network的XHR從新刷新就能找到請求的json文件
json文件
有三個文件,通常藏在最大的文件裏實在不行一個一個試試也能夠
找到請求頭就知道數據存放文件地址了
找到請求頭
直接訪問該地址就能拿到數據信息了
數據存放代碼
知道文件在哪裏了按照前幾節課所講解的爬取html的方法便可爬到數據並保存在本地文件中工具

第三步直接開爬

代碼以下不作過多解釋學習

import requests
url = 'https://edu.cnblogs.com/Homework/GetAnswers?homeworkId=3103&_=1557235742010'
try:
    r = requests.get(url,timeout=20)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
except:
    print('網絡異常或頁面未找到,請重試')
f=open('homework.txt','w')
f.write(r.text)
f.close()

 

效果以下
效果以下

 

json解析

目前先學習到這裏留到下節課,繼續學習

在這裏應該感謝下,馬孟林老學長,能直接從他的博客裏,找到課堂配套的博客

相關文章
相關標籤/搜索