武漢新冠肺炎疫情信息爬取

武漢新冠肺炎疫情信息爬取

身處疫情中心,在家無聊寫了個小程序,天天自動抓取武漢衛健委公佈的武漢地區的最新具體數據。html

獲取網站上的公佈的數據後,自動轉發到個人郵箱。git

 

代碼模塊

  • main.py :利用requests_html庫,進行網站爬蟲抓取疫情數據的邏輯
  • mymail.py:郵箱功能的實現,將郵件重新浪郵箱轉發到QQ郵箱
  • anslyse.py:分析data.txt內的每日疫情數據,利用plt展示每日變化結果

 

踩坑

  • session對象的屬性linksabsolute_links 返回的是集合set,即便轉成list也是無序的github

    所以從html源文件中讀取到第 k 條新聞title與links[k]並不一一對應web

  • 解決方法:正則表達式

    • [x] 使用正規式解析新聞列表元素
    • [ ] 嘗試打開全部連接,檢查新的頁面是不是疫情信息發佈頁面
  • 騰訊雲服務器上沒法運行以上代碼,報錯信息:ImportError: cannot import name ‘Coroutine’小程序

    具體在 from typing import Coroutine 緣由不明api

  • 解決方法:服務器

    • [ ] 改用requests庫

 

結果展現

郵件列表
自動接收的郵件列表session

收穫

  • 可以使用Python編寫簡單的爬蟲程序,抓取想要的信息
  • 簡單實踐了Python發送郵件
  • 熟悉了正則表達式的使用,根據須要分離有效數據
  • 優化代碼過程當中,熟悉了map、zip等操做,簡短的代碼體現出了Python語言的優雅簡潔之美

 

具體代碼見個人github項目優化

 

(完)

相關文章
相關標籤/搜索