【數量技術宅 | Python爬蟲系列分享】實時監控股市重大公告的Python爬蟲

實時監控股市重大公告的Python爬蟲小技巧

  • 精力有限的咱們,如何更加有效率地監控信息?

不少時候特別是交易時,咱們須要想辦法監控一些信息,好比股市的公告。若是現有的軟件沒有辦法實現咱們的需求,那麼就要靠咱們本身動手,才能豐衣足食。python

你在交易看盤時,若是有一個小窗口,平時默默的不聲不響,可是若是有公告發布,就會顯示公告的信息:這是什麼公告,而後給咱們公告的連接。這樣,既不會像彈窗那樣用信息轟炸咱們,又可以定製咱們本身想要的內容,作到想看就看,想不看就不看,那就很方便了。json

爬蟲抓取的是東方財富上的上市公司公告,上市公司公告有些會在盤中公佈。實時監控的原理,其實就是程序代替人工,按期地去刷新網頁,而後用刷新先後獲得的數據進行比對,若是同樣,那麼等待下一個週期繼續刷新,若是不同,那麼就把增量信息提取出來,供咱們查閱。python爬蟲

  • 利用python爬蟲實時監控公告信息四部曲

第一步,導入隨機請求頭和須要的包網站

咱們使用json來解析獲取的信息,使用什麼方法解析數據取決於咱們請求數據的返回形式,這裏使用json最方便,咱們就導入json包。url

第二步,獲取初始的公告數據spa

咱們發現,每個公告都有一個獨有的文章號碼:art_code,所以咱們以這個號碼做爲新舊比較的基準,若是新頁面的頭一個公告的art_code和已有的一致,那麼就進入下一個刷新週期,若是不一致,那麼說明頁面已經更新過了,咱們提取最新的報告,同時更新這個art_code,用於下一次比對。code

  1. 原始url的獲取。獲取以後,經過json解析其中的內容,獲得art_code,覆蓋寫入在tmp.txt文件中,用於比對。blog

  2. 讀取了tmp.txt文件中的art_code,跟頁面解析的art_code比對。接口

第三步,獲取公告標題和文章連接it

  1. 經過json咱們基本上已經可以解析出大部分的數據內容。

  2. 經過觀察網站的公告連接的特色,咱們發現主要的差異就是在art_code,所以經過網址連接的拼接,咱們就可以獲得公告的pdf連接。

第四步,運行咱們的程序

程序運行的結果會打印到窗口當中,每當有新的公告發布,程序上就會出現一串新的信息。

  • 最後

自此,咱們經過程序把咱們要的信息打印到了程序的運行窗口,同時,咱們的程序也能夠根據咱們需求進行強化和擴充。首先,這些信息也能夠很是方便的經過接口發送到郵箱、釘釘等平臺,起到實時提醒的做用,其次,咱們也能夠從不一樣的地方抓取信息,完成所需信息的自定義整合,這些將在咱們後續的文章中提到。

相關文章
相關標籤/搜索