不少時候特別是交易時,咱們須要想辦法監控一些信息,好比股市的公告。若是現有的軟件沒有辦法實現咱們的需求,那麼就要靠咱們本身動手,才能豐衣足食。python
json
爬蟲抓取的是東方財富上的上市公司公告,上市公司公告有些會在盤中公佈。實時監控的原理,其實就是程序代替人工,按期地去刷新網頁,而後用刷新先後獲得的數據進行比對,若是同樣,那麼等待下一個週期繼續刷新,若是不同,那麼就把增量信息提取出來,供咱們查閱。python爬蟲
第一步,導入隨機請求頭和須要的包網站
咱們使用json來解析獲取的信息,使用什麼方法解析數據取決於咱們請求數據的返回形式,這裏使用json最方便,咱們就導入json包。url
第二步,獲取初始的公告數據spa
咱們發現,每個公告都有一個獨有的文章號碼:art_code,所以咱們以這個號碼做爲新舊比較的基準,若是新頁面的頭一個公告的art_code和已有的一致,那麼就進入下一個刷新週期,若是不一致,那麼說明頁面已經更新過了,咱們提取最新的報告,同時更新這個art_code,用於下一次比對。code
原始url的獲取。獲取以後,經過json解析其中的內容,獲得art_code,覆蓋寫入在tmp.txt文件中,用於比對。blog
讀取了tmp.txt文件中的art_code,跟頁面解析的art_code比對。接口
第三步,獲取公告標題和文章連接it
經過json咱們基本上已經可以解析出大部分的數據內容。
經過觀察網站的公告連接的特色,咱們發現主要的差異就是在art_code,所以經過網址連接的拼接,咱們就可以獲得公告的pdf連接。
第四步,運行咱們的程序
程序運行的結果會打印到窗口當中,每當有新的公告發布,程序上就會出現一串新的信息。
自此,咱們經過程序把咱們要的信息打印到了程序的運行窗口,同時,咱們的程序也能夠根據咱們需求進行強化和擴充。首先,這些信息也能夠很是方便的經過接口發送到郵箱、釘釘等平臺,起到實時提醒的做用,其次,咱們也能夠從不一樣的地方抓取信息,完成所需信息的自定義整合,這些將在咱們後續的文章中提到。