若是目標網站提供了rss源,再寫爬蟲去匹配,就是智障了。
可是該以什麼頻率去訪問rss源呢?網絡上彷佛不太容易找到這個問題的答案。網絡
裏面寫的很清楚,rss規定的xml語法中有三個地方能夠指定更新頻率:網站
<ttl>
標籤指定生存時間code
<skipDays>
和<skipHours>
標籤標明哪些日期(通常是週末)和小時不更新xml
固然,還有一句很重要的話:ip
By convention, most aggregators check an RSS feed for updates once an hour文檔
因此,咱們設置成半小時檢查一次,或者是一個小時檢查一次均可以。get
官方文檔同時規定了那些字段是必須的,那些是可選的。這對於咱們撰寫爬蟲也是十分有必要的。
好比channel
字段以及channel
下的description
, link
, title
字段。it