rss更新頻率

若是目標網站提供了rss源,再寫爬蟲去匹配,就是智障了。
可是該以什麼頻率去訪問rss源呢?網絡上彷佛不太容易找到這個問題的答案。網絡

直接訪問rss的官方文檔:http://www.rssboard.org/rss-p...

裏面寫的很清楚,rss規定的xml語法中有三個地方能夠指定更新頻率:網站

  • <ttl>標籤指定生存時間code

  • <skipDays><skipHours>標籤標明哪些日期(通常是週末)和小時不更新xml

固然,還有一句很重要的話:ip

By convention, most aggregators check an RSS feed for updates once an hour文檔

因此,咱們設置成半小時檢查一次,或者是一個小時檢查一次均可以。get


官方文檔同時規定了那些字段是必須的,那些是可選的。這對於咱們撰寫爬蟲也是十分有必要的。
好比channel字段以及channel下的description, link, title字段。it

相關文章
相關標籤/搜索