蜘蛛抓取時http返回碼如何設置

時間 2019-11-13

原文原文鏈接

下面就是百度spider對經常使用的http返回碼的處理邏輯以下： 1、404 404返回碼的含義是「NOT FOUND」，百度會認爲網頁已經失效，那麼一般會從搜索結果中刪除，而且短時間內spider再次發現這條url也不會抓取。 2、503 返回碼的含義是「Service Unavailable」，百度會認爲該網頁臨時不可訪問，一般網站臨時關閉，帶寬有限等會產生這種狀況。對於網頁返回503，百度spider不會把這條url直接刪除，短時間內會再訪問。屆時若是網頁已恢復，則正常抓取；若是繼續返回503，短時間內還會反覆訪問幾回。可是若是網頁長期返回503，那麼這個url仍會被百度認爲是失效連接，從搜索結果中刪除。三403 返回碼的含義是「Forbidden」，百度會認爲網頁當前禁止訪問。對於這種狀況，若是是新發現的url，百度spider暫不會抓取，短期內會再次檢查；若是是百度已收錄url，當前也不會直接刪除，短時間內一樣會再訪問。屆時若是網頁容許訪問，則正常抓取；若是仍不容許訪問，短時間內還會反復訪問幾回。可是若是網頁長期返回403，百度也會認爲是失效連接，從搜索結果中刪除。四301 返回碼的含義是「Moved Permanently」，百度會認爲網頁當前跳轉至新url。當遇到站點遷移，域名更換、站點改版的狀況時，推薦使用301返回碼，儘可能減小改版帶來的流量損失。雖然百度spider如今對301跳轉的響應週期較長，但咱們最好仍是作好網站的301設置。 Baiduspider在進行抓取和處理時，是根據http協議規範來設置相應的邏輯的，因此請站長們也儘可能參考http協議中關於返回碼的含義的定義來進行設置對網站的SEO優化工做有着事半功倍的做用，針對以上百度爬蟲對http返回碼的的處理邏輯，筆者給出如下幾點有利於SEO的建議：一、若是站點臨時關閉，當網頁不能打開時，不要當即返回404，建議使用503狀態。503能夠告知百度spider該頁面臨時不可訪問，請過段時間再重試。 2.若是百度spider對您的站點抓取壓力過大，請儘可能不要使用404，一樣建議返回503。這樣百度spider會過段時間再來嘗試抓取這個連接，若是那個時間站點空閒，那它就會被成功抓取了。 3.有一些網站但願百度只收錄部份內容，例如審覈後的內容，累積一段時間的新用戶頁等等。在這種狀況，建議新發內容暫時返回403，等審覈或作好處理以後，再返回正常狀態的返回碼。四、站點遷移，或域名更換時，請使用301返回碼。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。