下面就是百度spider對經常使用的http返回碼的處理邏輯以下: 1、404 404返回碼的含義是「NOT FOUND」,百度會認爲網頁已經失效,那麼一般會從搜索結果中刪除,而且短時間內spider再次發現這條url也不會抓取。 2、503 返回碼的含義是「Service Unavailable」,百度會認爲該網頁臨時不可訪問,一般網站臨時關閉,帶寬有限等會產生這種狀況。對於網頁返回503,百度spider不會把這 條url直接刪除,短時間內會再訪問。屆時若是網頁已恢復,則正常抓取;若是繼續返回503,短時間內還會反覆訪問幾回。可是若是網頁長期返回503,那麼這 個url仍會被百度認爲是失效連接,從搜索結果中刪除。 三403 返回碼的含義是「Forbidden」,百度會認爲網頁當前禁止訪問。對於這種狀況,若是是新發現的url,百度spider暫不會抓取,短 期內會再次檢查;若是是百度已收錄url,當前也不會直接刪除,短時間內一樣會再訪問。屆時若是網頁容許訪問,則正常抓取;若是仍不容許訪問,短時間內還會反 復訪問幾回。可是若是網頁長期返回403,百度也會認爲是失效連接,從搜索結果中刪除。 四301 返回碼的含義是「Moved Permanently」,百度會認爲網頁當前跳轉至新url。當遇到站點遷移,域名更換、站點改版的狀況時,推薦使用301返回碼,儘可能減小改版帶來的 流量損失。雖然百度spider如今對301跳轉的響應週期較長,但咱們最好仍是作好網站的301設置。 Baiduspider在進行抓取和處理時,是根據http協議規範來設置相應的邏輯的,因此請站長們也儘可能參考http協議中關於返回碼的含義的定義來進行設置對網站的SEO優化工做有着事半功倍的做用, 針對以上百度爬蟲對http返回碼的的處理邏輯,筆者給出如下幾點有利於SEO的建議: 一、若是站點臨時關閉,當網頁不能打開時,不要當即返回404,建議使用503狀態。503能夠告知百度spider該頁面臨時不可訪問,請過段時間再重試。 2.若是百度spider對您的站點抓取壓力過大,請儘可能不要使用404,一樣建議返回503。這樣百度spider會過段時間再來嘗試抓取這個連接,若是那個時間站點空閒,那它就會被成功抓取了。 3.有一些網站但願百度只收錄部份內容,例如審覈後的內容,累積一段時間的新用戶頁等等。在這種狀況,建議新發內容暫時返回403,等審覈或作好處理以後,再返回正常狀態的返回碼。 四、站點遷移,或域名更換時,請使用301返回碼。