抽取百度收錄連接(一)

抽取百度搜索連接。

小站域名。之前好似一個織夢的站點,在百度和gg上收錄收錄了大量的內容頁。如今將他替換爲個人blog域名;可是這些之前收錄的頁面都3個月了,還在被百度不停的抓取。嚴重影響了正常文章的收錄.在百度站長工具(數據提交-死鏈提交)裏發現能夠將網站內的40四、40三、503等狀態提交上去,防止百度收錄。服務器

先看下百度對這塊的說明:詳細可參見死鏈提交工具幫助

1、什麼是死鏈? 頁面已經無效,沒法對用戶提供任何有價值信息的頁面就是死連接,包括協議死鏈和內容死鏈兩種形式。 1.協議死鏈:頁面的TCP協議狀態/HTTP協議狀態明確表示的死鏈,常見的如40四、40三、503狀態等。 2.內容死鏈:服務器返回狀態是正常的,但內容已經變動爲不存在、已刪除或須要權限等與原內容無關的信息頁面。 2、爲何要使用死鏈提交工具? 當網站死鏈數據累積過多時,而且被展現到搜索結果頁中,對網站自己的訪問體驗和用戶轉化都起到了負面影響。另外一方面,百度檢查死鏈的流程也會爲網站帶來額外負擔,影響網站其餘正常頁面的抓取和索引。 3、如何使用死鏈提交工具? 第一步,處理網站已存在的死鏈,製做死鏈文件篩查網站內部存在的死鏈,並將這些死鏈頁面設置成爲404頁面,即百度訪問它們時返回404代碼。將需提交的死鏈列表製做成一個死鏈文件,製做方法請參閱 幫助文檔(與sitemap格式及製做方法一致) 第二步,將死鏈文件放置在網站根目錄下 好比您的網站爲example.com,您已製做了一個silian_example.xml死鏈文件,則將silian_example.xml上傳至網站根目錄即example.com/silian_example.xml 第三步,登陸百度站長平臺 第四步,提交網站並驗證歸屬:具體驗證網站歸屬方法可見幫助文檔 第五步,提交死鏈數據 1.選中左側「死鏈提交」 2.點擊右側「添加新數據」 3.提交死鏈文件:填寫死鏈文件地址(如:www.example.com/silian_example.xml),選擇更新時間,進行提交 4.管理已提交的死鏈列表 提交完以後,可在死鏈工具列表裏看到提交的死鏈文件,若是死鏈文件裏面有新的死鏈,能夠選擇文件後,點擊更新所選,即對更新的死鏈連接進行了提交

好了。看了百度官方的文檔,咱們能夠知道,百度對死鏈的處理就是將全部死鏈寫入一個xml文檔中。而後在百度蜘蛛爬去網站的時候就不會再去爬去這些頁面。 首先咱們須要獲取百度收錄了哪些死鏈。 百度搜索:site:xxku.net 會看到百度收錄本站的頁面。裏面不少都是之前老網站的內容頁。如今點進去都是404;工具


如今咱們創建一個思路:

  1. 收集全部百度收錄連接
  2. 處理收集的連接(由於百度跳轉連接是加密的。咱們須要獲取咱們網站被收錄的真實404連接。這裏就須要處理)
  3. 生成xml文檔
相關文章
相關標籤/搜索