日誌分析之識別真假蜘蛛與處理辦法

導讀(日誌分析是站長必需要作的事情,若是一個網站主或者seoer不對日誌進行分析,那麼他絕對不是一個合格的站長。日誌分析相關知識不少,我相信大部分站長對基礎分析都會掌握,可是一些深刻的日誌分析問題可能或多或少有些迷茫!好比怎麼識別真假蜘蛛以及處理方法!)
一,關於日誌分析軟件:html

二,日誌重點分析點linux

三,如何分分辨真假蜘蛛windows

四,如何處理假蜘蛛安全

日誌分析工具不少,用處大體都相同 ,若是你想要直觀化的分析能夠選擇一個比較容易理解的日誌分析工具,好比拉格號在線分析工具等比較合適!ide

日誌分析的重點在於:
1.蜘蛛來類(百度,360,谷歌等),2.抓取目錄與頁面(觀察更新的頁面是否被訪問與抓取,爬取的目錄等)3.蜘蛛訪問次數與訪問時間(訪問頻繁表明蜘蛛青睞此網站)4.網站安全與返回碼(主要看是否被掛黑鏈,返回碼通常200屬於正常,可是若是404頁面返回是200就得主要,還有其餘500與302須要注意)5.文章權重(部分工具能夠分析出訪問蜘蛛的權重,權重蜘蛛訪問則說明文章優質)。
對於如何分辨真假蜘蛛這裏就詳細的解答一下,方法不少好比:
一、在linux平臺下,可使用host ip命令反解ip來判斷是否來自Baiduspider的抓取。Baiduspider的hostname以 .baidu.com 或 .baidu.jp 的格式命名。
二、在windows平臺或者IBM OS/2平臺下,可使用nslookup ip命令反解ip來 判斷是否來自Baiduspider的抓取。打開命令處理器 輸入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以.baidu.com 或.baidu.jp的格式命名。
三、在mac os平臺下,你可使用dig 命令反解ip來判斷是否來自百度spider的抓取。打開命令處理器,輸入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來判斷是否來自Baiduspider的抓取,Baiduspider的hostname以.baidu.com 或.baidu.jp的格式命名。工具

而後咱們把有疑問的蜘蛛ip記錄下來網站

好比這個ip段的百度蜘蛛從訪問的頁面月狀態碼來看都不正常,因此咱們就用上述的第二種方式查詢!
操做步驟:打開電腦開始欄→輸入cmd打開cmd.exe→使用nslookup ip查詢spa

clipboard.png

咱們能夠經過查詢有疑問的蜘蛛ip發現找不到!這種狀況就是假蜘蛛。而通常真常狀況的蜘蛛是下面這種顯示baidu字樣的!日誌

clipboard.png

找到了假冒的蜘蛛那麼到底這個假冒蜘蛛有什麼危害呢?小編在網上查找答案沒有找到相關權威的知識解答,因而去百度站長社區與反饋平臺反饋獲得的結果也不盡如意。因而就聯絡一些有過這種狀況的站長,通過他們以往的經驗來看,小編得出如下的結論!
一、佔用網站帶寬,致使網站流量上升,增長額外開銷,
二、在有限帶寬的前提下,阻礙了正常蜘蛛的抓取,誤導了咱們在對網站開展SEO工做時的思路,
三、部分假裝成假蜘蛛的採集工具剽竊了咱們的工做
4..假冒蜘蛛不能抓取內容,不能造成建庫收錄,因此影響不是很大。
因此假冒蜘蛛存在着一些危害,但總的來講都在可控範圍類,因此一旦發現假冒蜘蛛訪問與抓取,能夠暫時不用屏蔽,能夠先觀察百度站長的網站抓取是否正常,而後看具體的帶來的危害,好比是否長時間出現此類假冒蜘蛛。觀察一段時間後若是沒問題就不用管,若是有影響就用robots協議屏蔽掉此ip段的假冒蜘蛛,不過須要注意的是在屏蔽的時候不要屏蔽錯誤。
本文由甲爪聯盟原創供稿!原文連接:http://www.jiazhua.com/wz/467...htm

相關文章
相關標籤/搜索