經過日誌分析搜索引擎蜘蛛爬蟲的行爲

簡要說明

作好百度和谷歌優化的第一步就是蜘蛛的抓取,下面的Linux命令能夠讓你清楚的知道蜘蛛的爬行狀況。這裏請首先看看日誌大小,若是很大(超過50M)建議別用這些命令分析,由於這些命令很消耗CPU,或者抓下來放到分析機上執行,以避免影響網站的速度。這些命令都是Linux下的shell命令,在/var/log/apache2/下面能夠找到日誌文件。access.log這個文件記錄的應該是最近一天的日誌狀況。 shell

命令

1. 查看百度蜘蛛爬行的次數 apache

1
cat access.log | grep Baiduspider | wc

最左面的數值顯示的就是爬行次數。
2. 百度蜘蛛的詳細記錄(Ctrl C能夠終止) ide

1
cat access.log | grep Baiduspider

也能夠用下面的命令: 優化

1
2
cat access.log | grep Baiduspider | tail -n10
cat access.log | grep Baiduspider | head -n10

只看最後10條或最前10條,這用就能知道這個日誌文件的開始記錄的時間和日期。
3. 百度蜘蛛抓取首頁的詳細記錄 網站

1
cat access.log | grep Baiduspider | grep 「GET / HTTP」

百度蜘蛛好像對首頁很是熱愛每一個鐘頭都來光顧,而谷歌和雅虎蜘蛛更喜歡內頁。
4. 百度蜘蛛派性記錄時間點分佈 spa

1
cat access.log | grep 「Baiduspider 」 | awk ‘{print $4}’

5. 百度蜘蛛爬行頁面按次數降序列表 日誌

1
cat access.log | grep 「Baiduspider 」 | awk ‘{print $7}’ | sort | uniq -c | sort -r

文中的Baiduspider 改爲Googlebot均可以查看谷歌的數據,鑑於大陸的特殊性,你們應該對百度的log更爲關注。
附:(Mediapartners-Google)Google adsense蜘蛛的詳細爬行記錄
cat access.log | grep Mediapartners
Mediapartners-Google是什麼呢?Google adsense廣告之因此能與內容相關,由於每一個包含着adsense的廣告被訪問後,很快就有個Mediapartners-Google蜘蛛來到這個頁面,因此幾分鐘後再刷新就能顯示相關性廣告了,真厲害啊! ci

相關文章
相關標籤/搜索