SEO優化之淺談蜘蛛日誌

時間 2019-12-04

標籤 seo 優化淺談蜘蛛日誌欄目網站開發简体版

原文原文鏈接

不少時候，日誌文件只在網站出現問題的時候纔會被查閱，在SEO方面，更是容易被你們忽略的一塊內容。卻不知經過蜘蛛日誌文件，咱們能夠獲取各類信息並能發現站點存在的一些問題，對於SEO實際上是相當重要的。html

什麼是蜘蛛日誌

假設咱們的站點使用了nginx作反向代理，一旦有請求到達網站服務器，nginx會生成相應的日誌文件。蜘蛛日誌就是當搜索引擎向服務器發送請求時產生的訪問記錄文件。nginx

蜘蛛日誌在哪

nginx會生成名爲access.log的日誌文件,蜘蛛產生的瀏覽記錄就保存在這裏。這個文件默認記錄了一天內的訪問記錄，以前的日誌會被自動分割壓縮，固然，這個分割時間是能夠本身手動修改的，須要根據本身的日訪問量作決定。web

使用find / -name access.log命令能夠找到訪問日誌文件所在的位置。這條命令的意思是從根目錄裏查找名爲access.log的文件。瀏覽器

我這裏的日誌位於/var/log/nginx/目錄下，使用命令cd /var/log/nginx/進入該文件夾。服務器

這裏須要提的一點是若是access.log文件比較大，好比多達幾十兆，就不建議在服務器上直接查看了，而是應當把它下載到咱們本身的機器上去分析，由於分析日誌須要的一些命令比較佔用資源，極可能會所以影響生產環境中的正常業務。網絡

日誌內容分析

咱們首先看一下日誌的組成部分。日誌的格式和內容是能夠經過配置本身定義的，咱們在這裏只分析默認狀況下的日誌格式。iphone

221.221.153.47 - - [25/Jun/2018:11:39:13 +0800] "GET / HTTP/1.1" 200 19285 "https://www.baidu.com/from=844b/bd_page_type=1/ssid=0/uid=0/pu=usm%401%2Csz%401320_2001%2Cta%40iphone_1_11.3_3_604/baiduid=6EC3CDA4AF6......" "Mozilla/5.0 (iPhone; CPU iPhone OS 11_3 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) CriOS/67.0.3396.87 Mobile/15E216 Safari/604.1"

221.221.153.47 - 客戶端的IP地址
[25/Jun/2018:11:39:13 +0800] - 訪問時間
GET - 請求方式
/news/7fcfca6a-0e14-42a0-a9f8-c0ffca0d8ab5 - 請求地址
HTTP/1.1 - 請求協議
200 - HTTP狀態碼，關於狀態碼的內容請搜索查閱，這裏再也不贅述
19285 - 請求的頁面大小
https://www.baidu.com/from=84... - 來源地址
Mozilla/5.0 (iPhone; CPU iPhone OS 11_3 like Mac OS X) App... - 客戶端瀏覽器的相關信息，咱們簡稱爲Agent

這裏列出一些常見的搜索引擎Agent信息,這部分的內容來源於網絡，且與時效性有關，僅供參考，建議在使用的時候查找最新的Agent信息。ide

Google蜘蛛 ：Mozilla/5.0 (compatible; Googlebot/2.1; http://www.google.com/bot.html)  
Baidu蜘蛛 ：Baiduspider+(+http://www.baidu.com/search/spider.html)  
Yahoo!蜘蛛 ：Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)  
Yahoo!中國蜘蛛 ：Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)  
微軟Bing蜘蛛 ：msnbot/2.0b (+http://search.msn.com/msnbot.htm)  
Google Adsense蜘蛛 ：Mediapartners-Google  
有道蜘蛛 ：Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/)  
Soso搜搜博客蜘蛛 ：Sosoblogspider+(+http://help.soso.com/soso-blog-spider.htm)  
Sogou搜狗蜘蛛 ：Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)  
Twiceler爬蟲程序 ：Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html)  
Google圖片搜索蜘蛛 ：Googlebot-Image/1.0  
俄羅斯Yandex搜索引擎蜘蛛 ：Yandex/1.01.001 (compatible; Win16; I)  
Alexa蜘蛛 ：ia_archiver (+http://www.alexa.com/site/help/webmasters)  
Feedsky蜘蛛 ：Mozilla 5.0 (compatible; Feedsky crawler /1.0)  
韓國Yeti蜘蛛：Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)

看到這裏，咱們就能夠經過客戶端Agent來過濾掉咱們不想要看到的日誌。由上面的列表咱們知道，百度的Agent信息爲Baiduspider+(+http://www.baidu.com/search/spider.html)，所以咱們能夠根據Baiduspider關鍵詞來對日誌進行過濾，以此來篩選百度蜘蛛的訪問記錄。工具

怎樣查看蜘蛛日誌

在這裏總結一些經常使用的分析命令。優化

cat access.log | grep Baiduspider

獲取百度蜘蛛的詳細爬取記錄

cat access.log | grep Baiduspider | wc -l

統計百度蜘蛛的爬取次數

cat access.log | grep Baiduspider | grep "GET url"

統計百度蜘蛛爬取某個頁面的記錄，命令中的url爲頁面的相對地址

......

上面命令中的grep是個比較強大的文字搜索工具，咱們可使用這個工具來匹配搜索文本，精確找出咱們想要看的日誌內容，減小篩選時間，提高工做效率。因此，能夠根據實際的場景，輸入關鍵詞來過濾日誌，靈活地進行拓展。

如何利用蜘蛛日誌

經過蜘蛛日誌，咱們能夠知曉蜘蛛是否對站點進行了抓取，以及抓取是否成功。咱們能夠以此來判斷咱們的網站程序是否符合搜索引擎的抓取規範，發現抓取失敗的緣由。
經過蜘蛛日誌咱們能夠統計蜘蛛的抓取頻次。有些惡意蜘蛛會頻繁對網站抓取，若是蜘蛛訪問頻度太高，極可能會正常服務的運行，能夠經過對日誌的分析，發現惡意蜘蛛的足跡，並限制其訪問頻率甚至禁止其訪問，以保障服務器的穩定。能夠經過robots.txt文件制定蜘蛛的訪問規則，搜索引擎的蜘蛛會嚴格遵照這個文件。
經過日誌文件，咱們能夠分析蜘蛛的訪問路徑，優化咱們的站點結構。