不少時候,日誌文件只在網站出現問題的時候纔會被查閱,在SEO方面,更是容易被你們忽略的一塊內容。卻不知經過蜘蛛日誌文件,咱們能夠獲取各類信息並能發現站點存在的一些問題,對於SEO實際上是相當重要的。html
假設咱們的站點使用了nginx作反向代理,一旦有請求到達網站服務器,nginx會生成相應的日誌文件。蜘蛛日誌就是當搜索引擎向服務器發送請求時產生的訪問記錄文件。nginx
nginx會生成名爲access.log
的日誌文件,蜘蛛產生的瀏覽記錄就保存在這裏。這個文件默認記錄了一天內的訪問記錄,以前的日誌會被自動分割壓縮,固然,這個分割時間是能夠本身手動修改的,須要根據本身的日訪問量作決定。web
使用find / -name access.log
命令能夠找到訪問日誌文件所在的位置。這條命令的意思是從根目錄裏查找名爲access.log
的文件。瀏覽器
我這裏的日誌位於/var/log/nginx/
目錄下,使用命令cd /var/log/nginx/
進入該文件夾。服務器
這裏須要提的一點是若是access.log
文件比較大,好比多達幾十兆,就不建議在服務器上直接查看了,而是應當把它下載到咱們本身的機器上去分析,由於分析日誌須要的一些命令比較佔用資源,極可能會所以影響生產環境中的正常業務。網絡
咱們首先看一下日誌的組成部分。日誌的格式和內容是能夠經過配置本身定義的,咱們在這裏只分析默認狀況下的日誌格式。iphone
221.221.153.47 - - [25/Jun/2018:11:39:13 +0800] "GET / HTTP/1.1" 200 19285 "https://www.baidu.com/from=844b/bd_page_type=1/ssid=0/uid=0/pu=usm%401%2Csz%401320_2001%2Cta%40iphone_1_11.3_3_604/baiduid=6EC3CDA4AF6......" "Mozilla/5.0 (iPhone; CPU iPhone OS 11_3 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) CriOS/67.0.3396.87 Mobile/15E216 Safari/604.1"
這裏列出一些常見的搜索引擎Agent信息,這部分的內容來源於網絡,且與時效性有關,僅供參考,建議在使用的時候查找最新的Agent信息。ide
Google蜘蛛 :Mozilla/5.0 (compatible; Googlebot/2.1; http://www.google.com/bot.html) Baidu蜘蛛 :Baiduspider+(+http://www.baidu.com/search/spider.html) Yahoo!蜘蛛 :Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) Yahoo!中國蜘蛛 :Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) 微軟Bing蜘蛛 :msnbot/2.0b (+http://search.msn.com/msnbot.htm) Google Adsense蜘蛛 :Mediapartners-Google 有道蜘蛛 :Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/) Soso搜搜博客蜘蛛 :Sosoblogspider+(+http://help.soso.com/soso-blog-spider.htm) Sogou搜狗蜘蛛 :Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07) Twiceler爬蟲程序 :Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html) Google圖片搜索蜘蛛 :Googlebot-Image/1.0 俄羅斯Yandex搜索引擎蜘蛛 :Yandex/1.01.001 (compatible; Win16; I) Alexa蜘蛛 :ia_archiver (+http://www.alexa.com/site/help/webmasters) Feedsky蜘蛛 :Mozilla 5.0 (compatible; Feedsky crawler /1.0) 韓國Yeti蜘蛛:Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)
看到這裏,咱們就能夠經過客戶端Agent來過濾掉咱們不想要看到的日誌。由上面的列表咱們知道,百度的Agent信息爲Baiduspider+(+http://www.baidu.com/search/spider.html)
,所以咱們能夠根據Baiduspider
關鍵詞來對日誌進行過濾,以此來篩選百度蜘蛛的訪問記錄。工具
在這裏總結一些經常使用的分析命令。優化
cat access.log | grep Baiduspider
獲取百度蜘蛛的詳細爬取記錄
cat access.log | grep Baiduspider | wc -l
統計百度蜘蛛的爬取次數
cat access.log | grep Baiduspider | grep "GET url"
統計百度蜘蛛爬取某個頁面的記錄,命令中的url爲頁面的相對地址
上面命令中的grep
是個比較強大的文字搜索工具,咱們可使用這個工具來匹配搜索文本,精確找出咱們想要看的日誌內容,減小篩選時間,提高工做效率。因此,能夠根據實際的場景,輸入關鍵詞來過濾日誌,靈活地進行拓展。
robots.txt
文件制定蜘蛛的訪問規則,搜索引擎的蜘蛛會嚴格遵照這個文件。本文只給出了日誌分析的方法和操做,更多的細節須要結合站長工具作深刻的研究。紙上得來終覺淺,須要各位讀者去在實際場景中摸索更多的技巧和解決方案。SEO非一日之功,比的就是誰能作到更極致!