SEO優化之淺談蜘蛛日誌

  不少時候,日誌文件只在網站出現問題的時候纔會被查閱,在SEO方面,更是容易被你們忽略的一塊內容。卻不知經過蜘蛛日誌文件,咱們能夠獲取各類信息並能發現站點存在的一些問題,對於SEO實際上是相當重要的。html

什麼是蜘蛛日誌

  假設咱們的站點使用了nginx作反向代理,一旦有請求到達網站服務器,nginx會生成相應的日誌文件。蜘蛛日誌就是當搜索引擎向服務器發送請求時產生的訪問記錄文件。nginx

蜘蛛日誌在哪

  nginx會生成名爲access.log的日誌文件,蜘蛛產生的瀏覽記錄就保存在這裏。這個文件默認記錄了一天內的訪問記錄,以前的日誌會被自動分割壓縮,固然,這個分割時間是能夠本身手動修改的,須要根據本身的日訪問量作決定。web

  使用find / -name access.log命令能夠找到訪問日誌文件所在的位置。這條命令的意思是從根目錄裏查找名爲access.log的文件。瀏覽器

image

  我這裏的日誌位於/var/log/nginx/目錄下,使用命令cd /var/log/nginx/進入該文件夾。服務器

  這裏須要提的一點是若是access.log文件比較大,好比多達幾十兆,就不建議在服務器上直接查看了,而是應當把它下載到咱們本身的機器上去分析,由於分析日誌須要的一些命令比較佔用資源,極可能會所以影響生產環境中的正常業務。網絡

日誌內容分析

  咱們首先看一下日誌的組成部分。日誌的格式和內容是能夠經過配置本身定義的,咱們在這裏只分析默認狀況下的日誌格式。iphone

221.221.153.47 - - [25/Jun/2018:11:39:13 +0800] "GET / HTTP/1.1" 200 19285 "https://www.baidu.com/from=844b/bd_page_type=1/ssid=0/uid=0/pu=usm%401%2Csz%401320_2001%2Cta%40iphone_1_11.3_3_604/baiduid=6EC3CDA4AF6......" "Mozilla/5.0 (iPhone; CPU iPhone OS 11_3 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) CriOS/67.0.3396.87 Mobile/15E216 Safari/604.1"
  1. 221.221.153.47 - 客戶端的IP地址
  2. [25/Jun/2018:11:39:13 +0800] - 訪問時間
  3. GET - 請求方式
  4. /news/7fcfca6a-0e14-42a0-a9f8-c0ffca0d8ab5 - 請求地址
  5. HTTP/1.1 - 請求協議
  6. 200 - HTTP狀態碼,關於狀態碼的內容請搜索查閱,這裏再也不贅述
  7. 19285 - 請求的頁面大小
  8. https://www.baidu.com/from=84... - 來源地址
  9. Mozilla/5.0 (iPhone; CPU iPhone OS 11_3 like Mac OS X) App... - 客戶端瀏覽器的相關信息,咱們簡稱爲Agent

  這裏列出一些常見的搜索引擎Agent信息,這部分的內容來源於網絡,且與時效性有關,僅供參考,建議在使用的時候查找最新的Agent信息。ide

Google蜘蛛 :Mozilla/5.0 (compatible; Googlebot/2.1; http://www.google.com/bot.html)  
Baidu蜘蛛 :Baiduspider+(+http://www.baidu.com/search/spider.html)  
Yahoo!蜘蛛 :Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)  
Yahoo!中國蜘蛛 :Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)  
微軟Bing蜘蛛 :msnbot/2.0b (+http://search.msn.com/msnbot.htm)  
Google Adsense蜘蛛 :Mediapartners-Google  
有道蜘蛛 :Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/)  
Soso搜搜博客蜘蛛 :Sosoblogspider+(+http://help.soso.com/soso-blog-spider.htm)  
Sogou搜狗蜘蛛 :Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)  
Twiceler爬蟲程序 :Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html)  
Google圖片搜索蜘蛛 :Googlebot-Image/1.0  
俄羅斯Yandex搜索引擎蜘蛛 :Yandex/1.01.001 (compatible; Win16; I)  
Alexa蜘蛛 :ia_archiver (+http://www.alexa.com/site/help/webmasters)  
Feedsky蜘蛛 :Mozilla 5.0 (compatible; Feedsky crawler /1.0)  
韓國Yeti蜘蛛:Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)

  看到這裏,咱們就能夠經過客戶端Agent來過濾掉咱們不想要看到的日誌。由上面的列表咱們知道,百度的Agent信息爲Baiduspider+(+http://www.baidu.com/search/spider.html),所以咱們能夠根據Baiduspider關鍵詞來對日誌進行過濾,以此來篩選百度蜘蛛的訪問記錄。工具

怎樣查看蜘蛛日誌

  在這裏總結一些經常使用的分析命令。優化

  1. cat access.log | grep Baiduspider

獲取百度蜘蛛的詳細爬取記錄

  1. cat access.log | grep Baiduspider | wc -l

統計百度蜘蛛的爬取次數

  1. cat access.log | grep Baiduspider | grep "GET url"

統計百度蜘蛛爬取某個頁面的記錄,命令中的url爲頁面的相對地址

  1. ......

  上面命令中的grep是個比較強大的文字搜索工具,咱們可使用這個工具來匹配搜索文本,精確找出咱們想要看的日誌內容,減小篩選時間,提高工做效率。因此,能夠根據實際的場景,輸入關鍵詞來過濾日誌,靈活地進行拓展。

如何利用蜘蛛日誌

  1. 經過蜘蛛日誌,咱們能夠知曉蜘蛛是否對站點進行了抓取,以及抓取是否成功。咱們能夠以此來判斷咱們的網站程序是否符合搜索引擎的抓取規範,發現抓取失敗的緣由。
  2. 經過蜘蛛日誌咱們能夠統計蜘蛛的抓取頻次。有些惡意蜘蛛會頻繁對網站抓取,若是蜘蛛訪問頻度太高,極可能會正常服務的運行,能夠經過對日誌的分析,發現惡意蜘蛛的足跡,並限制其訪問頻率甚至禁止其訪問,以保障服務器的穩定。能夠經過robots.txt文件制定蜘蛛的訪問規則,搜索引擎的蜘蛛會嚴格遵照這個文件。
  3. 經過日誌文件,咱們能夠分析蜘蛛的訪問路徑,優化咱們的站點結構。

挖掘日誌更多信息

  1. 排查網站錯誤。能夠經過日誌中的狀態碼分析網站是否存在問題,例如存在死鏈、程序錯誤、頁面失效等;
  2. 分析用戶行爲習慣。經過日誌文件,咱們能夠發現用戶對整站頁面的訪問次數、訪問時間和訪問路徑。以此得出用戶的行爲習慣和關注點;
  3. 獲取用戶畫像。經過分析日誌,能夠知道用戶的地理區域、來源地址、瀏覽設備以及搜索引擎等信息;
  4. 防範惡意攻擊。對日誌中高頻訪問的用戶進行鑑定,阻止非正常的高頻度訪問,避免沒必要要的資源浪費。

結語

  本文只給出了日誌分析的方法和操做,更多的細節須要結合站長工具作深刻的研究。紙上得來終覺淺,須要各位讀者去在實際場景中摸索更多的技巧和解決方案。SEO非一日之功,比的就是誰能作到更極致!

相關文章
相關標籤/搜索