Log日誌都是一個系統不可缺乏的一個重要組成部分,一般是系統的運行記錄。日誌通常分爲兩大類型:web
1、系統日誌:安全
記錄系統中硬件、軟件和系統問題的信息,同時還能夠監視系統中發生的事件。系統日誌包括系統日誌、應用程序日誌和安全日誌。服務器
2、網站日誌:網站
記錄web服務器接收處理請求以及運行時錯誤等各類原始信息以.log結尾的文件。咱們經過對日誌進行統計、分析、綜合,就能有效地掌握網站運行情況,發現和排除錯誤緣由,瞭解客戶訪問分佈等,更好的增強系統的維護和管理。搜索引擎
日誌也是瞭解搜索引擎工做原理和搜索引擎對網頁抓取頻率的最佳途徑。經過這個文件,能夠了解搜索引擎什麼時間、抓取了哪些頁面,以及能夠知道是主搜索蜘蛛仍是從搜索蜘蛛抓取了您的網站等的信息。url
經過不一樣的log日誌級別來記錄以往的操做行爲,能夠很輕易地分析獲得:日誌
經過分析網站日誌Log文件咱們能夠看到用戶、搜索引擎蜘蛛訪問網站和管理人員操做的行爲數據,這些數據能讓咱們分析出用戶和蜘蛛對網站的偏好以及網站安全操做及健康狀況。所以在網站日誌分析中,咱們主要須要分析的是蜘蛛行爲和操做行爲。
在分析日誌時,對於單日日誌文件咱們須要分析的內容有:訪問次數、停留時間、抓取量、目錄抓取統計、頁面抓取統計、蜘蛛訪問IP、HTTP狀態碼、蜘蛛活躍時段、蜘蛛爬取路徑等;對於多日日誌文件咱們須要分析的內容有:蜘蛛訪問次數趨勢、停留時間趨勢、總體抓取趨勢、各目錄抓取趨勢、抓取時間段、蜘蛛活躍週期等。blog
一、訪問次數、停留時間、抓取量
從這三項數據中咱們能夠得知:平均每次抓取頁面數、單頁抓取停留時間和平均每次停留時間。
平均每次抓取頁面數=總抓取量/訪問次數
單頁抓取停留=每次停留/每次抓取
平均每次停留時間=總停留時間/訪問次數
從這些數據咱們能夠看出蜘蛛的活躍程度、親和程度、抓取深度等,總訪問次數、停留時間、抓取量越高、平均抓取頁面、平均停留時間,代表網站頁面越受搜索引擎喜歡。而單頁抓取停留時間代表網站頁面訪問速度,時間越長,代表網站訪問速度越慢,對搜索引擎抓取收錄較不利,咱們應儘可能提升網頁加載速度,減小單而立停留時間,讓爬蟲資源更多的去抓取收錄。
二、目錄抓取統計
經過日誌分析咱們能夠看到網站哪些目錄受蜘蛛喜歡、抓取目錄深度、重要頁面目錄抓取情況、無效頁面目錄抓取情況等。對於重要目錄,咱們須要經過內外調整增長權重及爬取;對於無效頁面,在robots.txt中進行屏蔽。
三、訪問狀態碼
蜘蛛常常出現的狀態碼如30一、404等,出現這些狀態碼要及時處理,以免對網站形成壞的影響。
四、蜘蛛爬取路徑
在網站日誌中咱們能夠跟蹤到特定IP的訪問路徑,則能發現對於本網站結構下蜘蛛的爬取路徑偏好。由此,咱們能夠適當的引導蜘蛛的爬取路徑,讓蜘蛛更多的爬取重要、有價值、新更新頁面。其中爬取路徑中咱們能夠分析頁面物理結構路徑偏好以及url邏輯結構爬取偏好。索引