上週咱們學習了搜索引擎工做原理中信息收集的部分——蜘蛛和收錄,瞭解到搜索引擎蜘蛛對網頁的抓取方式以及網站目錄結構、連接結構將決定蜘蛛採用深度優先或廣度優先進行爬取。那麼搜索引擎是如何存儲蜘蛛爬取到的網頁和連接信息?如何根據用戶給定的關鍵字返回結果呢?
歸檔
對每條蜘蛛爬取的信息,搜索引擎都會將其存儲在本身的數據中心。從咱們使用搜索引擎的體驗中能夠想象,搜索引擎至少要存儲如下數據:
頁面標題、頁面連接、關鍵字、描述;全文搜索引擎如百度和Google還須要存儲正文和正文中的圖片(快照功能)。
通常的搜索引擎都會採用分佈式的存儲和處理架構對這些數據進行歸檔,歸檔後的網頁將擁有一個快照,以便在用戶查詢是進行全文的關鍵字匹配。對已經被歸檔的網頁咱們能夠說,某網頁被搜索引擎索引了。
被歸檔的網頁會造成網頁快照,咱們經過Google的網頁快照能夠了解搜索引擎對該頁面的歸檔時間以及它如何看待咱們的頁面(如何判斷關鍵字並分詞的)
標註×××的是網頁快照
該頁面被索引(歸檔)的時間若是與發佈時間相對比,有時能夠反映出搜索引擎對一個網站的更新頻率;Google對該頁面關鍵字的判斷及分詞(分爲Teched和2009)能夠幫助咱們改進關鍵字策略
索引和收錄
你可能會問,上一節咱們講收錄時說過,「被蜘蛛爬過」就收錄了,就能夠用site命令查詢並在結果列表中顯示;貌似收錄和索引沒有太多區別。區別看似不大,但對SEO來講,這些細小的差異足夠重要。
被收錄只能證實你的頁面「被蜘蛛爬過」:在收錄階段,頁面尚未進入搜索引擎的存儲過程,只是緩存在一個位置,你搜索時頁面會出現,並且頗有可能會出如今靠前的位置;由於搜索引擎尚未對其進行評估。
這種評估是針對頁面質量(關鍵字、內容質量、是否原創、圖片處理等)的。竊覺得,搜索引擎會根據頁面質量來評估這個網頁的重要性,並根據這種重要性在用戶查詢相關關鍵字時給出排名。而這一過程發生在索引過程當中。
也就是說,收錄只是搜索引擎對頁面的簡單記錄,收錄的過程只是針對咱們前面所講到的,對連接結構、頁面基本元素(連接地址、關鍵字、正文內容等)進行收集;而真正決定結果排名的是索引的過程,在這個過程當中搜索引擎會根據本身的算法來判斷某一網頁顯示在結果頁的位置(第一位仍是第N位)。
收錄和索引緊密相連(但不會同時發生,請看圖二的註釋)。在SEO中,針對收錄和索引,咱們要作的是對頁面大小的優化(1M仍是10K)。咱們知道蜘蛛很忙,你不能期望蜘蛛爬取一個1M的網頁;面對天天數百萬的新增網頁,搜索引擎的索引過程也必須保證簡單而快速的處理。若是一個頁面太大,會直接致使不收錄、索引不全(無排名)或索引處理中評分不高(排名太低)的現象。
爲此,咱們在SEO時,要保證網站頁面足夠小巧;在新增文章時,注意分頁和正文中圖片尺寸的處理。
索引
如今咱們對索引有了一個簡單的認識:在索引過程當中,搜索引擎會對蜘蛛爬取來的網頁進行評分,以決定用戶查詢時這些頁面顯示在結果頁的位置。能夠說,索引過程纔是關鍵,咱們以前針對收錄所作的網站信息量、更新頻度、搜索引擎友好性、連接優化、目錄結構優化、頁面大小優化都是爲了走到索引這一步。
針對索引過程,咱們SEO要作的事情不少。如今這個階段咱們須要知道:好的內容處理、優秀的內容質量能夠在索引過程當中被搜索引擎根據本身的評分規則(算法)打高分,在用戶查詢時排名靠前。
那麼如何提升內容質量讓搜索引擎打高分呢?因爲每一個搜索引擎的排名算法不一樣,評分規則也存在差異。後面的課程咱們會單獨針對不一樣搜索引擎的索引過程在標題、正文、關鍵字、等方面的處理上進行專門的講解,相對應的知識是標題僞原創、正文僞原創、關鍵字分佈、圖片優化等。
下週的課程咱們會學習搜索引擎工做原理中最炫的一步:根據用戶輸入的關鍵字檢索索引庫並返回結果。