文章首發於個人博客:Hexo 我的博客 SEO 優化(1):搜索引擎原理介紹算法
Hexo 我的博客 SEO 優化(1):搜索引擎原理介紹數據庫
Hexo 我的博客 SEO 優化(3):改造你的博客,提高搜索引擎排名 寫在文章前面: 前段時間接到一個企業官網站內優化的任務。爲了完成它,只能趕鴨子上架,從零開始系統地去學習 SEO 知識。通過幾天的學習後,也算是入了門。才意識到 SEO 它的意義與重要性,以爲 SEO 對於作我的站點(博客也算是我的站點)的意義與重要性不言而喻。可能有人會反駁在現在自媒體、微信公衆號及知乎、掘金、sf等各類垂直網站盛行的年代,再去研究 SEO,對博客作 SEO 是否有必要。個人見解是,若是你想長期堅持維護本身的博客,那麼學習必要的 SEO 知識的收益是一件半衰期很長的事情,是一件堅持就會事半功倍的事情。緩存
由於你只需花費很少的精力對博客進行站內優化,而後保持必定的文章更新頻率(若是有須要的話,還能夠進行站外優化)。就能提升你的博客在搜索引擎排名,爲本身的博客帶來更多的訪問量。不管你是想提升知名度仍是想讓你的文章可以幫助到更多的人,訪問量多了才能到達你的目的。服務器
接下來的內容徹底是一個 SEO 初學者的學習總結,若是 SEO 大神看到,請輕噴,還望指出不足之處。微信
可能有些人還不瞭解什麼是 SEO。所謂 SEO 指 Search Engine Optimization(搜索引擎優化)。經過對網站進行優化,來提升網站在搜索引擎中的排名,爲網站帶來更多的訪問。 在介紹 SEO 優化要素及技巧以前,咱們須要先對搜索引擎的工做原理有個瞭解。才能更好的理解 SEO 具體操做的意義。hexo
搜索引擎過程很是複雜,咱們這裏只能以最簡單的流程來介紹搜索引擎是怎麼實現網頁排名的。 搜索引擎的工做過程大致能夠分爲三個階段:ide
爬行和抓取是搜索引擎工做的第一步,完成數據收集的任務。post
搜索引擎用來爬行和抓取頁面的程序叫作也就是咱們熟知的蜘蛛(spider),也稱爲機器人(bot)。spider訪問網站頁面相似於普通用戶使用的瀏覽器。spider 發出頁面訪問請求後,服務器返回 HTML 代碼,spider 把收到的程序存入原始頁面數據庫。爲了提升爬行和抓取速度,搜索引擎一般或多個spider並行爬行。學習
spider 訪問任何一個網站時,都會先訪問該網站根目錄下的 rotbots.txt 文件。該文件能夠告訴 spider 哪些文件或目錄能夠抓取或者禁止抓取。 和不一樣的瀏覽器 UA 不一樣同樣,不一樣廠商的 spider 也帶有特定代理的名稱。
爲了抓取網上儘量多的頁面,spider 會跟蹤網頁上的連接,從一個頁面爬到下一個頁面,就好像蜘蛛在蜘蛛網上爬行同樣。 爬行遍歷有兩種策略:
程序猿確定對這兩個遍歷算法很熟悉啦。 理論上不管是深度優先仍是廣度優先,只要給 spider 足夠的時間,老是能把互聯網上全部的頁面連接都爬取完。但實際狀況並非這樣,因爲各類資源的限制,搜索引擎也只是爬行和收錄互聯網的一部分。
因此一般 spider 都是深度優先和廣度優先混合使用。
經過上面的介紹能夠知道,spider 不可能將全部的頁面都收錄,所以 SEO 就是要經過各類手段,吸引 spider 爬行收錄本身網站更多的頁面。既然不能全部頁面都收錄,那麼 spider 確定是儘可能抓取重要頁面。那麼 spider 是如何判斷哪些頁面重要?有幾個影響因素:
爲了不重複爬行和抓取網址,搜索引擎會創建一個地址庫,記錄已經被發現尚未抓取的頁面,以及已經被抓取的頁面。經過地址庫會有幾個來源:
spider 抓取的數據存入原始頁面數據庫。其中的頁面數據與用戶瀏覽器獲得的 HTML 是徹底同樣。
檢測並刪除複製內容是在預處理的步驟處理掉。不過 spider 在爬行的時候也會進行必定程度的複製內容檢測。權重低,而大量抄襲複製內容的網站,spider 可能就再也不繼續爬行了。這也是爲何說一個網站須要原創內容的緣由。
預處理有時候也稱爲索引。由於索引是預處理中最主要的步驟。預處理有幾個步驟:
到了這一步就是處理用戶輸入,而後根據用戶輸入的關鍵詞,排名程序調用索引程序,計算排名,顯示給用戶。 這個過程也分爲下面幾個步驟:
對用戶輸入的關鍵詞進行分詞、去中止詞、指令處理等處理。
根據關鍵詞找出全部匹配關鍵字的文件。
因爲文件匹配階段出來的文件數量巨大,不可能所有顯示。所以須要根據頁面權重計算出一個子集。
選完子集後,就須要對子集中的頁面進行相關性介紹。計算相關性是排名過程最重要的一步。 影響相關性主要因素有幾點:
hexo博客SEO
,若是在頁面上連續完整出現 hexo博客SEO
,說明相關性最高。通過上面的步驟以後,已經獲得大致的排名。以後搜索引擎可能還會有一些過濾算法,對排序進行輕微調整,其中最重要的過濾就是施加懲罰。一些有做弊的頁面會被下降權重。
全部排名肯定後,排名程序就調用原始頁面的標題、Description Meta 等信息顯示在頁面上。
用戶搜索很大一部分是由重複的。因此有一部分的搜索是會被緩存下來的。
搜用用戶的 IP 地址,搜索的關鍵詞、搜索時間,以及點擊了哪些結果頁面,搜索引擎都記錄造成日誌,造成搜索統計日誌。這些日誌信息對搜索引擎判斷搜索結果質量、調整搜索算法、預期搜索趨勢等都有重要意義。
經過上面的三個步驟,你就能對搜索引擎的工做原理有了更深的理解。這對接下來要寫的站內優化內容及博客優化實踐能更好的理解。