Zac出版的《SEO實戰密碼》是SEO入門的好書,惋惜我在噹噹網買的電子書受DRM版權保護,沒法與你們分享。html
我在網上找到了此書的 瞭解搜索引擎 章節,很是詳細,且容易理解。連接以下:java
http://www.21jn.net/seo/zac/zac.htmlweb
SEO由英文Search Engine Optimization縮寫而來,中文意譯爲「搜索引擎優化」。SEO是指從天然搜索結果得到網站流量的技術和過程,是在瞭解搜索引擎天然排名機制的基礎上,對網站進行內部及外部的調整優化,改進網站在搜索引擎中的關鍵詞天然排名,得到更多流量。博客SEO的目的,就是要提高博客的訪問量和人氣。算法
要想作好SEO,就必須簡單瞭解搜索引擎工做原理以及天然排名機制。數據庫
搜索引擎工做過程很是複雜,我這裏只簡單介紹搜索引擎是怎樣實現網頁排名的,而且我只是針對註冊類博客的SEO須要瞭解的知識。本文章介紹的內容相對於真正的搜索引擎技術,來講只是皮毛,不過對博客的SEO已經足夠用了。我儘可能最容易理解的方式,而且不設計到算法和深奧的理論知識。工具
搜索引擎的工做過程大致上能夠分紅三個階段:爬行和抓取、預處理、返回搜索結果。學習
搜索引擎蜘蛛經過跟蹤連接訪問網頁,得到頁面HTML代碼存入數據庫。優化
搜索引擎蜘蛛是怎樣抓取網頁的呢?網站
發現某一個連接 → 下載這一個網頁 → 加入到臨時庫 → 提取網頁中的連接 → 在下載網頁 → 循環。搜索引擎
首先搜索引擎的蜘蛛須要去發現連接,至於怎麼發現就簡單了,就是經過連接發現連接。其方式有深度優先和廣度優先。固然咱們註冊的博客基本不考慮網站目錄結構的問題。一般網站結構一般分爲如下三個層次:首頁——頻道——文章頁。理想的網站結構應該是更扁平一些,從首頁到內容頁的層次儘可能少,這樣搜索引擎處理起來,會更簡單。
對於博客SEO,要想讓蜘蛛抓取咱們的文章,就必須爲文章導入連接。不管是外部連接仍是同一個博客的內部連接,均可以增大蜘蛛發現網頁並爬行的機率。不然蜘蛛根本沒有機會知道頁面的存在。
好比:我寫系列博客喜歡把相關文章的鏈接寫在博文裏,雖然開始個人文章沒有一篇被百度收錄。一天,有一篇文章上了http協議分析工具上了博客園-原創精華區,由於其頁面權重高,百度蜘蛛抓取也就越頻繁。隨着這一篇博文的收錄,個人全部博文就都被百度收錄了。
索引程序對抓取來的頁面數據主要進行關鍵詞提取、生成倒排索引、頁面PageRank值計算、關鍵詞與頁面相關性、TrustRank值計算等處理,以備排名程序調用。這是搜索引擎能在極短期內返回搜索結果的關鍵。其中咱們最關心的是PR值和相關性。
PageRank原理
瞭解PageRank也就是理解爲何SEO要求必定數量高質量的外鏈。
PageRank能夠形象的比喻成:一個頁面的排名是由連接來"投票"的結果,而且是權重不等的投票,優秀的網站爲你投的一票會爲你的排名更靠前,垃圾網站就沒啥用。所以高質量的外鏈是對SEO是頗有幫助的。
通過頁面PageRank值計算以後,網頁會獲得一個與頁面主題(內容)無關的排名。
PageRank值決定因數:(來自維基百科)
PageRank works by counting the number and quality of links to a page to determine a rough estimate of how important the website is. The underlying assumption is that more important websites are likely to receive more links from other websites。
上面這段話的大意是:PR值是經過指向該頁面連接的數量和質量來決定。
連接的質量怎麼理解?
假設一個網頁PR值較高(重要性高),那麼出如今該網頁內的鏈接質量就比較好。一般一些權威網站PR值較高。
這也就意味着網頁之間的重要性會傳遞。一個連接傳遞的PR值決定於導入連接所在頁面的PR值,發出連接的頁面自己PR值越高,所能傳遞出去的PR也越高。
瞭解相關鍵詞與頁面的相關性就是要理解爲何SEO要求作好文章的錨文本以及關鍵字優化。
影響頁面與搜索關鍵詞相關性的因素有連接分析、詞頻及密度、關鍵詞位置及形式、關鍵詞距離等因素,其中連接分析佔了至關大的比重。
不得不提的是百度創始人李彥宏的超鏈分析專利。
創建一個連接詞庫,記錄連接錨文字的一些相關信息,如錨文字中包含哪些關鍵詞,發出連接的頁面索引,包含特定錨文字的連接總數,包含特定關鍵詞的連接都指向哪些頁面。詞庫不只包含關鍵詞原型,也包含同一個詞幹的其餘衍生關鍵詞。
根據這些連接數據,尤爲是錨文字,計算出基於連接的網頁的相關性。在用戶搜索時,將獲得的基於連接的相關性與基於關鍵詞匹配的傳統相關性綜合使用,獲得更準確的排名。
頁面有越多以搜索詞爲錨文字的導入連接(這句話得仔細體會),說明頁面的相關性越強。連接分析還包括了連接源頁面自己的主題、錨文字周圍的文字等,好比一個服裝類的網站有指向java語言學習頁面的鏈接,那麼這個頁面和搜索關鍵詞的相關性就低。
用戶輸入關鍵詞後,排名程序調用索引庫數據,匹配關鍵詞,而後按必定格式生搜索結果頁面。這是由於前面的預處理,搜索引擎能在極短期內返回結果。
百度搜索結果顯示格式
天然結果格式解析
百度天然界結果的一條記錄格式以下:
第一行是頁面標題,一般取自頁面HTML代碼中的標題標籤(Title Tag)。這是結果列表中最醒目的部分,用戶點擊標題就能夠訪問對應的網頁。因此頁面標題標籤的寫法,不管對排名仍是點擊率都有重要意義。
第2、三行是頁面說明。頁面說明有的時候取自頁面HTML中的說明標籤(DescriptionTag),有的時候是從頁面可見文字中動態抓取相關內容。因此顯示什麼頁面說明文字是用戶查詢時才決定的。
第四行是百度快照和百度口碑的好評率,注意這個好評率是整個網站的好評率,而不是單個網頁。