搜索引擎
基本工做原理
信息收集功能
技術點
SEO優化核心
優化重點
SEO優化
網站URL
title信息
meta信息
圖片ALT
flash信息
frame框架
網頁重要度特徵html
以前有看到一個師兄的我的博客作得很漂亮、每次打開百度後直接搜索該師兄的名字,該博客每次都排列在第一位,很神奇的事情,要知道關於SEO在不少人看來都是一門大學問。故特此簡單學習一下搜索引擎的基本知識和SEO,但願能對這方面有所瞭解!算法
搜索引擎的基本工做原理包括如下三個過程:
一、抓取網頁。每一個獨立的搜索引擎都有本身的網頁抓取程序爬蟲,爬蟲經過超連接從一個網站爬到另一個網站,經過超連接分析連續訪問抓取更多網頁,被爬取得網頁被稱爲網頁快照。
爬蟲抓取網頁的經常使用策略:
a.深度優先、b.寬度優先、c.權重優先(層次的多與少;鏈接的外鏈多少與質量)、d.重訪抓取(所有重訪;單個重訪)
二、處理網頁。抓取到了網頁後,引擎還要作大量的預處理工做,如數據分析、創建索引庫等,才能提供檢索服務。其中,最重要的就是提取關鍵詞,創建索引庫和索引。其中還包括去除重複網頁、分詞(中文)、判斷網頁類型、分析超連接、計算網頁的重要度和複雜度等。
數據處理:
a.網頁結構化(刪除html代碼,提取內容)、b.消噪(留下網頁的主題內容)、c.查重(查找重複的頁面刪除)、d.分詞(將內容分爲N個單詞,排列,存進索引庫)、e.連接分析(計算連接權重)
三、提供檢索服務。由檢索器根據用戶輸入的查詢關鍵字,在索引庫中快速檢出文檔,進行文檔和查詢的相關度評價,對將要輸出的結果進行排序,並將查詢結果返回給用戶。數據庫
搜索引擎的自動信息收集功能分爲兩種:session
搜索引擎設計的技術點:技術點主要集中在處理網頁和抓取網頁部分:如查詢處理、排序算法、頁面抓取算法、CACHE機制、ANTI-SPAM等等。架構
SEO:Search Engine Optimization,搜索引擎優化。簡單來講就是提升網站搜索友好度、使網站搜索排名提升。框架
一、網站的程序架構要儘可能保持簡潔,去除花銷的代碼,能夠嘗試JS調用。搜索引擎優化自己就與用戶體驗相通相倚,相互結合,除此以外,繁瑣的代碼不但會影響網站頁面的加載速度,讓用戶體驗下降。
二、作足站內SEO的細節功夫。從大範圍上講,是要對程序進行趨簡潔化的修正,而細節來講,就是在URL靜態化、title、keyword、description的寫法,keyword已經不被搜索引擎投以任何的重視。
三、作足站外SEO的方方面面。包括交換友情連接的注意和作普通外鏈時候應該如何操做、控制等,切勿想着走捷徑,想着羣發外鏈或者一次性購買大量高權重外鏈。這些都是SEO的錯誤思惟和策略。咱們通常推薦你們作通常性傳統SEO。
四、用戶體驗。在搜索引擎上得到排名的緣由是由於咱們爲用戶提供了有價值的內容。從發展角度去看,咱們都應該朝着作用戶、作產品、作服務的方面去發展。ide
網站建立具備良好描述性、規範、簡單的url,有利於用戶更方便的記憶和判斷網頁的內容,也有利於搜索引擎更有效的抓取你的網站。
處理方式:學習
網頁的title用於告訴用戶和搜索引擎這個網頁的主要內容是什麼,並且當用戶在百度網頁搜索中搜索到你的網頁的時候,title會做爲最重要的內容顯示在摘要中。搜索引擎在判斷一個網頁內容權重時,title是主要參考信息之一。
描述建議:優化
meta description是meta標籤的一部分,位於html的區。
meta description是對網頁內容的精簡歸納,若是meta description描述與網頁內容相符,百度會將meta description看成摘要的選擇目標之一。雖然它不是權值計算的參考因素,這個標籤存在與否不影響網頁權值,只會用做搜索結果摘要的一個選擇目標。
推薦作法:
網站首頁、頻道頁、產品參數頁等沒有大段文字能夠用做摘要的網頁最合適使用description。
爲每一個網頁建立不一樣meta description,避免全部的頁面都使用一樣的描述。
長度合理,不過長不太短。網站
建議爲圖片加alt說明,由於這樣可讓搜索引擎瞭解圖片的內容。
Baiduspider只能讀懂文本內容,flash、圖片等非文本內容暫時不能處理,放置在flash、圖片中的文字,百度沒法識別。
因此若是必定要使用flash,建議給object標籤添加註釋信息。
這些信息會被看做是對Flash的描述信息。讓搜索引擎更好的瞭解您flash的內容。
不建議使用frame和iframe框架結構,經過iframe顯示的內容可能會被百度丟棄。
體現網頁重要度的特徵有:
一、網頁的入度大,代表被其餘網頁引用的次數多。
二、某網頁的父網頁入度大。
三、網頁的鏡像度高,說明網頁比較熱門,從而顯得很重要。 四、網頁的目錄深度小,易於用戶瀏覽到。這裏定義的目錄深度是指除去域名部分的目錄層次。