google搜索引擎爬蟲爬網站原理

時間 2019-11-16

標籤 google 搜索引擎爬蟲爬網原理欄目 Google 简体版

原文原文鏈接

google搜索引擎爬蟲爬網站原理

1、總結

一句話總結：從幾個大站開始，而後開始爬，根據頁面中的link，不斷爬

從幾個大站開始，而後開始爬，根據頁面中的link，不斷加深爬

一、搜索引擎和數據庫檢索的區別是什麼？

數據庫索引相似分類目錄，分類目錄是人工方式創建網站的索引，全文搜索是自動方式創建網頁的索引

分類目錄則是經過人工的方式收集整理網站資料造成數據庫的，好比雅虎中國以及國內的搜狐、新浪、網易分類目錄。另外，在網上的一些導航站點，也能夠歸屬爲原始的分類目錄，好比「網址之家」（http://www.hao123.com/）。html

全文搜索引擎經過自動的方式分析網頁的超連接，依靠超連接和HTML代碼分析獲取網頁信息內容，並按事先設計好的規則分析整理造成索引，供用戶查詢。web

二者的區分可用一句話歸納：分類目錄是人工方式創建網站的索引，全文搜索是自動方式創建網頁的索引。（有些人常常把搜索引擎和數據庫檢索相比較，實際上是錯誤的）。數據庫

二、搜索引擎對相同超連接的處理的策略是什麼？

在搜索相同超連接時，會自動比對新舊網頁的內容和大小，若是一致，則不採集

搜索機器人有專門的搜索連接庫，在搜索相同超連接時，會自動比對新舊網頁的內容和大小，若是一致，則不採集。所以有人擔憂修改後的網頁是否能被收錄，這是多餘的瀏覽器

三、搜索引擎的複雜的部分是創建索引，創建索引涉及哪些知識？

索引是搜索中較爲複雜的部分，涉及到【網頁結構分析、分詞、排序】等技術，好的索引能極大的提升檢索速度。

索引（Indexing）：搜索引擎整理信息的過程稱爲「創建索引」。搜索引擎不只要保存蒐集起來的信息，還要將它們按照必定的規則進行編排。索引能夠採用通用的大型數據庫，如ORACLE、Sybase等，也能夠本身定義文件格式進行存放。索引是搜索中較爲複雜的部分，涉及到網頁結構分析、分詞、排序等技術，好的索引能極大的提升檢索速度。服務器

關鍵點1：雖然如今的搜索引擎都支持增量的索引，可是索引建立依然須要較長的時間，搜索引擎都會按期更新索引，所以即使爬蟲來過，到咱們能在頁面上搜索到，會有必定的時間間隔。網絡

關鍵點2：索引是區別好壞搜索的重要標誌。框架

四、谷歌搜索排名技術的核心？

PageRank 並不計算直接連接的數量，而是將從網頁 A 指向網頁 B 的連接解釋爲由網頁 A對網頁 B 所投的一票。這樣，PageRank 會根據網頁 B 所收到的投票數量來評估該頁的重要性。此外，PageRank還會評估每一個投票網頁的重要性，由於某些網頁的投票被認爲具備較高的價值，這樣，它所連接的網頁就能得到較高的價值。

對於搜索來講，谷歌強於百度，主要的緣由就是谷歌更加公正，而百度有不少人爲的因素（這也符合我國的國情），google之因此公正，源於他的排名技術PageRank。ide

不少人知道PageRank，是網站的質量等級，越小表示網站越優秀。其實PageRank是依靠一個專門的公式計算出來的，當咱們在google搜索關鍵詞的時候，頁面等級小的網頁排序會越靠前，這個公式並無人工干預，所以公正。工具

PageRank的最初想法來自於論文檔案的管理，咱們知道每篇論文結尾都有參考文獻，假如某篇文章被不一樣論文引用了屢次，就能夠認爲這篇文章是篇優秀的文章。post

同理，簡單的說，PageRank可以對網頁的重要性作出客觀的評價。PageRank 並不計算直接連接的數量，而是將從網頁 A 指向網頁 B 的連接解釋爲由網頁 A對網頁 B 所投的一票。這樣，PageRank 會根據網頁 B 所收到的投票數量來評估該頁的重要性。此外，PageRank還會評估每一個投票網頁的重要性，由於某些網頁的投票被認爲具備較高的價值，這樣，它所連接的網頁就能得到較高的價值。

Page Rank的公式這裏省略，說說影響Page Rank的主要因素

一、指向你的網站的超連接數量（你的網站被別人引用），這個數值越大，表示你的網站越重要，通俗的說，就是其它網站是否友情連接，或者推薦連接到你的網站；

二、超連接你的網站的重要程度，意思就是一個質量好的網站有你的網站的超連接，說明你的網站也很優秀。

三、網頁特定性因素：包括網頁的內容、標題及URL等，也就是網頁的關鍵詞及位置。

五、新網站如何才能提升搜索引擎採集到的機率和排名（僅供參考）？

（1）和優秀的網站交換連接；

（2）普遍登陸各類大網站的網站目錄列表；

（3）多去質量好的論壇發言，發言要有質量，最好不要回復，發言中留下本身網站地址；

（4）申請大網站的博客（新浪、網易、CSDN），並在博客中推廣本身的網站；

（5）使用好的建站程序，最好能生成靜態頁面和自動生成關鍵詞；

（6）重視每一個網頁的標題，以及<head>區域，儘可能把符合的關鍵詞放在這些容易被搜索索引的位置，重視文章的開頭部分，儘量在文章的開始部分使用相似摘要的功能（能夠學學網易的文章樣式）。

2、百度、谷歌搜索引擎原理

參考：百度、谷歌搜索引擎原理 - 雲淡風清的Coding - CSDN博客
https://blog.csdn.net/qq_36747842/article/details/75453579

第一節搜索引擎原理

一、基本概念

來源於中文wiki百科的解釋：（網絡）搜索引擎指自動從互聯網蒐集信息，通過必定整理之後，提供給用戶進行查詢的系統。
來源於英文wiki百科的解釋：Web search engines providean interface to search for information on the World WideWeb.Information may consist of web pages, images and other types offiles.（網絡搜索引擎爲用戶提供接口查找互聯網上的信息內容，這些信息內容包括網頁、圖片以及其餘類型的文檔）

二、分類

按照工做原理的不一樣，能夠把它們分爲兩個基本類別：全文搜索引擎（FullTextSearch Engine）和分類目錄Directory）。

分類目錄則是經過人工的方式收集整理網站資料造成數據庫的，好比雅虎中國以及國內的搜狐、新浪、網易分類目錄。另外，在網上的一些導航站點，也能夠歸屬爲原始的分類目錄，好比「網址之家」（http://www.hao123.com/）。

全文搜索引擎經過自動的方式分析網頁的超連接，依靠超連接和HTML代碼分析獲取網頁信息內容，並按事先設計好的規則分析整理造成索引，供用戶查詢。

二者的區分可用一句話歸納：分類目錄是人工方式創建網站的索引，全文搜索是自動方式創建網頁的索引。（有些人常常把搜索引擎和數據庫檢索相比較，實際上是錯誤的）。

三、全文搜索的工做原理

全文搜索引擎通常信息採集、索引、搜索三個部分組成，詳細的可由搜索器、分析器、索引器、檢索器和用戶接口等5個部分組成

（1）信息採集（Webcrawling）：信息採集的工做由搜索器和分析器共同完成，搜索引擎利用稱爲網絡爬蟲（crawlers）、網絡蜘蛛（spider）或者叫作網絡機器人（robots）的自動搜索機器人程序來查詢網頁上的超連接。

進一步解釋一下："機器人"其實是一些基於Web的程序，經過請求Web站點上的HTML網頁來對採集該HTML網頁，它遍歷指定範圍內的整個Web空間，不斷從一個網頁轉到另外一個網頁，從一個站點移動到另外一個站點，將採集到的網頁添加到網頁數據庫中。"機器人"每遇到一個新的網頁，都要搜索它內部的全部連接，因此從理論上講，若是爲"機器人"創建一個適當的初始網頁集，從這個初始網頁集出發，遍歷全部的連接，"機器人"將可以採集到整個Web空間的網頁。

網上後不少開源的爬蟲程序，能夠到一些開源社區中查找。

關鍵點1：核心在於html分析，所以嚴謹的、結構化的、可讀性強、錯誤少的html代碼，更容易被採集機器人所分析和採集。例如，某個頁面存在<body這樣的標籤或者沒有</body></html>這樣的結尾，在網頁顯示是沒有問題的，可是頗有可能會被採集拒絕收錄，在例如相似../../***.htm這樣的超連接，也有可能形成蜘蛛沒法識別。這也是須要推廣web標準的緣由之一，按照web標準制做的網頁更容易被搜索引擎檢索和收錄。

關鍵點2：搜索機器人有專門的搜索連接庫，在搜索相同超連接時，會自動比對新舊網頁的內容和大小，若是一致，則不採集。所以有人擔憂修改後的網頁是否能被收錄，這是多餘的。

（2）索引（Indexing）：搜索引擎整理信息的過程稱爲「創建索引」。搜索引擎不只要保存蒐集起來的信息，還要將它們按照必定的規則進行編排。索引能夠採用通用的大型數據庫，如ORACLE、Sybase等，也能夠本身定義文件格式進行存放。索引是搜索中較爲複雜的部分，涉及到網頁結構分析、分詞、排序等技術，好的索引能極大的提升檢索速度。

關鍵點1：雖然如今的搜索引擎都支持增量的索引，可是索引建立依然須要較長的時間，搜索引擎都會按期更新索引，所以即使爬蟲來過，到咱們能在頁面上搜索到，會有必定的時間間隔。

關鍵點2：索引是區別好壞搜索的重要標誌。

（3）檢索（Searching）：用戶向搜索引擎發出查詢，搜索引擎接受查詢並向用戶返回資料。有的系統在返回結果以前對網頁的相關度進行了計算和評估，並根據相關度進行排序，將相關度大的放在前面，相關度小的放在後面；也有的系統在用戶查詢以前已經計算了各個網頁的網頁等級（PageRank 後文會介紹），返回查詢結果時將網頁等級大的放在前面，網頁等級小的放在後面。

關鍵點1：不一樣搜索引擎有不一樣的排序規則，所以在不一樣的搜索引擎中搜索相同關鍵詞，排序是不一樣的。

第二節百度搜索引擎工做方式

我所知道的百度搜索：因爲工做的關係，小生有幸一直在使用百度的百事通企業搜索引擎（該部門現已被裁人，主要是百度的戰略開始向谷歌靠攏，再也不單獨銷售搜索引擎，轉向搜索服務），據百度的銷售人員稱，百事通的搜索核心和大搜索的相同，只有可能版本稍低，所以我有理由相信搜索的工做方式大同小異。下面是一些簡單介紹和注意點：

一、關於網站搜索的更新頻率

百度搜索能夠設定網站的更新頻率和時間，通常對於大網站更新頻度很快，並且會專門開設獨立的爬蟲進行跟蹤，不過百度是比較勤奮的，中小網站通常也會天天更新。所以，若是你但願本身的網站更新得更快，最好是在大型的分類目錄（例如yahoosina網易）中有你的連接，或者在百度本身的相關網站中，有你網站的超連接，在或者你的網站就在一些大型網站裏面，例如大型網站的blog。

二、關於採集的深度

百度搜索能夠定義採集的深度，就是說不見得百度會檢索你網站的所有內容，有可能只索引你的網站的首頁的內容，尤爲對小型網站來講。

三、關於對時常不通網站的採集

百度對於網站的通斷是有專門的判斷的，若是一旦發現某個網站不通，尤爲是一些中小網站，百度的自動中止往這些網站派出爬蟲，因此選擇好的服務器，保持網站24小時暢通很是重要。

四、關於更換IP的網站

百度搜索可以基於域名或者ip地址，若是是域名，會自動解析爲對應的ip地址，所以就會出現2個問題，第一就是若是你的網站和別人使用相同的IP地址，若是別人的網站被百度懲罰了，你的網站會受到牽連，第二就是若是你更換了ip地址，百度會發現你的域名和先前的ip地址沒有對應，也會拒絕往你的網站派出爬蟲。所以建議，不要隨意更換ip地址，若是有可能儘可能獨享ip，保持網站的穩定很重要。

五、關於靜態和動態網站的採集

不少人擔憂是否是相似asp?id=之類的頁面很難被收集，html這樣的頁面容易被收集，事實上狀況並無想的這麼糟，如今的搜索引擎大部分都支持動態網站的採集和檢索，包括須要登錄的網站均可以檢索到，所以大可沒必要擔憂本身的動態網站搜索引擎沒法識別，百度搜索中對於動態的支持能夠自定義。可是，若是有可能，仍是儘可能生成靜態頁面。同時，對於大部分搜索引擎，依然對腳本跳轉（JS）、框架（frame）、

Flash超連接，動態頁面中含有非法字符的頁面迫不得已。

六、關於索引的消失

前面講過，搜索的索引須要建立，通常好的搜索，索引都是文本文件，而不是數據庫，所以索引中須要刪除一條記錄，並非一件方便的事情。例如百度，須要使用專門的工具，人工刪除某條索引記錄。據百度員工稱，百度專門有一羣人負責這件事情——接到投訴，刪除記錄，手工。固然還能直接刪除某個規則下的全部索引，也就是能夠刪除某個網站下的全部索引。還有一個機制（未經驗證），就是對於過時的網頁和做弊的網頁（主要是網頁標題、關鍵詞和內容不匹配），在重建索引的過程當中也會被刪除。

七、關於去重

百度搜索的去重不如谷歌的理想，主要仍是判別文章的標題和來源地址，只要不相同，就不會自動去重，所以沒必要擔憂採集的內容雷同而很快被搜索懲罰，谷歌的有所不一樣，標題相同的被同時收錄的很少。

補充一句，不要把搜索引擎想得這麼智能，基本上都是按照必定的規則和公式，想不被搜索引擎懲罰，避開這些規則便可。

第三節谷歌搜索排名技術

對於搜索來講，谷歌強於百度，主要的緣由就是谷歌更加公正，而百度有不少人爲的因素（這也符合我國的國情），google之因此公正，源於他的排名技術PageRank。

不少人知道PageRank，是網站的質量等級，越小表示網站越優秀。其實PageRank是依靠一個專門的公式計算出來的，當咱們在google搜索關鍵詞的時候，頁面等級小的網頁排序會越靠前，這個公式並無人工干預，所以公正。

PageRank的最初想法來自於論文檔案的管理，咱們知道每篇論文結尾都有參考文獻，假如某篇文章被不一樣論文引用了屢次，就能夠認爲這篇文章是篇優秀的文章。

Page Rank的公式這裏省略，說說影響Page Rank的主要因素

二、超連接你的網站的重要程度，意思就是一個質量好的網站有你的網站的超連接，說明你的網站也很優秀。

三、網頁特定性因素：包括網頁的內容、標題及URL等，也就是網頁的關鍵詞及位置。

第四節新網站如何應對搜索

如下內容是對上面分析的總結：

一、搜索引擎爲何不收錄你的網站，存在如下可能（不絕對，根據各自狀況不一樣）

（1）沒有任何指向連接的孤島網頁，沒有被收錄的網站指向你的超連接，搜索引擎就沒法發現你；
（2）網站中的網頁性質及文件類型（如flash、JS跳轉、某些動態網頁、frame等）搜索引擎沒法識別；
（3）你的網站所在服務器曾被搜索引擎懲罰，而不收錄相同IP的內容；
（4）近期更換過服務器的IP地址，搜索引擎須要必定時間從新採集；
（5）服務器不穩定、頻繁宕機，或者經不起爬蟲採集的壓力；
（6）網頁代碼劣質，搜索沒法正確分析頁面內容，請至少學習一下HTML的基本語法，建議使用XHTML；
（7）網站用robots（robots.txt）協議拒絕搜索引擎抓取的網頁；
（8）使用關鍵詞做弊的網頁，網頁的關鍵詞和內容嚴重不匹配，或者某些關鍵詞密度太大；
（9）非法內容的網頁；
（10）相同網站內存在大量相同標題的網頁，或者網頁的標題沒有實際含義；

二、新站如何作才正確（僅供參考）

（1）和優秀的網站交換連接；
（2）普遍登陸各類大網站的網站目錄列表；
（3）多去質量好的論壇發言，發言要有質量，最好不要回復，發言中留下本身網站地址；
（4）申請大網站的博客（新浪、網易、CSDN），並在博客中推廣本身的網站；
（5）使用好的建站程序，最好能生成靜態頁面和自動生成關鍵詞；
（6）重視每一個網頁的標題，以及<head>區域，儘可能把符合的關鍵詞放在這些容易被搜索索引的位置，重視文章的開頭部分，儘量在文章的開始部分使用相似摘要的功能（能夠學學網易的文章樣式）。

例如「基於開源jabber(XMPP)架設內部即時通信服務的解決方案」；

標題部分：<title>基於開源jabber(XMPP)架設內部即時通信服務的解決方案- 肥龍龍（expendable）的專欄 -CSDNBlog</title>
關鍵詞部分：<meta name="keywords"cCOLOR:#c00000">安裝,">
文章描述部分：<metaname="description" cCOLOR:#c00000">是著名的即時通信服務服務器，它是一個自由開源軟件，能讓用戶本身架即時通信服務器，能夠在Internet上應用，也能夠在局域網中應用。

XMPP（可擴展消息處理現場協議）是基於可擴展標記語言（XML）的協議，它用於即時消息（IM）以及在線現場探測。它在促進服務器之

間的準即時操做。這個協議可能最終容許因特網用戶向因特網上的其餘任何人發送即時消息，即便其操做系統和瀏覽器不一樣。XMPP的技術來自

於Jabber，其實它是Jabber的核心協定，因此XMPP有時被誤稱爲Jabber協議。Jabber是一個基於XMPP協議的IM應用，除Jabber以外，XMPP還支持不少應用。