爬蟲搜索基礎篇(一)

一.目的正則表達式

首先,咱們要明確,蜘蛛爬蟲的目的是什麼?天天網上都會更新大量的諮詢,爬蟲就是將這些網站、應用的精華部分提取出來。就內容的形式而言,文本結構化和非文本結構化是比較常見的兩種形式。chrome

1.非文本結構化編程

1.1 HTML文本瀏覽器

目前主流的文本信息,大部分都基於此。其實它理應屬於結構化文本,可是由於搜索引擎在提取內容的時候須要解析它的內部語言,甚至某些字符串才能獲得結果,因此仍是將其歸類爲非文本結構化信息。編輯器

列舉一些常見的解析方式:佈局

.CSS網站

CSS 

這是TX首頁財經部分的代碼,一目瞭然,是用CSS來排版的。這也是目前主流的網頁佈局語言,裏面id=finance,爲了獲取這塊代碼的內容,咱們將finance標記爲「#finance」,就獲得了這塊的HTML代碼。用這種方法也能夠得到其餘內容。搜索引擎

.XPATH索引

xpath 

利用chrome瀏覽器,基於XPATH的路徑選擇方法,能夠快速獲得所需內容,如圖。開發

.正則表達式

在碰到小片斷文本、字符串、或者是包含JS代碼,就須要使用到這種方法,經過標準正則解析,用指定的格式匹配相關文本,通常適用於純文本信息,能夠很好的獲取到有用的純文本信息。

.字符串分隔

不建議常常使用,這個方法跟正則表達式差很少,由於比較偷懶。

1.2 一段文本

對於純文本信息,咱們也是須要提取其中有用的內容,例如一篇文章或者是一段簡短的文字,若是是滯後處理,咱們能夠先把這些信息存儲,若是須要實時提取的,可使用如下方式處理:

.分詞

將抓取到的文本信息進行分段分析,獲取關鍵語句後進行分詞處理,而後進行分詞統計,相似於向量的表達方式。

.NLP

NLP的意思是詞義分析,將獲取到的文本信息用正負面的結果形式表示出來。

    剛學的想上手試試嗎?在線編程,碼農谷智能開發在線編輯器

    相關文章
    相關標籤/搜索