爬蟲搜索基礎篇（一）

時間 2019-12-05

標籤爬蟲搜索基礎欄目網絡爬蟲简体版

原文原文鏈接

一．目的正則表達式

首先，咱們要明確，蜘蛛爬蟲的目的是什麼？天天網上都會更新大量的諮詢，爬蟲就是將這些網站、應用的精華部分提取出來。就內容的形式而言，文本結構化和非文本結構化是比較常見的兩種形式。chrome

1.非文本結構化編程

1.1 HTML文本瀏覽器

目前主流的文本信息，大部分都基於此。其實它理應屬於結構化文本，可是由於搜索引擎在提取內容的時候須要解析它的內部語言，甚至某些字符串才能獲得結果，因此仍是將其歸類爲非文本結構化信息。編輯器

列舉一些常見的解析方式：佈局

.CSS網站

這是TX首頁財經部分的代碼，一目瞭然，是用CSS來排版的。這也是目前主流的網頁佈局語言，裏面id=finance，爲了獲取這塊代碼的內容，咱們將finance標記爲「#finance」，就獲得了這塊的HTML代碼。用這種方法也能夠得到其餘內容。搜索引擎

.XPATH索引

利用chrome瀏覽器，基於XPATH的路徑選擇方法，能夠快速獲得所需內容，如圖。開發

.正則表達式

在碰到小片斷文本、字符串、或者是包含JS代碼，就須要使用到這種方法，經過標準正則解析，用指定的格式匹配相關文本，通常適用於純文本信息，能夠很好的獲取到有用的純文本信息。

.字符串分隔

不建議常常使用，這個方法跟正則表達式差很少，由於比較偷懶。

1.2 一段文本

對於純文本信息，咱們也是須要提取其中有用的內容，例如一篇文章或者是一段簡短的文字，若是是滯後處理，咱們能夠先把這些信息存儲，若是須要實時提取的，可使用如下方式處理:

.分詞

將抓取到的文本信息進行分段分析，獲取關鍵語句後進行分詞處理，而後進行分詞統計，相似於向量的表達方式。

.NLP

NLP的意思是詞義分析，將獲取到的文本信息用正負面的結果形式表示出來。

剛學的想上手試試嗎？在線編程，碼農谷智能開發在線編輯器

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。