挖掘機技術哪家強?嚴肅點,咱們來認真討論這個問題。
假設咱們討論的是哪家培訓挖掘機技術最強。首先,咱們得知道有哪些地方可以學到挖掘機技術。而後,咱們要想個辦法定義「強」。最後咱們得能算出來結果。前端
要知道都有哪些學校教挖掘機,我能想到的就兩個來源:技校的黃頁,搜索結果。前者可能有專業的技校匯聚網站能夠爬取到,後者能夠用第三方的搜索服務獲取。因而我Google了下「挖掘機技術培訓學校列表」。發現前幾條結果都是www.peixun360.com他家的,因此我決定先把這個網站的挖掘機學校列表爬下來。算法
Diffbot是一個幫助人們將網頁數據轉換爲結構化信息(其實就是爬蟲乾的事兒)的在線服務。經過簡單的點選網頁上的信息,指定到對應的結構化信息。它就能幫你把一個網站的信息轉換成一個結構化的API。換句話說就是一個普通用戶也能爬京東,把某類產品的網頁變成一個「excel」。wordpress
Diffbot的API基本都分爲Automatic和Custom兩種,前者不用作任何事兒,算法自動幫你提取信息,後者能夠有更大的自由度。網站
Product API是Diffbot重要API之一,用處就是幫助你自動分析一個「產品」頁面的信息。好比「潞城挖掘機精品班」(是的,我看到28913也驚了,但放心,後面不是連續的...)。扔給Diffbot之後就會分析出下面的信息。spa
是否是挺整齊的了?這仍是我徹底沒有控制的狀況自動提取的結構信息。下面咱們來用下Custom API,也就是指哪打哪那個。excel
先建立一個Custom API的Rule。能夠看到Diffbot提供的Product的基本信息已經有不少了,什麼OFFER PRICE,REG. PRICE,SAVE AMT.,BRAND之類的。那咱們來把品牌加上吧。blog
能夠看到這裏挑選一個域數據的方式很直觀,鼠標選擇一個Div,Diffbot就會幫你把它賦值過去。這裏的小問題是它前端代碼對中文的支持還有bug。但Save之後數據是正常的中文。當咱們定製了一個新Field之後,這個自定義的Product的Rule就建立好了。這個Custom API也就能正常提取同類網頁數據啦。
而後我就想試試Bulk API和Crawlbot。前者可讓你輸入一系列的URL,好比幾家挖掘機學校的詳情頁URL列表,後者能夠爬取一個網站,從而對某些符合規則的網頁調用Custom API。但...但...丫是收費API,並且...並且…我交不起的300刀一個月...因此…因此…不是我偷懶~get
好啦,這就是一個幫助SB也能爬網頁的產品啦~(我得想別的辦法拿到挖掘機學校列表了...)明天見...產品