(30 hackdays day 22) Import.io - 最簡單好用的網頁爬蟲服務

import.io,一個2012年成立的公司。至今已經有3m刀的...種子輪...爲毛...程序員

注意,這是一篇由腦殘和圖片組成的文章。chrome

圖片描述

anyway,import.io是我用過最簡單的爬蟲,沒有之一。簡單到...只要輸入一個網址(固然其實它能夠更簡單到不用輸入http://),就能夠得到一個該頁面對應的API。更牛逼的是,這是一個我想尋找付費服務卻尋覓不得的產品!segmentfault

兩步獲得網站API

  1. 打開https://magic.import.io/ 輸入要爬取的網址,好比http://producthunt.com
  2. 調整你須要的數據列,好比把url_link那列改成title
  3. 點擊下面的GET API...

而後import.io就會給出一個GET API,一個POST API,甚至還有直接從Google sheets取數據的地址!瀏覽器

圖片描述

這個API足夠足夠簡單吧!也不用[o]auth就直接拿數據!惟一惋惜的一點是,彷佛它有一些延遲,無法很實時得到數據(也正是這時候我開始滿頁面找pricing...)。cookie

除了GET之外,你還能夠往裏拽(POST)其餘URL,很適合那種同構的多頁爬取。app

固然,雖然你以爲Http GET已經足夠簡單了,但import.io不這麼認爲,它以爲你仍是須要SDK的...好吧,其實我是爲了展現他的API doc頁面...裏紅色的那部分!想起了一個之前看到過別人分享的註釋網站

//Attempt Handshake: Hello? This is London calling. Are we reaching you?
//Handshake Failed: I don't understand...he just hung up.

圖片描述

import.io不光是一個爬網頁的平臺,它還提供存儲,搜索(是的...)等服務。贊一下里面的文檔樣式。url

圖片描述

App

一個爬蟲用的桌面App?想到了啥?像瀏覽器同樣,圈圈點點?
這裏下載import.io的桌面應用,安裝完了去桌面打開(誰知道爲啥它不扔launcher裏...),splash都cute到死...spa

圖片描述

打開之後呢,發現呢,就是個firefox內核的瀏覽器...區別就在與在這個app裏可使用chrome裏沒法使用的API from URL 2.0,API from Authenticated URL這些功能。估計就是爲了把各類登錄cookie都很容易拿到,因此就作了個瀏覽器的殼吧。firefox

用起來才發現這簡直是...簡直了...找到要爬的頁面,鼠標選擇要爬取的內容,搞定之後publish就能夠產生一個某類頁面的API了,之後只須要把新的文章URL扔給他就ok了。

圖片描述

能夠看出import.io其實沒有diffbot那麼智能,但對於那些懶得寫xpath的程序員,import.io真的很方便!說到xpath,彷佛我真的很久沒寫過了...能夠看出import.io也是用xpath來實現的。

圖片描述

好啦,這篇真的是一行代碼都沒有(這徹底是爲了配合import.io的好用好吧)...好吧,我有姿式我自豪~

相關文章
相關標籤/搜索