(30 hackdays day 22) Import.io - 最簡單好用的網頁爬蟲服務

時間 2019-11-10

標籤 hackdays day import.io import 最簡單好用網頁爬蟲服務欄目 HTML 简体版

原文原文鏈接

import.io，一個2012年成立的公司。至今已經有3m刀的...種子輪...爲毛...程序員

注意，這是一篇由腦殘和圖片組成的文章。chrome

anyway，import.io是我用過最簡單的爬蟲，沒有之一。簡單到...只要輸入一個網址（固然其實它能夠更簡單到不用輸入http://），就能夠得到一個該頁面對應的API。更牛逼的是，這是一個我想尋找付費服務卻尋覓不得的產品！segmentfault

兩步獲得網站API

而後import.io就會給出一個GET API，一個POST API，甚至還有直接從Google sheets取數據的地址！瀏覽器

這個API足夠足夠簡單吧！也不用[o]auth就直接拿數據！惟一惋惜的一點是，彷佛它有一些延遲，無法很實時得到數據（也正是這時候我開始滿頁面找pricing...）。cookie

除了GET之外，你還能夠往裏拽（POST）其餘URL，很適合那種同構的多頁爬取。app

固然，雖然你以爲Http GET已經足夠簡單了，但import.io不這麼認爲，它以爲你仍是須要SDK的...好吧，其實我是爲了展現他的API doc頁面...裏紅色的那部分！想起了一個之前看到過別人分享的註釋網站

//Attempt Handshake: Hello? This is London calling. Are we reaching you?
//Handshake Failed: I don't understand...he just hung up.

import.io不光是一個爬網頁的平臺，它還提供存儲，搜索（是的...）等服務。贊一下里面的文檔樣式。url

一個爬蟲用的桌面App？想到了啥？像瀏覽器同樣，圈圈點點？
從這裏下載import.io的桌面應用，安裝完了去桌面打開（誰知道爲啥它不扔launcher裏...），splash都cute到死...spa

打開之後呢，發現呢，就是個firefox內核的瀏覽器...區別就在與在這個app裏可使用chrome裏沒法使用的API from URL 2.0，API from Authenticated URL這些功能。估計就是爲了把各類登錄cookie都很容易拿到，因此就作了個瀏覽器的殼吧。firefox

用起來才發現這簡直是...簡直了...找到要爬的頁面，鼠標選擇要爬取的內容，搞定之後publish就能夠產生一個某類頁面的API了，之後只須要把新的文章URL扔給他就ok了。

能夠看出import.io其實沒有diffbot那麼智能，但對於那些懶得寫xpath的程序員，import.io真的很方便！說到xpath，彷佛我真的很久沒寫過了...能夠看出import.io也是用xpath來實現的。

好啦，這篇真的是一行代碼都沒有（這徹底是爲了配合import.io的好用好吧）...好吧，我有姿式我自豪~

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。