HTML抓取的選項? [關閉]

我正在考慮嘗試Beautiful Soup ,一個用於HTML抓取的Python包。 還有其餘我應該查看的HTML抓包工具嗎? Python不是必需的,我實際上也對其餘語言感興趣。 php

到目前爲止的故事: html


#1樓

「簡單HTML DOM解析器」對於PHP是一個不錯的選擇,若是您熟悉jQuery或JavaScript選擇器,那麼您將發現本身在家裏。 html5

在這裏找到 node

這裏也有關於它的博客文章。 git


#2樓

我知道並喜歡Screen-Scrapergithub

屏幕抓取工具是一種用於從網站提取數據的工具。 Screen-Scraper自動化: web

* Clicking links on websites
* Entering data into forms and submitting
* Iterating through search result pages
* Downloading files (PDF, MS Word, images, etc.)

常見用途: 算法

* Download all products, records from a website
* Build a shopping comparison site
* Perform market research
* Integrate or migrate data

技術: api

* Graphical interface--easy automation
* Cross platform (Linux, Mac, Windows, etc.)
* Integrates with most programming languages (Java, PHP, .NET, ASP, Ruby, etc.)
* Runs on workstations or servers

三種版本的屏幕抓取器: 瀏覽器

* Enterprise: The most feature-rich edition of screen-scraper. All capabilities are enabled.
* Professional: Designed to be capable of handling most common scraping projects.
* Basic: Works great for simple projects, but not nearly as many features as its two older brothers.

#3樓

好吧,若是您但願僅使用瀏覽器從客戶端完成此操做,則可使用jcrawl.com 。 從Web應用程序( http://www.jcrawl.com/app.html )設計了剪貼服務以後,只須要將生成的腳本添加到HTML頁面便可開始使用/呈現數據。

全部抓取邏輯都是經過JavaScript在瀏覽器上發生的。 但願對你有幫助。 單擊此連接以獲取從Yahoo網球中提取最新新聞的實時示例。


#4樓

我在Perl中使用了LWPHTML :: TreeBuilder ,而且發現它們很是有用。

LWP(libwww-perl的縮寫)可以讓您鏈接到網站並抓取HTML, 您能夠在此處獲取模塊,而O'Reilly的書彷佛在此處

TreeBuilder容許您從HTML構造樹,而且HTML :: TreeBuilder-Parser提供了創建HTML語法樹的文檔和源代碼

可是,與這種方法相比,可能還有不少繁重的工做要作。 我沒有看另外一個答案建議的「 機械化」模塊 ,因此我極可能會這樣作。


#5樓

HTML5解析算法的實現html5lib (Python,Ruby), Validator.nu HTML解析器 (Java,JavaScript;開發中的C ++), Hubbub (C), Twintsam (C#;即將推出)。

相關文章
相關標籤/搜索