我正在考慮嘗試Beautiful Soup ,一個用於HTML抓取的Python包。 還有其餘我應該查看的HTML抓包工具嗎? Python不是必需的,我實際上也對其餘語言感興趣。 php
到目前爲止的故事: html
「簡單HTML DOM解析器」對於PHP是一個不錯的選擇,若是您熟悉jQuery或JavaScript選擇器,那麼您將發現本身在家裏。 html5
在這裏找到 node
這裏也有關於它的博客文章。 git
我知道並喜歡Screen-Scraper 。 github
屏幕抓取工具是一種用於從網站提取數據的工具。 Screen-Scraper自動化: web
* Clicking links on websites * Entering data into forms and submitting * Iterating through search result pages * Downloading files (PDF, MS Word, images, etc.)
常見用途: 算法
* Download all products, records from a website * Build a shopping comparison site * Perform market research * Integrate or migrate data
技術: api
* Graphical interface--easy automation * Cross platform (Linux, Mac, Windows, etc.) * Integrates with most programming languages (Java, PHP, .NET, ASP, Ruby, etc.) * Runs on workstations or servers
三種版本的屏幕抓取器: 瀏覽器
* Enterprise: The most feature-rich edition of screen-scraper. All capabilities are enabled. * Professional: Designed to be capable of handling most common scraping projects. * Basic: Works great for simple projects, but not nearly as many features as its two older brothers.
好吧,若是您但願僅使用瀏覽器從客戶端完成此操做,則可使用jcrawl.com 。 從Web應用程序( http://www.jcrawl.com/app.html )設計了剪貼服務以後,只須要將生成的腳本添加到HTML頁面便可開始使用/呈現數據。
全部抓取邏輯都是經過JavaScript在瀏覽器上發生的。 但願對你有幫助。 單擊此連接以獲取從Yahoo網球中提取最新新聞的實時示例。
我在Perl中使用了LWP和HTML :: TreeBuilder ,而且發現它們很是有用。
LWP(libwww-perl的縮寫)可以讓您鏈接到網站並抓取HTML, 您能夠在此處獲取模塊,而O'Reilly的書彷佛在此處 。
TreeBuilder容許您從HTML構造樹,而且HTML :: TreeBuilder-Parser提供了創建HTML語法樹的文檔和源代碼 。
可是,與這種方法相比,可能還有不少繁重的工做要作。 我沒有看另外一個答案建議的「 機械化」模塊 ,因此我極可能會這樣作。
HTML5解析算法的實現 : html5lib (Python,Ruby), Validator.nu HTML解析器 (Java,JavaScript;開發中的C ++), Hubbub (C), Twintsam (C#;即將推出)。