參考地址javascript
Nutch 是一個開源Java 實現的搜索引擎。它提供了咱們運行本身的搜索引擎所需的所有工具。包括全文搜索和Web爬蟲。 Nutch的創始人是Doug Cutting,他同時也是Lucene、Hadoop和Avro開源項目的創始人。 Nutch誕生於2002年8月,是Apache旗下的一個用Java實現...html
JAVA爬蟲 WebCollectorjava
爬蟲簡介: WebCollector是一個無須配置、便於二次開發的JAVA爬蟲框架(內核),它提供精簡的的API,只需少許代碼便可實現一個功能強大的爬蟲。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分佈式爬取。 爬蟲內核: WebCollector致力於維護一個穩...git
webmagic的是一個無須配置、便於二次開發的爬蟲框架,它提供簡單靈活的API,只需少許代碼便可實現一個爬蟲。 如下是爬取oschina博客的一段代碼: Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*"))....web
web爬蟲 Heritrixajax
Heritrix是一個開源,可擴展的web爬蟲項目。用戶可使用它來從網上抓取想要的資源。Heritrix設計成嚴格按照robots.txt文件的排除指示和META robots標籤。其最出色之處在於它良好的可擴展性,方便用戶實現本身的抓取邏輯。 Heritrix是一個爬蟲框架,其組織結...正則表達式
JSpider是一個用Java實現的WebSpider,JSpider的執行格式以下: jspider [URL] [ConfigName] URL必定要加上協議名稱,如:http://,不然會報錯。若是省掉ConfigName,則採用默認配置。 JSpider 的行爲是由配置文件具體配置的,好比採用什麼插件,結果存儲方..數據庫
Spiderman - 又一個Java網絡蜘蛛/爬蟲 Spiderman 是一個基於微內核+插件式架構的網絡蜘蛛,它的目標是經過簡單的方法就能將複雜的目標網頁信息抓取並解析爲本身所須要的業務數據。 最新提示:歡迎來體驗最新版本Spiderman2,http://git.oschina.net/l-weiw...網頁爬蟲
Crawler4j是一個開源的Java類庫提供一個用於抓取Web頁面的簡單接口。能夠利用它來構建一個多線程的Web爬蟲。 示例代碼: import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr...數組
Web-Harvest是一個Java開源Web數據抽取工具。它可以收集指定的Web頁面並從這些頁面中提取有用的數據。Web-Harvest主要是運用了像XSLT,XQuery,正則表達式等這些技術來實現對text/xml的操做。
playfish是一個採用java技術,綜合應用多個開源java組件實現的網頁抓取工具,經過XML配置文件實現高度可定製性與可擴展性的網頁抓取工具 應用開源jar包包括httpclient(內容讀取),dom4j(配置文件解析),jericho(html解析),已經在 war包的lib下。 這個項...
crawlzilla 是一個幫你輕鬆創建搜尋引擎的自由軟體,有了它,你就不用依靠商業公司的收尋引擎,也不用再煩惱公司內部網站資料索引的問題 由 nutch 專案為核心,並整合更多相關套件,並開發設計安裝與管理UI,讓使用者更方便上手。 crawlzilla 除了爬取基本...
YaCy基於p2p的分佈式Web搜索引擎.同時也是一個Http緩存代理服務器.這個項目是構建基於p2p Web索引網絡的一個新方法.它能夠搜索你本身的或全局的索引,也能夠Crawl本身的網頁或啓動分佈式Crawling等
基於Apache Nutch和Htmlunit的擴展實現AJAX頁面爬蟲抓取解析插件 nutch-htmlunit
Nutch Htmlunit Plugin 重要說明: 當前項目基於Nutch 1.X系列已中止更新維護,轉向Nutch 2.x系列版本的新項目:http://www.oschina.net/p/nutch-ajax 項目簡介 基於Apache Nutch 1.8和Htmlunit組件,實現對於AJAX加載類型頁面的完整頁面內容抓取解析。 Ac..
網頁爬蟲 Ex-Crawler
Ex-Crawler 是一個網頁爬蟲,採用 Java 開發,該項目分紅兩部分,一個是守護進程,另一個是靈活可配置的 Web 爬蟲。使用數據庫存儲網頁信息。
HttpBot 是對 java.net.HttpURLConnection類的簡單封裝,能夠方便的獲取網頁內容,而且自動管理session,自動處理301重定向等。雖然不能像HttpClient那樣強大,支持完整的Http協議,但卻很是地靈活,能夠知足我目前全部的相關需求。..
Smart and Simple Web Crawler是一個Web爬蟲框架。集成Lucene支持。該爬蟲能夠從單個連接或一個連接數組開始,提供兩種遍歷模式:最大迭代和最大深度。能夠設置 過濾器限制爬回來的連接,默認提供三個過濾器ServerFilter、BeginningPathFilter和 RegularE...
JobHunter旨在自動地從一些大型站點來獲取招聘信息,如chinahr,51job,zhaopin等等。JobHunter 搜索每一個工做項目的郵件地址,自動地向這一郵件地址發送申請文本。
jcrawl是一款小巧性能優良的的web爬蟲,它能夠從網頁抓取各類類型的文件,基於用戶定義的符號,好比email,qq.
goodcrawler(GC) 網絡爬蟲 GC是一個垂直領域的爬蟲,同時也是一個拆箱即用的搜索引擎。 GC基於httpclient、htmlunit、jsoup、elasticsearch。 GC的特色: 一、具備DSL特性的模板。 二、分佈式、可擴展。 三、辛虧有htmlunit,它能較好地支持javascript。 五、合...
ItSucks是一個java web spider(web機器人,爬蟲)開源項目。支持經過下載模板和正則表達式來定義下載規則。提供一個swing GUI操做界面。
用JAVA編寫的web 搜索和爬蟲,包括全文和分類垂直搜索,以及分詞系統