一、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view&php
Nutch 是一個開源Java 實現的搜索引擎。它提供了咱們運行本身的搜索引擎所需的所有工具。包括全文搜索和Web爬蟲。 儘管Web搜索是漫遊Internet的基本要求, 可是現有web搜索引擎的數目卻在降低. 而且這頗有可能進一步演變成爲一個公司壟斷了幾乎全部的web... 更多Nutch信息html |
最近更新:【每日一博】Nutch 的 url 的正則過濾機制研究 發佈於 20天前java
Grub Next Generation 是一個分佈式的網頁爬蟲系統,包含客戶端和服務器能夠用來維護網頁的索引。 更多Grub Next Generation信息python |
最近更新:Grub Next Generation 1.0 發佈 發佈於 3年前mysql
Soukey採摘網站數據採集軟件是一款基於.Net平臺的開源軟件,也是網站數據採集軟件類型中惟一一款開源軟件。儘管Soukey採摘開源,但並不會 影響軟件功能的提供,甚至要比一些商用軟件的功能還要豐富。Soukey採摘當前提供的主要功能以下: 1. 多任務多線... 更多網絡礦工採集器(原soukey採摘)信息web |
PhpDig是一個採用PHP開發的Web爬蟲和搜索引擎。經過對動態和靜態頁面進行索引創建一個詞彙表。當搜索查詢時,它將按必定的排序規則顯示包含關 鍵字的搜索結果頁面。PhpDig包含一個模板系統並可以索引PDF,Word,Excel,和PowerPoint文檔。PHPdig適用於專業化 更... 更多PhpDig信息正則表達式 |
Snoopy是一個強大的網站內容採集器(爬蟲)。提供獲取網頁內容,提交表單等功能。 更多Snoopy信息sql |
JSpider是一個用Java實現的WebSpider,JSpider的執行格式以下: jspider [URL] [ConfigName] URL必定要加上協議名稱,如:http://,不然會報錯。若是省掉ConfigName,則採用默認配置。 JSpider 的行爲是由配置文件具體配置的,好比採用什麼插件,結果存儲方... 更多JSpider信息數據庫 |
NWebCrawler是一款開源的C#網絡爬蟲程序 更多NWebCrawler信息編程 |
Heritrix是一個開源,可擴展的web爬蟲項目。用戶可使用它來從網上抓取想要的資源。Heritrix設計成嚴格按照robots.txt文件 的排除指示和META robots標籤。其最出色之處在於它良好的可擴展性,方便用戶實現本身的抓取邏輯。 Heritrix是一個爬蟲框架,其組織結... 更多Heritrix信息 |
Scrapy 是一套基於基於Twisted的異步處理框架,純python實現的爬蟲框架,用戶只須要定製開發幾個模塊就能夠輕鬆的實現一個爬蟲,用來抓取網頁內容以及各類圖片,很是之方便~ 更多Scrapy信息 |
最近更新:使用 Scrapy 創建一個網站抓取器 發佈於 6個月前
webmagic的是一個無須配置、便於二次開發的爬蟲框架,它提供簡單靈活的API,只需少許代碼便可實現一個爬蟲。 如下是爬取oschina博客的一段代碼: Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*")).t... 更多webmagic信息 |
最近更新:WebMagic 0.5.2發佈,Java爬蟲框架 發佈於 1個月前
OpenWebSpider是一個開源多線程Web Spider(robot:機器人,crawler:爬蟲)和包含許多有趣功能的搜索引擎。 更多OpenWebSpider信息 |
Crawler4j是一個開源的Java類庫提供一個用於抓取Web頁面的簡單接口。能夠利用它來構建一個多線程的Web爬蟲。 示例代碼: import java.util.ArrayList; import java.util.regex.Pattern; import edu.uci.ics.crawler4j.crawler.Page; import edu.uci.ics.cr... 更多Crawler4j信息 |
網頁抓取/信息提取/數據抽取軟件工具包MetaSeeker (GooSeeker) V4.11.2正式發佈,在線版免費下載和使用,源代碼可閱讀。自推出以來,深受喜好,主要應用領域: 垂直搜索(Vertical Search):也稱爲專業搜索,高速、海量和精確抓取是定題網絡爬蟲DataScrap... 更多MetaSeeker信息 |
Spiderman - 又一個Java網絡蜘蛛/爬蟲 Spiderman 是一個基於微內核+插件式架構的網絡蜘蛛,它的目標是經過簡單的方法就能將複雜的目標網頁信息抓取並解析爲本身所須要的業務數據。 主要特色 * 靈活、可擴展性強,微內核+插件式架構,Spiderman提供了多達 ... 更多Spiderman信息 |
Methanol 是一個模塊化的可定製的網頁爬蟲軟件,主要的優勢是速度快。 更多Methanol信息 |
larbin是一種開源的網絡爬蟲/網絡蜘蛛,由法國的年輕人 Sébastien Ailleret獨立開發。larbin目的是可以跟蹤頁面的url進行擴展的抓取,最後爲搜索引擎提供普遍的數據來源。Larbin只是一個爬蟲,也就 是說larbin只抓取網頁,至於如何parse的事情則由用戶本身... 更多larbin信息 |
國內第一個針對微博數據的爬蟲程序!原名「新浪微博爬蟲」。 登陸後,能夠指定用戶爲起點,以該用戶的關注人、粉絲爲線索,延人脈關係蒐集用戶基本信息、微博數據、評論數據。 該應用獲取的數據可做爲科研、與新浪微博相關的研發等的數據支持,但請勿用於商... 更多Sinawler信息 |
Xenu Link Sleuth 也許是你所見過的最小但功能最強大的檢查網站死連接的軟件了。你能夠打開一個本地網頁文件來檢查它的連接,也能夠輸入任何網址來檢查。它能夠分別列出網站 的活連接以及死連接,連轉向連接它都分析得一清二楚;支持多線程 ,能夠把檢查結... 更多Xenu信息 |
Web-Harvest是一個Java開源Web數據抽取工具。它可以收集指定的Web頁面並從這些頁面中提取有用的數據。Web-Harvest主要是運用了像XSLT,XQuery,正則表達式等這些技術來實現對text/xml的操做。 更多Web-Harvest信息 |
playfish 是一個採用java技術,綜合應用多個開源java組件實現的網頁抓取工具,經過XML配置文件實現高度可定製性與可擴展性的網頁抓取工 具 應用開源jar包包括httpclient(內容讀取),dom4j(配置文件解析),jericho(html解析),已經在 war包的lib下。 這個 |
本系統採用主流編程語言php和mysql數據庫,您能夠經過自定義採集規則,或者到個人網站下載共享的規則,針對網站或者網站羣,採集您所需的數據,您 也能夠向全部人共享您的採集規則哦。經過數據瀏覽和編輯器,編輯您所採集的數據。 本系統全部代碼徹底開源,... 更多易得網絡數據採集系統信息 |
YaCy基於p2p的分佈式Web搜索引擎.同時也是一個Http緩存代理服務器.這個項目是構建基於p2p Web索引網絡的一個新方法.它能夠搜索你本身的或全局的索引,也能夠Crawl本身的網頁或啓動分佈式Crawling等. 更多YaCy信息 |
最近更新: YaCy 1.4 發佈,分佈式Web搜索引擎 發佈於 1年前
Smart and Simple Web Crawler是一個Web爬蟲框架。集成Lucene支持。該爬蟲能夠從單個連接或一個連接數組開始,提供兩種遍歷模式:最大迭代和最大深度。能夠設置 過濾器限制爬回來的連接,默認提供三個過濾器ServerFilter、BeginningPathFilter和 RegularE... 更多Smart and Simple Web Crawler信息 |
crawlzilla 是一個幫你輕鬆創建搜尋引擎的自由軟體,有了它,你就不用依靠商業公司的收尋引擎,也不用再煩惱公司內部網站資料索引的問題 由 nutch 專案為核心,並整合更多相關套件,並開發設計安裝與管理UI,讓使用者更方便上手。 crawlzilla 除了爬取基本... 更多CrawlZilla信息 |
HttpBot 是對 java.net.HttpURLConnection類的簡單封裝,能夠方便的獲取網頁內容,而且自動管理session,自動處理301重定向等。雖 然不能像HttpClient那樣強大,支持完整的Http協議,但卻很是地靈活,能夠知足我目前全部的相關需求。... 更多HttpBot信息 |
NZBGet是一個新聞採集器,其中重新聞組下載的資料格式爲nzb文件。它可用於單機和服務器/客戶端模式。在獨立模式中經過nzb文件做爲參數的命令 行來下載文件。服務器和客戶端都只有一個可執行文件」nzbget」。 功能和特色 控制檯界面,使用純文本,彩色文字或... 更多NZBGet信息 |
Ex-Crawler 是一個網頁爬蟲,採用 Java 開發,該項目分紅兩部分,一個是守護進程,另一個是靈活可配置的 Web 爬蟲。使用數據庫存儲網頁信息。 更多Ex-Crawler信息 |
JobHunter旨在自動地從一些大型站點來獲取招聘信息,如chinahr,51job,zhaopin等等。JobHunter 搜索每一個工做項目的郵件地址,自動地向這一郵件地址發送申請文本。 更多JobHunter信息 |
HiSpider is a fast and high performance spider with high speed 嚴格說只能是一個spider系統的框架, 沒有細化需求, 目前只是能提取URL, URL排重, 異步DNS解析, 隊列化任務, 支持N機分佈式下載, 支持網站定向下載(須要配置hispiderd.ini whitelist). 特徵... 更多hispider信息 |
Combine 是一個用Perl語言開發的開放的可擴展的互聯網資源爬蟲程序。 更多Combine信息 |
jcrawl是一款小巧性能優良的的web爬蟲,它能夠從網頁抓取各類類型的文件,基於用戶定義的符號,好比email,qq. 更多jcrawl信息 |
Ebot 是一個用 ErLang 語言開發的可伸縮的分佈式網頁爬蟲,URLs 被保存在數據庫中可經過 RESTful 的 HTTP 請求來查詢。 更多Ebot信息 |
spidernet是一個以遞歸樹爲模型的多線程web爬蟲程序, 支持text/html資源的獲取. 能夠設定爬行深度, 最大下載字節數限制, 支持gzip解碼, 支持以gbk(gb2312)和utf8編碼的資源; 存儲於sqlite數據文件. 源碼中TODO:標記描述了未完成功能, 但願提交你的代碼.... 更多spidernet信息 |
ItSucks是一個java web spider(web機器人,爬蟲)開源項目。支持經過下載模板和正則表達式來定義下載規則。提供一個swing GUI操做界面。 更多ItSucks信息 |
BlueLeech是一個開源程序,它從指定的URL開始,搜索全部可用的連接,以及連接之上的連接。它在搜索的同時能夠下載遇到的連接所指向的全部的或預約義的範圍的內容。 更多BlueLeech信息 |
urlwatch 是一個用來監控指定的URL地址的 Python 腳本,一旦指定的 URL 內容有變化時候將經過郵件方式通知到。 基本功能 配置簡單,經過文本文件來指定URL,一行一個URL地址; Easily hackable (clean Python implementation) Can run as a cronjob and m... 更多urlwatch信息 |
最近更新: urlwatch 1.8 發佈 發佈於 4年前
Methabot 是一個通過速度優化的高可配置的 WEB、FTP、本地文件系統的爬蟲軟件。 更多Methabot信息 |
用JAVA編寫的web 搜索和爬蟲,包括全文和分類垂直搜索,以及分詞系統 更多Leopdo信息 |
NCrawler 是一個Web Crawler 工具,它可讓開發人員很輕鬆的發展出具備Web Crawler 能力的應用程式,而且具備能夠延展的能力,讓開發人員能夠擴充它的功能,以支援其餘類型的資源(例如PDF /Word/Excel 等檔案或其餘資料來源)。 NCrawler 使用多執行緒(... 更多NCrawler信息 |
Crawljax: java編寫,開放源代碼。 Crawljax 是一個 Java 的工具用於自動化的爬取和測試如今的 Ajax Web 應用。 |