好長時間沒寫文章了,由於我最近一直在琢磨博客園如何才能成爲一家上市公司,上市前我在博客園買點原始股,說不定就發了。java
如今遇到錯誤老是先谷歌,谷歌背牆,在百度,百度不到在到博客園找 找看看算法
由於找找看的數據都是博客園的,數據量太少,我想找找看這個功能能不能升級都全網搜索,主要搜索和代碼相關的網頁,ide
這個搜索分英文版和中文版,中文錯誤 走中文版國內採集,英文錯誤 走國外採集的網頁網站
固然,要上市,必需要有概念性的功能,我以爲 搜索引擎
1指定關鍵詞全網抓取和指定域名全網抓取 ,用戶能夠本身指定 要抓取的內容idea
(這個主要用於查找各類錯誤等等)orm
2 抓取算法的開源和透明是必須索引
3展現算法的開源和透明也是必須get
你們補充下其餘功能博客
============================================================
ps:idea 開源與我最近在折騰本身的小站(http://www.unknownerror.org/) ,主要練習ASP.NET MVC3,各類開源orm,基於Html Agility Pack和ScapySharp的數據採集,
外加lucenenet
發現一個一個網站的採集是在太鬱悶了
後來找到 Nutch 這個東西,一看是作搜索引擎用,怎奈是java的,俺不會。。SO,這個想法交給dudu和看到園友們,最合適了