網頁抓取/收據抽取/信息提取軟件工具包MetaSeeker怎樣作垂直搜索和商品比價服務

假設要作一個書籍搜索和比價服務,使用網頁抓取/數據抽取/信息提取軟件工具包MetaSeeker作出來的服務與其餘相似的網站有什麼不一樣呢? php

確實有很大的不一樣,主要緣由是MetaSeeker工具包中的SliceSearch搜索引擎是一個綜合的異構數據信息對象管理系統,作出來的垂直搜索在用戶體驗方面有很大的不一樣。下面將詳細講解一下。 node

垂直搜索服務,同普通搜索不同,垂直搜索抓取到HTML網絡頁面時,不是將全部的文本一股腦都入庫,而是採用抽取技術,將數據對象的各個字段分別提取出來,數據對象變成有結構的了,每一個字段都關聯了特定的語義描述,就像關係數據庫中每一個字段都一個字段名字。變成結構化數據後存儲和索引手段就靈活了:一種方法是存入關係數據庫,這樣就完全解決了搜索引擎查準率的問題,1就是1,2就是2,查詢數據庫時不可能出現查1獲得2的問題,可是關係數據庫只能存表,語義結構很複雜的內容須要很麻煩的關係設計過程,分解成多個表;另外一種方法仍是採用普通的索引技術,例如,使用Lucene索引和搜索引擎,可是,由於抽取到了有結構的數據,索引時能夠分字段入庫,例如,使用Lucene,存儲的文檔是Document,裏面有不少Field,直接對應,這樣,既保留了數據庫那種按語義結構入庫和檢索的特性,又能夠得到很高的搜索性能。數據庫

網頁抓取/數據抽取/信息提取軟件工具包MetaSeeker提供了一套完整的解決方案,以書籍網站爲例,使用MetaSeeker中的MetaStudio工具,能夠快速爲多個目標網站頁面內容創建語義結構,並且可以自動生成抽取指令文件,全圖形化界面,不用編程,熟練操做員在幾分鐘內便可定義一個指令文件。而後使用DataScraper工具,按期爬行這些網站,執行提取指令,將結果存儲成有結構的XML文件,該工具還有一個SliceSearch管理界面,可以靈活定義信息對象的索引參數和按語義索引的方法,而後,將提取結果交給SliceSearch,這是一個信息對象索引和搜索引擎,利用專利技術可以準確地搜索結果。例如,用戶能夠先進行泛泛的搜索,像使用普通搜索引擎同樣,輸入一段文字"機率論",可是這個詞既可能出如今標題中,也可能出如今書籍介紹中,甚至出如今讀者評論中, SliceSearch雖然猜不出用戶想要的是什麼,可是它能根據後臺語義數據庫得出一系列可能,推薦給用戶選擇,以進一步提煉搜索結果。 編程

讀到這你們可能會問,爲何不直接提供一個相似現有的書籍搜索網站那樣的用戶接口,可讓用戶按照字段查詢,例如,按書名、ISBN、價格、做者、出版社等等。界面上固然能夠這樣作,可是這樣作有個代價,這個搜索引擎只固定於書籍搜索,也就是所謂的同構數據對象搜索。若是要創建一個綜合的異構數據對象搜索引擎,裏面有各類結構的內容,例如,書籍、外包項目、房產租售等等,你怎麼知道用戶要搜什麼從而給他展示一個合理的界面。固然你可讓用戶先輸入一個表明語義範疇的詞,此時,就得解決同義、歧義、糾錯等等一系列信息處理問題,這些問題的解決也不是垂手可得的,隨着搜索庫中的內容增長,自己也有準確率問題。 網絡

使用MetaSeeker提供的基於語義結構的處理方法還很容易且很天然的解決了數據對象的展示問題,在MetaSeeker後臺語義庫中,存儲了特定語義對象的展示方法定義,簡單的理解成模板,與每一個語義結構關聯,當用戶搜索到某個對象後,將關聯的展示模板調出來,實現按自己語義的展示。 框架

MetaSeeker歷經垂直搜索、SNS、微博客多個浪潮的洗禮,已經發展到V3版本,而且免費下載和使用在線版,以促進互聯網向語義網絡的演進。SliceSearch異構信息對象搜索引擎更是以一種開放框架的方式提供給有需求的用戶,用戶能夠開發本身的模塊,加強其功能,例如,用戶能夠開發本身的異構數據對象展示方式,例如,選擇XML+XSLT解釋方式,或者選擇程序代碼方式。工具

線上的威客任務/外包項目/招標項目搜索是一個樣例服務,雖然在這個搜索引擎中當前只有同構數據——項目信息,可是,可以看出用戶界面的特色,例如,搜索"php",會獲得大量的相關結果,在搜索結果頁給出了多種語義結構,能夠將搜索限定在特定語義範疇內,例如,只找關於php的overseas項目,而後,進一步找標題關於php的 overseas項目,而後,還能夠根據時間信息過濾。 性能

以上界面特性能夠應用於手機搜索,採用一種啓發式語義導航的搜索結果提煉方法方便用戶快速定位到須要的結果網站

相關文章
相關標籤/搜索