【課程分享】基於Lucene4.6+Solr4.6+Heritrix1.14+S2SH實戰開發從無到有垂直搜索引擎

對這個課程有興趣的朋友,可以加個人QQ2059055336和我聯繫,可以和您分享。 
課程介紹:最有前途的軟件開發技術——搜索引擎技術 
搜索引擎做爲互聯網發展中相當重要的一種應用,已經成爲互聯網各個領域的制高點,其重要性不言而喻。搜索引擎領域也是互聯網應用中很少見的以核心技術做爲其命脈的領域,搜索引擎各個子系統是怎樣設計的?這成爲廣大技術人員和搜索引擎優化人員密切關注的內容。 

隨着互聯網行業興起,大數據時代的到來,搜索引擎開發成爲一項極富含金量的工做,市場對搜索軟件開發project師的需求極其旺盛。大型搜索門戶需要大量專門的搜索軟件開發人才,而衆多中小型站點及企業也需要垂直搜索,站點搜索,全文檢索,知識庫系統等非結構化數據開發軟件project師 

行業前景 
在互聯網上說門檻,就是比資源。垂直搜索也是這樣,是否能提供全面權威的行業信息,是否能擁有行業資源是垂直搜索引擎發展的門檻。換句化說,垂直門戶是垂直搜索血統近期的父親。做爲房產行業的搜房網就是一個垂直門戶,在房產領域沒有誰比咱們更清楚什麼是垂直搜索了 
將來5年中,咱們見到的最大變化將是人們使用電腦的方式將有所不一樣,移動電話將變成在互聯網上尋找信息的最多見手段。到那時,大多數問題都最好經過聲音進行問答。搜索引擎公司將成爲平常生活中更不可或缺的部分,它們的影響力終於將對其它一些爲創造或傳播信息而存在的公司會產生極大的促進甚至替代性的做用。 
網絡時代的信息量每8個月翻一番,如今的網頁以100億來計算;網絡搜索已成爲僅次於電子郵件的第二大網絡應用。2005年中國互聯網發展情況統計報告中也指出,用戶在互聯網上獲取信息最常用的方法中,經過搜索引擎查找相關的站點佔58.2%。對於有效的搜索引擎技術的研究將具備巨大的學術及商業價值。 
課程背景: 垂直搜索引擎是針對某一個行業的專業搜索引擎,是搜索引擎的細分和延伸,是對網頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數據進行處理後再以某種形式返回給用戶。垂直搜索是相對通用搜索引擎的信息量大、查詢不許確、深度不夠等提出來的新的搜索引擎服務模式,經過針對某一特定領域、某一特定人羣或某一特定需求提供的有必定價值的信息和相關服務。其特色就是「專、精、深」,且具備行業色彩,相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專一、詳細和深刻。 
整個課程 的最大特色是內容新穎全面而又通俗易懂。對於實際搜索引擎所涉及的各類核心技術都有全面仔細的介紹,除了做爲搜索系統核心的網絡爬蟲、索引系統、排序系統、連接分析及用戶分析外,還包含網頁反做弊、緩存管理、網頁去重技術等實際搜索引擎必須關注的技術,同一時候用至關大的篇幅解說了雲計算與雲存儲的核心技術原理及實現。 
整個課程的還有一亮點是:整個項目的構建全部採用最新技術,包含但不限於下面技術:struts 2.3.16 +spring 4.0.1 +hibernate 4.3.1+jquery-easyui 1.3.5+lucene 4.6.0+solr 4.6.0+Heritrix1.14並對其作了二次封裝。爲了增進學員的理解,課程大量引入形象的圖片來解說算法原理,相信讀者會發現原來搜索引擎的核心技術理解起來比原先想象的要簡單得多。 

1、理論部分: 
2.一、搭建heritrix 
1.什麼是網絡爬蟲 
2.網絡爬蟲能作什麼 
3.Heritrix原理 
4.Heritrix搭建 
2.二、怎樣進行主題抓取 
1.什麼是主題抓取 
2.主題抓取的意義 
3.主題抓取的策略 
4.怎樣用heritrix進行主題抓取 
2.三、heritrix優化 
1. ELFHash算法 
2.關於robot.txt 
3.將heritrix打包成工具 
2.四、解析html頁面 
1.java正則表達式 
2.基於模板獲取網頁內容 
3.利用htmlparser解析html 
2.五、中文分詞介紹 
1.Lucene自帶的分詞 
2.ICTCLAS 
3.IK 
4.利用機器學習算法識別中文文章中的領域詞 
2.六、網頁去重 
1.網頁去重的意義 
2.網頁去重的主要方法 
3.什麼是tf*idf 
4.基於指紋算法的網頁去重 
2.七、Lucene4.6高速索引與搜索 
1.怎樣用lucene建立索引 
2.怎樣用lucene搜索結果 
3.Lucene中intfield怎麼搜索 
4.Lucene的結果高亮顯示 
2.八、Lucene4.6索引的相關操做 
1.建立索引 
2.改動索引 
3.刪除索引 
4.索引優化 
2.九、Lucene4.6的query、及queryparser 
1.TermQuery 
2.BooleanQuery 
3.TermRangeQuery 
4.NumericRangeQuery 
5.PrefixQuery 
6.PhraseQuery 
7.MultiPhraseQuery 
8.FuzzyQuery 
9.WildcardQuery 
10.queryparser 
2.十、Lucene的Filter及本身定義排序 
1.Filter 
2.Lucene自帶排序及指定權重 
3.Lucene本身定義排序 
2.十一、Solr高速索引與搜索 
1.什麼是solr 
2.爲何project中要使用solr 
3.Solr的原理 
4.怎樣在tomcat中執行solr 
5.怎樣利用solr進行索引與搜索 
2.十二、Solr的查詢及Filter 
1.solr的各類查詢 
2.solr的Filter 
3.solr的排序 
4.solr的高亮 
2.1三、Solr的facet介紹 
1.solr的某個域統計 
2.solr的範圍統計 
2.1四、Solrcloud集羣搭建 
1.zookeeper簡單介紹 
2.solrcloud集羣搭建 
2.1五、搜索服務的工具封裝 
1.工廠模式 
2.封裝搜索服務_lucene 
3.封裝搜索服務_solr 
4.將lucene與solr封裝成可以配置的工具,可以支持不論什麼業務系統 
2、項目部分: 
2.1六、項目實戰 
1.項目需求分析及框架選擇 
2.Struts 2.3.16介紹 
3.Struts 2.3.16整合Spring 4.0.1 
4.Spring 4.0.1整合hibernate 4.3.1 
5.利用jquery-easyui 1.3.5 作後臺管理頁面 
6.Heritrix 在project中的運用 
7.封裝好的搜索框架在project中的運用 
8.Flexpaper模仿百度文庫 
9.文件上傳 
10.相關代碼編寫 
11.搜索結果優化 
12.項目總結 

針對人口: 
  本課程適合於各個層次的有志於從事搜索引擎技術的Java開發者,僅僅要求開發者具有基礎的JAVA基礎及B/S開發經驗就能夠,對於0基礎程序猿來講,可以在短期內迅速提升開發能力,掌握流行的技術,把握搜索引擎技術的發展脈絡。對於中高級程序猿來講,本課程可以在短期內高速提高我的的搜索引擎方面的開發能力。 
課程目標: 
1 想要從事搜索引擎開發的Java技術人員 
2 學習該課程你可以高速掌握到網絡爬蟲、中文分詞、網頁去重、搜索優化、大數據處理等多方面的技能 
3 增強開發的內功修煉。 
4 深刻理解搜索引擎的原理與相關開發技術 
5 掌握搜索引擎開發技術點,能夠獨立開發基於lucene技術的搜索系統 
課程亮點: 
亮點1、對heritrix進一步封裝,可以依照需求配置,單獨執行。 
亮點2、對lucene 4.6.0與solr 4.6.0進行封裝,經過配置就可以對絕大多數的業務系統進行數據庫及其文件的索引、搜索。 
亮點3、對眼下最新的ssh(struts 2.3.16 spring 4.0.1 hibernate 4.3.1)整合,並結合眼下最新的版本號的jquery-easyui 1.3.5,構建了一個完整的垂直搜索引擎。 
亮點4、整個課程的理論部分,參看了大量的核心期刊論文,並針對眼下中文分詞,用純java代碼實現了一種基於無監督的識別方法。另外,實現了文本的特徵抽取TF*IDF算法,最小編輯距離算法,文本類似度算法(傳統的夾角餘弦及指紋算法)。 
掌握此項技術後可以從事但不限於下面職位的工做: 
高級搜索引擎開發project師 
行業(垂直)搜索引擎開發project師 
搜索引擎後臺開發project師 
搜索引擎Web開發project師 
網絡爬蟲開發project師 
http://itbbs.pconline.com.cn/soft/51418565.html
相關文章
相關標籤/搜索