基於深度學習Web信息抽取與實現
2017年 浙大碩士學位論文
1 研究背景、目的以及相關技術
目的:利用神經網絡進行網頁信息抽取web
Web信息抽取的相關技術總結算法
3~5 在其餘論文中並無說起,應該是做者本身概括的
- 基於天然語言處理方式的信息抽取
- 基於包裝器(wrapper)概括方式的信息抽取
- 基於本體的信息抽取
- 基於HTML結構的信息抽取
- 基於Web查詢的信息抽取
神經網絡相關技術網絡
2 基於RNN的信息抽取模型
大體過程就是經過詞向量概括相相似的詞,好比電影領域的詞庫,而後對DOM節點進行配對,猜想是否爲目標節點。app
3 算法實現
- 首先須要獲取必定數量的主題型頁面(好比電影頁面),並對用戶指定的關鍵目標信息進行標記
(???還須要手動標記??!這檔次差好多了吧!)
- 而後使用的標記過的樣本頁面進行訓練,使系統得到識別目標信息的能力
- 網頁內容預處理
(這個部分就不放了,手動預處理,篩節點,而後添加一些關鍵詞標記)
4 Tensorflow 模型
創建詞庫表
- 爲每一個單獨的中文漢字而不是詞組創建到詞庫表的映射。
- 爲每一個解析到的外文單詞創建單獨的映射。
- 爲全部解析到的數字創建相同的映射。
- 爲標記過的目標信息類別創建映射表。
emmmm 看不下去了,附上文章連接【萬方】,有興趣的能夠了解一下,就這樣吧,累覺不愛ε=(´ο`*)))學習