[論文簡讀] 基於深度學習Web信息抽取與實現

基於深度學習Web信息抽取與實現

2017年 浙大碩士學位論文

1 研究背景、目的以及相關技術

目的:利用神經網絡進行網頁信息抽取web

Web信息抽取的相關技術總結算法

3~5 在其餘論文中並無說起,應該是做者本身概括的
  1. 基於天然語言處理方式的信息抽取
  2. 基於包裝器(wrapper)概括方式的信息抽取
  3. 基於本體的信息抽取
  4. 基於HTML結構的信息抽取
  5. 基於Web查詢的信息抽取

神經網絡相關技術網絡

  • RNN
  • LSTM
  • Tensorflow

2 基於RNN的信息抽取模型

大體過程就是經過詞向量概括相相似的詞,好比電影領域的詞庫,而後對DOM節點進行配對,猜想是否爲目標節點。app

clipboard.png

clipboard.png

clipboard.png

clipboard.png

3 算法實現

clipboard.png

  1. 首先須要獲取必定數量的主題型頁面(好比電影頁面),並對用戶指定的關鍵目標信息進行標記
    (???還須要手動標記??!這檔次差好多了吧!)
  2. 而後使用的標記過的樣本頁面進行訓練,使系統得到識別目標信息的能力
  3. 網頁內容預處理
    (這個部分就不放了,手動預處理,篩節點,而後添加一些關鍵詞標記)

4 Tensorflow 模型

創建詞庫表

  1. 爲每一個單獨的中文漢字而不是詞組創建到詞庫表的映射。
  2. 爲每一個解析到的外文單詞創建單獨的映射。
  3. 爲全部解析到的數字創建相同的映射。
  4. 爲標記過的目標信息類別創建映射表。

emmmm 看不下去了,附上文章連接【萬方】,有興趣的能夠了解一下,就這樣吧,累覺不愛ε=(´ο`*)))學習

相關文章
相關標籤/搜索