[論文簡讀] Web Content Extraction Through Machine Learning

《Web Content Extraction Through Machine Learning》 經過機器學習來提取網頁內容
2014年,未見期刊會議上登載,做者 Ziyan Zhou @stanford.edu

簡介

數據集

新聞文章網站爲主
數據集連接 https://github.com/ziyan/spid...
clipboard.pnghtml

網頁分塊

本文采用了phantom.js做爲headless webkit browser(無頭瀏覽器,如今有更好的方法了,好比puppeteer.js)
對於每個包含文本的DOM元素,算法會找到它最近的父元素標記爲塊。
遺憾的是,做者對一些噪音數據的處理沒有詳細地進行解釋。git

分塊效果如圖所示
clipboard.pnggithub

聚類

因爲不一樣網頁之間設計和佈局存在較大差別,做者選擇了DBSCAN做爲聚類算法來解決簇數目未知/簇形狀未知/噪聲等問題(未給出距離函數)。web

DBSCAN 密度聚類算法 大體原理就是選擇一個樣本節點,彙集全部密度可達的樣本造成一個類,相比k-means聚類算法而言更適用於稠密的數據庫,想要詳細瞭解的能夠 點擊這裏

尋找內容塊

經過與標題簡介等meta信息對比文本間的差別(最長公共子序列LCS算法),來評估每個集羣與描述之間的類似性。算法

分類

支持向量機SVM與交叉驗證數據庫

特徵選擇

如下特徵效果依次遞增瀏覽器

  • 文本長度
  • 標籤路徑
  • CSS選擇器
  • CSS屬性

總結
emmm,有點淺了,數據集太少,並且針對性也太強,致使出來的結果很好,可是沒有什麼說服力,仍是有能夠參考的地方的。less

相關文章
相關標籤/搜索