爬蟲實戰13—網頁分類與針對文本的機器學習應用

文章說明:本文是在學習一個網絡爬蟲課程時所做筆記,文章如有不對的地方,歡迎指出,積極討論。 一、分詞 計算機是無法直接處理、讀懂文本的語義的,因此要對文本進行處理,必須把一篇非結構化的連續的文本,轉換爲一個數學問題。目前最常用的轉換,就是找出文本的關鍵詞,把關鍵詞用一個數學特徵來代替,進而利用Logistci Regression、SVM(Support Vector Machine)、Naive
相關文章
相關標籤/搜索