從原始文檔到KNN分類算法實現(二)

1.復旦語料庫train集中有6個類是多於1000個文檔的,把它們取出來,分別刪減至1000個文檔,構成接下來我們要進行實驗的訓練集。 2.執行Predeal.java,它依次進行三項操作:把文件重命名爲順序的數字編號;把文件編號(即文件名)寫入文檔開頭,用一個空格與正文內容隔開,去除正文每行末的換行符,把整個文檔合併爲一行,去除正文行間的空格;用ICTCLAS進行中文分詞.由於一次運行對6000
相關文章
相關標籤/搜索