文本分類過程:http://www.cnblogs.com/luchen927/archive/2012/02/14/2349551.html;html
語料庫資源:htm
1:搜狗中文新聞語料庫:http://www.sogou.com/labs/dl/c.html;blog
2:博客園園友自行收集的語料庫:http://www.cnblogs.com/finallyliuyu/archive/2010/09/10/1823676.html;資源
二者皆爲新聞類信息,前者標題使用數字表示,不便於對分類結果的快速驗證;後者資源在數量,準確性、平衡性方面稍欠缺。get
網頁正文抓取相關文章:博客
1:園友蛙娃正文抓取器:http://www.cnblogs.com/onlytiancai/archive/2008/04/12/getmaincontent.html;co
2:園友finallyliuyu正文抓取器:http://www.cnblogs.com/finallyliuyu/archive/2010/09/29/1838442.html;數字