中文文本分類

時間 2019-11-12

標籤中文文本分類简体版

原文原文鏈接

中文分詞算法：基於機率圖模型的條件機場（CRF）
文本或句子的結構化可分爲：詞向量空間模型、主題模型、依存句法的樹表示、RDF的圖表示html

分詞器 jieba 分詞模式：默認切分、全切分、搜索引擎切分
分詞的目的：文本實現了最基礎的結構化
存儲分詞利用的數據結構：Bunch web

機器學習算法庫:Scikit-Learn //能夠學習各類算法：http://scikit-learn.org/stable/
停用詞 //下載 http://www.threedweb.cn/thread-1294-1-1.html
權重策略：TF-IDF 詞頻逆文檔頻率
詞頻(Term Frequency):某個給定的詞語在該文件中出現的頻率
逆向文件頻率(Inverse Document Frequency,IDF):一個詞語重要性的度量
算法參見書：算法

常見文本分類算法：kNN最近鄰算法、樸素貝葉斯算法、向量機算法數據結構

訓練步驟：分詞-》生成文件詞向量文件-》詞向量模型機器學習

分來結果評估
三個基本指標：①召回率（也叫查全率）②準確率 ③F-Measure學習

樸素貝葉斯算法的基本原理和簡單的Python實現
樸素貝葉斯分類：一種簡單的分類算法（思想基礎簡單：即一個對象中特徵向量種每一個維度都是相互獨立的）
樸素貝葉斯分類的正式定義：
書測試

kNN：向量間的距離衡量類似度來進行文本分類搜索引擎

文本分類：
分詞-》生成文件詞向量文件-》詞向量模型
生成詞向量模型時須要加載訓練詞袋，將測試集產生的詞向量映射到訓練集詞袋的詞典中htm

//因爲機器學習剛開始攻克因此先把簡易的讀書筆記進行羅列。後面熟悉了再來修正對象