中文分詞算法:基於機率圖模型的條件機場(CRF)
文本或句子的結構化可分爲:詞向量空間模型、主題模型、依存句法的樹表示、RDF的圖表示html
分詞器 jieba 分詞模式:默認切分、全切分、搜索引擎切分
分詞的目的:文本實現了最基礎的結構化
存儲分詞利用的數據結構:Bunch web
機器學習算法庫:Scikit-Learn //能夠學習各類算法:http://scikit-learn.org/stable/
停用詞 //下載 http://www.threedweb.cn/thread-1294-1-1.html
權重策略:TF-IDF 詞頻逆文檔頻率
詞頻(Term Frequency):某個給定的詞語在該文件中出現的頻率
逆向文件頻率(Inverse Document Frequency,IDF):一個詞語重要性的度量
算法參見書:算法
常見文本分類算法:kNN最近鄰算法、樸素貝葉斯算法、向量機算法數據結構
訓練步驟:分詞-》生成文件詞向量文件-》詞向量模型機器學習
分來結果評估
三個基本指標:①召回率(也叫查全率)②準確率 ③F-Measure學習
樸素貝葉斯算法的基本原理和簡單的Python實現
樸素貝葉斯分類:一種簡單的分類算法(思想基礎簡單:即一個對象中特徵向量種每一個維度都是相互獨立的)
樸素貝葉斯分類的正式定義:
書測試
kNN:向量間的距離衡量類似度來進行文本分類搜索引擎
文本分類:
分詞-》生成文件詞向量文件-》詞向量模型
生成詞向量模型時須要加載訓練詞袋,將測試集產生的詞向量映射到訓練集詞袋的詞典中htm
//因爲機器學習剛開始攻克因此先把簡易的讀書筆記進行羅列。後面熟悉了再來修正對象