天然語言處理NLP(三)

樣本點中的關鍵度量指標:距離

  • 定義:
  • 經常使用距離:
    • 歐氏距離,euclidean--一般意義下的距離;
      天然語言處理NLP(三)
    • 馬氏距離,manhattan--考慮到變量間的相關性,且與變量單位無關;
      天然語言處理NLP(三)
    • 餘弦距離,cosine--衡量變量類似性;
      天然語言處理NLP(三)

TF-IDF矩陣

  • 一種用於資訊檢索和勘察的一種加權技術,是一種統計方法,用於評估詞語或字對文件集與語料庫中的重要程度;
  • TF-IDF:TF(詞頻)和IDF(倒文檔頻率)的乘積,其中TF表示某個關鍵詞出現的頻率,IDF爲全部文檔數目除以包含該詞語的文檔數目的對數值,|D|表示全部文檔的數目,|wεd|表示包含詞語w的文檔數目;
    天然語言處理NLP(三)

天然語言處理NLP(三)

聚類算法

層次聚類

  • 對給定的對象集合進行層次分解,分爲凝聚(自下而上)和分裂(自上而下);

一、開始時每一個樣本各自做爲一類;
二、規定某種度量做爲樣本間距及類與類之間的距離,並計算;
三、將距離最短的兩個類聚爲一個新類;
四、重複2-3,不斷彙集最近的兩個類,每次減小一個類,直到全部樣本被聚爲一類;算法

動態聚類:k-means

一、選擇K個點做爲初始質心;
二、將每一個點指派到最近的質心,造成K個簇(聚類)
三、從新計算每一個簇的質心;
四、重複2-3直至質心基本不變,此時算法達到穩定狀態;
須要屢次運行,而後比較各次運行結果,而後選取最優解,K值使用肘部法則進行肯定;markdown

K-means算法的優缺點

  • 效率高,且不易受初始值選擇的影響;
  • 不能處理非球形的簇;
  • 不能處理不一樣尺寸、密度的簇;
  • 要先剔除離羣值,由於它可能存在較大幹擾;

基於密度的方法:DBSCAN

  • 算法將具備足夠高密度的區域劃分爲簇,並能夠發現任何形狀的聚類;
  • r-鄰域:給定點半徑r內的區域;
  • 核心點:若一個點的r-鄰域至少包含最少數目M個點,則稱該點爲核心點;
  • 直接密度可達:若p點在覈心點q的r-鄰域內,則p是從q出發能夠直接密度可達;
  • 若存在點鏈P1,P2,...,Pn,P1=q,Pn=P,Pi+1是從Pi關於r和M直接密度可達,則稱點P是從q關於r和M密度可達的;
  • 若樣本集D中存在點o,使得p,q是從o關於r和M密度可達的,那麼點p、q是關於r和M密度相連的;
  • 算法基本思想:
    一、指定合適的r和M;
    二、計算全部樣本點,若點p的r鄰域中有超過M個點,則建立一個以p爲核心點的新簇;
    三、反覆查找這些核心點直接密度可達(以後爲密度可達)的點,將其加入到相應的簇,對於核心點發生「密度相連」情況的簇,進行合併;
    四、當無新的點能夠被添加到任何簇時,算法完成;

類相互之間的距離的計算方法

  • 離差平方和法--ward
    計算兩個類別之間的離差平方和,找出最小的離差平方和,而後將這兩個類別聚爲一類;
  • 類平均法--average
    經過計算兩個類別之間的全部點的相互距離,求其均值,而後做爲這兩個類之間距離均值,找出最小的距離均值,而後將這兩個類聚爲一類;
  • 最大距離法--complete讓兩個類之間相距最遠的點做爲兩個類之間的距離,而後找出最大距離中最小的兩個類,將他們聚爲一類;
相關文章
相關標籤/搜索