天然語言處理NLP（三）

時間 2021-08-13

標籤算法 markdown ide idea 對象 blog 文檔 class 效率欄目 Markdown 简体版

原文原文鏈接

樣本點中的關鍵度量指標：距離

定義：
經常使用距離：
- 歐氏距離，euclidean--一般意義下的距離；
- 馬氏距離，manhattan--考慮到變量間的相關性，且與變量單位無關；
- 餘弦距離，cosine--衡量變量類似性；

TF-IDF矩陣

一種用於資訊檢索和勘察的一種加權技術，是一種統計方法，用於評估詞語或字對文件集與語料庫中的重要程度；
TF-IDF:TF(詞頻)和IDF(倒文檔頻率)的乘積，其中TF表示某個關鍵詞出現的頻率，IDF爲全部文檔數目除以包含該詞語的文檔數目的對數值，|D|表示全部文檔的數目，|wεd|表示包含詞語w的文檔數目；

聚類算法

一、開始時每一個樣本各自做爲一類；
二、規定某種度量做爲樣本間距及類與類之間的距離，並計算；
三、將距離最短的兩個類聚爲一個新類；
四、重複2-3，不斷彙集最近的兩個類，每次減小一個類，直到全部樣本被聚爲一類；算法

一、選擇K個點做爲初始質心；
二、將每一個點指派到最近的質心，造成K個簇(聚類)
三、從新計算每一個簇的質心；
四、重複2-3直至質心基本不變，此時算法達到穩定狀態；
須要屢次運行，而後比較各次運行結果，而後選取最優解，K值使用肘部法則進行肯定；markdown

算法將具備足夠高密度的區域劃分爲簇，並能夠發現任何形狀的聚類；
r-鄰域：給定點半徑r內的區域；
核心點：若一個點的r-鄰域至少包含最少數目M個點，則稱該點爲核心點；
直接密度可達：若p點在覈心點q的r-鄰域內，則p是從q出發能夠直接密度可達；
若存在點鏈P1,P2,...,Pn,P1=q,Pn=P,Pi+1是從Pi關於r和M直接密度可達，則稱點P是從q關於r和M密度可達的；
若樣本集D中存在點o，使得p，q是從o關於r和M密度可達的，那麼點p、q是關於r和M密度相連的；
算法基本思想：
一、指定合適的r和M；
二、計算全部樣本點，若點p的r鄰域中有超過M個點，則建立一個以p爲核心點的新簇；
三、反覆查找這些核心點直接密度可達(以後爲密度可達)的點，將其加入到相應的簇，對於核心點發生「密度相連」情況的簇，進行合併；
四、當無新的點能夠被添加到任何簇時，算法完成；