聚類、降維、文本處理閱讀記錄

時間 2019-11-21

標籤文本處理閱讀記錄简体版

原文原文鏈接

聚類正則表達式

數據沒有標註。無監督技術。數組

K-均值聚類函數

層次聚類：是一個結構化的聚類方法，最終可獲得多層的聚類結果，其中每一個類族可能包含多個子類族。由於每一個子類族與父類族鏈接，因此也稱爲樹形聚類。文檔

離羣值：歸一化/標準化解決。file

--------------------------------------------方法

降維技術

主成分分析 PCA數據

奇異值分解 SVD文件存儲

SVD試圖將一個m X n矩陣分解爲3個主成分矩陣語言

a、mXm維矩陣U

b、mXm維對角陣S，S中的元素是奇異值

c、mXm維矩陣Vt

X = UxSxVt

事實上，通常計算截斷的SVD，只保留前k個奇異值，它們能表明數據的最主要變化，剩餘的奇異值被丟棄，

即X ~ UkxSkxVkt

降維技術：基於矩陣分解

wholeTextFiles函數，容許咱們一次操做整個文件訪問每一個文件存儲的位置，返回鍵/值對組成的RDD，鍵是文件位置，值是整個文件內容。

file://是本地文件系統

hdfs://是hdfs

s3n://是Amazon S3文件系統，……

一個彩圖可表示成三維的像素數組或矩陣，即x、y座標，表示每一個像素的位置，第3個維度表示每一個像素的RGB值。灰圖可表示爲二維，因第三個維度爲一個不變值。常常將彩圖轉換爲灰圖。

--------------------------------------------

文本數據處理

文本數據處理的複雜性：

文本和語言有隱含的結構信息

有效維度通常都巨大甚至無限

詞頻-逆文本頻率（TF-IDF）：

TF-IDF給文檔中每一個詞賦予一個權值，這個權值是基於單詞在文本中出現的頻率（詞頻）計算獲得，同時還要應用逆向文本頻率作全局歸一化。

tf-idf(t,d) = tf(t,d) x idf(t)

idf(t) = log(N/d)

tf(t,d) : t在d中的頻率

idf(t)：t的逆向文本頻率

N：文檔總數

d：出現過單詞t的文檔數量

TF-IDF含義是：在一個文檔中出現次數不少的詞相比出現次數少的詞應該在詞向量表示中獲得更高的權值。而IDF歸一化起到了減弱在全部文檔中老是出現的詞做用，最後的結果就是，稀有的或重要的詞被給予了更高的權值，而更加經常使用的單詞（被認爲比較不重要）則在考慮權重的時候有較小的影響。

特徵哈希：一種處理高維數據的技術，並常常應用在文本和分類數據集上。

特徵哈希經過使用哈希方程對特徵賦予向量下標，這個向量下標是經過特徵的值作哈希獲得（一般是整數）。但因最經常使用的哈希函數返回整個整數域內的任意值，咱們將使用模操做來限制下標的值到一個特定的大小，遠小於整數域大小（根據須要取數千上萬直至幾百萬）。

缺陷：

1）沒有建立特徵到下標的映射，也就不能作逆向轉換把下標轉換爲特徵。

2）產生哈希衝突，但只要咱們選擇了一個相對合理的特徵向量維度，這種衝突貌似對於模型的效果沒有太大的影響。

正則表達式的應用，切分原始文檔來移除這些非單詞字符。

使用TF-IDF加權或直接過濾指定的停用詞。

基於頻率去除單詞。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。