1. DBSCAN算法和電子商務客戶分類分析html
1.1DBSCAN算法算法
經過定義數據點空間的密度和密度度量,這些類能夠建模成數據空間中具備某種密度的截面。瀏覽器
在有噪聲的狀況下基於密度的空間聚類應用算法(Density Based Spatial Clustering of Applications with Noise,DBSCAN)是最流行的基於密度的聚類算法之一。緩存
DBSCAN算法的主要特徵:擅長處理具備噪聲的大型數據集、能夠處理形狀各異的類。安全
DBSCAN算法的基本思想: 算法的本質是一個發現類簇並不斷擴展類簇的過程。網絡
DBSCAN算法基於對數據集中數據點劃分爲核心數據點、邊界數據點和噪聲數據點,並支持使用點與點之間的密度關係,這些點包括直接密度可達(directly density-reachable)、密度可達(density-reachable)和密度相連(density-connected)的點。機器學習
算法詳細解析: https://blog.csdn.net/huacha__/article/details/81094891ide
更易理解的圖解: https://www.cnblogs.com/lyr2015/p/7439586.html函數
1.2 電子商務客戶分類分析學習
電子商務的通常分析過程是:數據收集——>分析——>推薦——>行動——>數據收集 的循環過程。
2. OPTICS算法和網頁聚類
2.1 OPTICS算法
OPTICS算法的難點在於維護核心點的直接可達點的有序列表。
OPTICS(Ordering points to identify the clustering structure)是一基於密度的聚類算法,OPTICS算法是DBSCAN的改進版本,所以OPTICS算法也是一種基於密度的聚類算法。在DBCSAN算法中須要輸入兩個參數:ϵ和MinPts,選擇不一樣的參數會致使最終聚類的結果千差萬別,所以DBCSAN對於輸入參數過於敏感。OPTICS算法的提出就是爲了幫助DBSCAN算法選擇合適的參數,下降輸入參數的敏感度。OPTICS主要針對輸入參數ϵ ϵϵ過敏感作的改進,OPTICS和DBSCNA的輸入參數同樣(ϵ和MinPts),雖然OPTICS算法中也須要兩個輸入參數,但該算法對ϵ輸入不敏感(通常將ϵ固定爲無窮大),同時該算法中並不顯式的生成數據聚類,只是對數據集合中的對象進行排序,獲得一個有序的對象列表,經過該有序列表,能夠獲得一個決策圖,經過決策圖能夠不一樣ϵ參數的數據集中檢測簇集,即:先經過固定的MinPts和無窮大的ϵ獲得有序列表,而後獲得決策圖,經過決策圖能夠知道當ϵ取特定值時(好比ϵ=3)數據的聚類狀況。
算法詳細解析: https://blog.csdn.net/SHNU_PFH/article/details/78769440
較易理解的算法圖解: https://www.cnblogs.com/zhangruilin/p/5817784.html
2.2 網頁聚類
網頁聚類能夠用來對相關的文本或者文章分組,做爲監督學習的預處理步驟。它能自動分類。網頁時通用且具備不一樣的結構和內容。
3. DENCLIUE算法和瀏覽器緩存中的訪客分析
3.1 DENCLUE算法(density-based clustering)
基於密度的聚類方法,它依賴於密度分佈函數的支持。
基礎名詞:影響函數、密度函數、梯度和密度吸引點
算法詳解: https://blog.csdn.net/qq_40793975/article/details/82838253
3.2 瀏覽器緩存中的訪客分析
4——6均是基於網格的聚類算法
4. 推薦系統和STING算法
4.1 STING算法
統計信息網格(Statistical Information Grid,STING)是一種基於網格的聚類算法。
STING算法的基本思想:首先將樣本按層次(維度或屬性)進行必定的劃分,每一個層次上咱們根據維度或者概念分層不一樣的cell,實際上這裏的每一個層次對應的是樣本的一個分辨率(這裏我認爲是某一屬性的稀疏度)。根據預先設定的閾值進行分塊(將上層的大cell切成小的cell),從而丟棄掉一些不符合密度閾值的數據,實現根據特定屬性和閾值進行聚類的目的。由於算法的每一層都會拋棄掉一些不相關的樣本,所需的計算量也會愈來愈少,那麼速度就會很快。
STING算法的特徵:獨立於查詢的結構、本質上是並行的、效率高。
STING算法詳細解析【講的真的很不錯】(機器學習:基於網格的聚類算法,張蓓): https://cloud.tencent.com/developer/article/1005263
4.2 推薦系統
根據統計、數據挖掘和知識發現技術,推薦系統正在被大多數的電子商務網站使用,使消費者更容易找到須要購買的商品。三個主要的部分是:輸入數據表示、鄰域造成和推薦生成。
5. CLIQUE算法和網絡情感分析
5.1 CLIQUE算法(Clustering in Quest)
CLIQUE算法是一個自上而下的基於網格的聚類算法。該算法的思想是Apriori特徵,即密度單元相對於維度的單調性。若是一組數據點S是k維投影空間中的一個類,那麼S包括在任意(k-1)維投影空間上的一個類中。該算法一層一層處理,一維密集單元經過便利一次數據而產生,使用候選生成程序和第(k-1)步獲得的肯定的(k-1)維密集單元來生成k維候選單元。
CLIQUE算法的特徵:①對高維數據集有效 ②結果的可解釋性 ③可拓展性和可用性
對一個數據集聚類CLIQUE算法包含3個步驟:①選擇一組子空間(能夠按照每一個維度來劃分)來對數據集聚類;②在每一個子空間上獨立執行聚類(按必定方法);③以析取範式表達式形式生成每一個類的說明(將各維度的聚類結果結合起來)。
CLIQUE算法詳細解析【講的真的很不錯】(機器學習:基於網格的聚類算法,張蓓): https://cloud.tencent.com/developer/article/1005263
5.2 網絡情感分析
網絡情感分析能夠用來識別文字背後的理念或者思想,例如,Twitter上的微博情感分析。用於情感判斷的一個簡單例子就是比較發佈的內容與預約義的詞標記列表。另外一個例子是能夠經過豎起大拇指或者大拇指朝下來評價一個影評。網絡情感分析還用於新聞報道的偏見分析,關於具體的觀點和新聞組的評估等。
6. WAVE聚類算法和觀點挖掘
6.1 WAVE聚類算法
WAVE聚類算法是一種基於網格的聚類算法,它依賴於空間數據集和多維信號間的關係。其思想是在多維空間數據集中的類在小波變換(也就是將小波應用於輸入數據或者預處理後的數據集,具體的變換方法在下面連接中詳細描述了)後會變得更易區分。在變換結果中,由稀疏區域劃分的密集部分表示類。
WAVE聚類算法的特徵以下:①對大型數據集有效②高效查找各類形狀的類③對噪聲或者異常不敏感④對於數據集的輸入順序不敏感⑥由小波變換引入的多分辨率 ⑦適用於任何數值數據集
WAVE聚類算法只需執行幾個步驟:第一步,建立一個網格,並未來自輸入數據集的每個數據對象分配給網格中的一個單元;第二步,經過應用小波變換函數將數據變換到一個新的空間;第三步,尋找新空間中的連通分支,將與原數據空間相關的數據對象映射爲類標籤。(理解好下面網址中的小波變換到簇的空間映射的過程就行了)
WAVE算法詳細解析【講的真的很不錯】(機器學習:基於網格的聚類算法,張蓓): https://cloud.tencent.com/developer/article/1005263
6.2 觀點挖掘
觀點挖掘是指挖掘關於研究中的對象或者實體的某種特徵的觀點。最簡單的情形就是判斷觀點是積極的仍是消極的。
7. EM算法和用戶搜索意圖
7.1 EM算法(Expectation Maximization,EM)【目前理解不到位,之後遇到能夠再仔細學習一下】
最大指望算法是一種基於機率模型的聚類算法,它依賴於混合模型,在混合模型中,數據經過簡單模型的混合進行建模。與這些模型有關的參數經過極大似然估計法(Maximum Likelihood Estimation,MLE)進行估計。
EM算法詳解(比較簡明易懂的好文章): http://www.javashuo.com/article/p-bejgmavl-mh.html
EM算法詳解(EM算法推導過程,理論性很強): https://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html
7.2 用戶搜索意圖
就搜索和查詢而言,肯定用戶意圖相對於稀疏數據的得到是一個重要卻困難的問題。
用戶意圖有普遍的應用,聚類查詢修正、用戶意圖概況以及網絡搜索意圖概括。給定網絡搜索引擎查詢,尋找用戶意圖也是一個關鍵和需求。爲了肯定用戶的興趣和偏好,關於搜索結果的點擊序列能夠做爲好的基礎數據。網絡搜索個性化是用戶搜索意圖的另外一個重要應用,這與用戶的語境和意圖相關。隨着用戶意圖的應用,將提供更多有效且高效的信息。
8. 高維數據聚類和客戶購買數據分析
對於高維數據空間聚類,存在兩個問題:效率和質量。須要新的算法來處理這種類型的數據集。有兩種流行的策略應用於此,一種是子空間聚類策略,以便找到原始數據集空間的子空間中的類。另外一種是降維策略,它建立一個較低維度的數據空間以便進一步聚類。
8.1 MAFIA算法
MAFIA算法是一種有效且可擴展的子空間聚類算法,可用於高維和大型數據集。
算法總結:
8.2 SURFING算法
surfing算法從數據集的原始屬性中選擇感興趣的特徵。
8.3 客戶購買數據分析
客戶購買數據分析包括了不少應用,如客戶滿意度分析。
根據客戶購買數據分析,其中一個應用能夠幫助發現沒必要要的消費或者用戶的購買行爲。
9. 網絡數據聚類與SNS和圖
9.1 SCAN算法
圖和網絡數據的聚類在現代生活中有着普遍的應用,好比社交網絡。然而,更多的挑戰伴隨着需求意外的出現。高計算成本、複雜的圖形和高維稀疏和策略主要的問題。運用一些特殊的變換,這些問題能夠轉化爲圖切割問題。
用於網絡的結構聚類算法(Structural Clustering Algorithm for Network,SCAN)是其中一種算法,它經過搜索圖中鏈接密切的分支做爲類。
9.2 社交網絡服務
社交網絡已經成爲當今最流行的在線交流方式。因爲安全、業務和控制等的需求,社交網絡服務(Social Networking Service,SNS)分析變得很重要。社交網絡的服務的基礎是圖論,特別是對於社交網絡服務挖掘,如尋找社交社團、爲了避免良目的濫用社交網絡服務等。
社交網絡服務聚類是尋找社區的一種內在的應用。隨機遊走是用於社交網絡服務分析的另外一個關鍵技術,並用於尋找社區。
下一章:將介紹與異常值檢測及其算法有關的主要話題,並討論一些實例。