對於圖論而言,你們或多或少有些瞭解,數學專業或計算機相關專業的讀者可能對其更加清楚。圖論中的圖像是由若干給定的點及鏈接兩點的線所構成的圖形,這樣的圖像一般用來描述某些事物之間的某種特定關係,用點表明事物,用兩點之間的鏈接線表示兩者具備的某種關係,在互聯網與通訊行業中應用普遍。圖論分析(Graph analysis)並非數據科學領域中的新分支,也不是數據科學家目前應用的經常使用首選方法。然而,圖論能夠作一些瘋狂的事情,一些經典用例包括欺詐檢測、推薦或社交網絡分析等,下圖是 NLP中的非經典用例——處理主題提取。數據庫
假設如今你有一個客戶數據庫,並想知道它們是如何相互鏈接的。特別是,你知道有些客戶涉及複雜的欺詐結構,可是在我的層面上可視化數據並不會帶來欺詐證據,欺詐者看起來像其餘普通客戶同樣。
只需查看原始數據,處理用戶之間的鏈接就能夠顯示更多信息。具體而言,對於一般的基於機器學習的評分模型而言,這些特徵不會被視爲風險,但這些不會被認爲存在風險的特徵可能成爲基於圖表分析評分模型中的風險特徵。網絡
示例:三個具備相同電話號碼的人,鏈接到具備相同電子郵件地址的其餘人,這是不正常的,且可能存在風險。電話號碼自己沒有什麼價值,並不會提供任何信息(所以,即便最好的深度學習模型也不能從中獲取任何價值信息),但我的經過相同的電話號碼或電子郵件地址鏈接這一問題,多是一種風險。機器學習
下面在Python中進行一些處理:學習