由於近期在寫一篇關於大數據分類的論文(吐槽一下:導師每天催),因此在圖書館借了幾本有關大數據的書籍。今天看《New Internet 大數據挖掘》(感興趣的可以看一下)中提到垃圾郵件過濾,讓我聯想到昨天在1280社區看到一道名企面試題,「在遊戲實時交流中,怎麼過濾那些廣告?」。當時想到的是關鍵詞過濾。也沒細想。面試
事實上垃圾郵件過濾跟廣告過濾是一種,使用最多的是樸素貝葉斯算法。算法
貝葉斯定理是關於隨機事件A和B的條件機率(或邊緣機率)的一則定理。post
(參見維基百科http://zh.wikipedia.org/wiki/%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%AE%9A%E7%90%86)學習
經過對大量已經斷定的垃圾郵件和正常郵件進行學習,依據兩種郵件中一樣詞語出現的機率對照來肯定垃圾郵件的可能性。大數據
長處是準確率高。缺點是需要大量的歷史數據。spa