推薦系統開源軟件

時間 2019-12-01

標籤推薦系統開源軟件简体版

原文原文鏈接

如下內容是轉至盛大創新研究院官方博客的一篇文章http://in.sdo.com/?p=1707，文中幾乎涵蓋了當今主流的推薦系統開源軟件，我把全文都貼過來了，不過與原文不一樣的是我把有些已經中止更新/或者更新很慢的都日後面排了。另外也寫寫本身的一些使用總結。

原文開始：

收集和整理了目前互聯網上能找到的開源推薦系統，並附上了我的的一些簡單點評（未必全面準確），這個列表是目前爲止比較全面的了，但願對你們瞭解掌握推薦系統有幫助（文/陳運文）

SVDFeature

由上海交大的同窗開發，採用C++語言，代碼質量很高。去年咱們參加KDD競賽時用過，很好很方便，並且出自我們國人之手，因此置頂推薦！

項目地址：

http://svdfeature.apexlab.org/wiki/Main_Page

SVDFeature包含一個很靈活的Matrix Factorization推薦框架，能方便的實現SVD、SVD++等方法, 是單模型推薦算法中精度最高的一種。SVDFeature代碼精煉，能夠用相對較少的內存實現較大規模的單機版矩陣分解運算。

另外含有Logistic regression的model，能夠很方便的用來進行ensemble運算

備註：這個真是單機版推薦神器，能在4G的電腦上，跑1.5G的用戶-物品評分數據，並且速度也還能夠，當時給我吃了一驚。該項目文檔至關齊全包含：理論和樣例的demo，把評分預測當作矩陣分解、分類、Ranking來作。正如項目介紹，它提供了特徵-矩陣分解的框架，你只需騰出雙手，結合業務場景去提取用戶的特徵。若是用來參加推薦/機器學習方面的比賽，其中的GBRT跟邏輯迴歸的各類模型集成，更是加了一層保證。總而言之，它就是你的歐萊雅，你值得擁有！

Mahout

網址

http://mahout.apache.org/

Mahout知名度很高，它是Apache基金資助的重要項目，在國內流傳很廣，並已經有一些中文相關書籍了。注意Mahout是一個分佈式機器學習算法的集合，協同過濾只是其中的一部分。除了被稱爲Taste的分佈式協同過濾的實現（Hadoop-based，另有pure Java版本），Mahout裏還有其餘常見的機器學習算法的分佈式實現方案。

另外Mahout的做者之一Sean Owen基於Mahout開發了一個試驗性質的推薦系統，稱爲Myrrix, 能夠看這裏：

http://myrrix.com/quick-start/javascript

備註：也許受到到graphlab跟PredictOI等大數據預測軟件的壓力，最近Mahout也加快了更新速度，截止如今已經到了V0.9了。這個庫最大的優點是能處理大的數據量，裏面不只有推薦還有分類，迴歸，主題模型等，具體作推薦的時候還能夠結合業務修改下類似度計算公式

MyMediaLite

http://mymedialite.net/index.html

基於.NET框架的C#開發（也有Java版本），做者基原本自德國、英國等歐洲的一些高校。

除了提供了常見場景的推薦算法，MyMediaLite也有Social Matrix Factorization這樣獨特的功能

儘管是.Net框架，但也提供了Python、Ruby等腳本語言的調用API

MyMediaLite的做者之一Lars Schmidt在2012年KDD會議上專門介紹過他們系統的一些狀況，惋惜因爲.Net開發框架日漸式微，MyMediaLite對Windows NT Server的系統吸引力大些，LAMP網站用得不多

備註：這個軟件也是至關的贊，不只算法完整，文檔清晰，還提供指標測試、交叉驗證尋參等，須要注意的一點是，當數據量較大的時候，最好要從新編譯一下C#的運行庫Mono --with-large-heap=yes 把內存搞大一點，否則很容易out of memory。

GraphLab

項目地址：

http://graphlab.org/

Graphlab是基於C++開發的一個高性能分佈式graph處理挖掘系統，特色是對迭代的並行計算處理能力強（這方面是hadoop的弱項），

因爲功能獨到，GraphLab在業界名聲很響

用GraphLab來進行大數據量的random walk或graph-based的推薦算法很是有效。

Graphlab雖然名氣比較響亮（CMU開發），可是對通常數據量的應用來講可能還用不上

備註：正如軟件的名字同樣，該軟件專一於圖方面的挖掘，不過其中包含一個推薦的toolkit，裏面有不少矩陣分解類的算法，另外該軟件的另一個兄弟Graphchi，又一大單機神奇。前段新聞，就說Mac mini筆記本部署的grapchi 在推特圖譜的計算上超越了1613節點的hadoop。我作的另一個應用就是在一臺服務器上部署了Graphchi ，在中等數據量上毫無鴨梨。

LibFM

項目網址：

http://www.libfm.org/

做者是德國Konstanz University的Steffen Rendle，去年KDD Cup競賽上咱們的老對手，他用LibFM同時玩轉Track1和Track2兩個子競賽單元，都取得了很好的成績，說明LibFM是很是管用的利器（雖然在Track1上被咱們戰勝了，hiahia）

顧名思義，LibFM是專門用於矩陣分解的利器，尤爲是其中實現了MCMC（Markov Chain Monte Carlo）優化算法，比常見的SGD（隨即梯度降低）優化方法精度要高（固然也會慢一些）

順便八卦下，去年KDD會議上和Steffen當面聊過，他很靦腆並且喜歡偷笑，呵呵挺可愛。

備註：在預測評分方面是神奇，不過相對來說速度較慢，尤爲用MCMC算法的時候，不過總的來講仍是很是好的一款軟件

LibMF

項目地址：

http://www.csie.ntu.edu.tw/~cjlin/libmf/

注意LibMF和上面的LibFM是兩個不一樣的開源項目。這個LibMF的做者是大名鼎鼎的臺灣國立大學，他們在機器學習領域頗負盛名，近年連續多屆KDD Cup競賽上均得到優異成績，並曾連續多年得到冠軍。臺灣大學的風格很是務實，業界經常使用的LibSVM， Liblinear等都是他們開發的，開源代碼的效率和質量都很是高

LibMF在矩陣分解的並行化方面做出了很好的貢獻，針對SDG優化方法在並行計算中存在的locking problem和memory discontinuity問題，提出了一種矩陣分解的高效算法，根據計算節點的個數來劃分評分矩陣block，並分配計算節點。系統介紹能夠見這篇論文（Recsys 2013的 Best paper Award）

Y. Zhuang, W.-S. Chin, Y.-C. Juan, and C.-J. Lin. A Fast Parallel SGD for Matrix Factorization in Shared Memory Systems. Proceedings of ACM Recommender Systems 2013.

備註：我相信Libsvm，不少人用過，沒錯，這個LibMF就是林志仁教授那個團隊寫的，速度、質量值得信賴