拼多多面試題：如何用 Redis 統計獨立用戶訪問量？

時間 2021-02-17

標籤前端 java 面試 redis 算法後端微信數據結構多線程架構欄目 Redis 简体版

原文原文鏈接

衆所周至，拼多多的待遇也是高的可怕，在挖人方面也是竭盡全力，對於一些工做3年的開發，稍微優秀一點的，都給到30K的Offer。前端

固然，拼多多加班也是出名的，一週上6天班是常態，天天工做時間基本都是超過12個小時，也是至關辛苦的。java

廢話很少說，今天咱們來聊一聊拼多多的一道後臺面試真題，是一道簡單的架構類的題目：面試

拼多多有數億的用戶，那麼對於某個網頁，怎麼使用Redis來統計一個網站的用戶訪問數呢？redis

一、Hash算法

哈希是Redis的一種基礎數據結構，Redis底層維護的是一個開散列，會把不一樣的key映射到哈希表上，若是是遇到關鍵字衝突，那麼就會拉出一個鏈表出來。後端

當一個用戶訪問的時候，若是用戶登錄過，那麼咱們就使用用戶的id，若是用戶沒有登錄過，那麼咱們也可以前端頁面隨機生成一個key用來標識用戶微信

當用戶訪問的時候，咱們可使用HSET命令，key能夠選擇URI與對應的日期進行拼湊，field可使用用戶的id或者隨機標識，value能夠簡單設置爲1。數據結構

當咱們要統計某一個網站某一天的訪問量的時候，就能夠直接使用HLEN來獲得最終的結果了。多線程

優勢：簡單，容易實現，查詢也是很是方便，數據準確性很是高。架構

缺點：佔用內存過大，。隨着key的增多，性能也會降低。小網站還行，拼多多這種數億PV的網站確定受不了。

二、Bitset

咱們知道，對於一個32位的int，若是咱們只用來記錄id，那麼只可以記錄一個用戶，但若是咱們轉成2進制，每位用來表示一個用戶，那麼咱們就可以一口氣表示32個用戶，空間節省了32倍！

對於有大量數據的場景，若是咱們使用bitset，那麼能夠節省很是多的內存。推薦：Redis 21問，你會幾道？

對於沒有登錄的用戶，咱們也可使用哈希算法，把對應的用戶標識哈希成一個數字id。bitset很是的節省內存，假設有1億個用戶，也只須要100000000/8/1024/1024約等於12兆內存。

Redis已經爲咱們提供了SETBIT的方法，使用起來很是的方便，咱們能夠看看下面的例子。

關注微信公衆號：Java技術棧，在後臺回覆：redis，能夠獲取我整理的 N 篇最新 Redis 教程，都是乾貨。

咱們在item頁面能夠不停地使用SETBIT命令，設置用戶已經訪問了該頁面，也可使用GETBIT的方法查詢某個用戶是否訪問。最後咱們經過BITCOUNT能夠統計該網頁天天的訪問數量。

優勢： 佔用內存更小，查詢方便，能夠指定查詢某個用戶，數據可能略有瑕疵，對於非登錄的用戶，可能不一樣的key映射到同一個id，不然須要維護一個非登錄用戶的映射，有額外的開銷。

缺點： 若是用戶很是的稀疏，那麼佔用的內存可能比方法一更大。

三、機率算法

對於拼多多這種多個頁面均可能很是多訪問量的網站，若是所須要的數量不用那麼準確，可使用機率算法

事實上，咱們對一個網站的UV的統計，1億跟1億零30萬實際上是差很少的。

在Redis中，已經封裝了HyperLogLog算法，他是一種基數評估算法。這種算法的特徵，通常都是數據不存具體的值，而是存用來計算機率的一些相關數據。

當用戶訪問網站的時候，咱們可使用PFADD命令，設置對應的命令，最後咱們只要經過PFCOUNT就能順利計算出最終的結果，由於這個只是一個機率算法，因此可能存在0.81%的偏差。

優勢： 佔用內存極小，對於一個key，只須要12kb。對於拼多多這種超多用戶的特別適用。

缺點： 查詢指定用戶的時候，可能會出錯，畢竟存的不是具體的數據。總數也存在必定的偏差。

上面就是常見的3種適用Redis統計網站用戶訪問數的方法了。

分享一份 2019 最新 Java 架構師學習資料

做者：沙茶敏碎碎念
https://url.cn/5tQPEQg

推薦去個人博客閱讀更多：

1.Java JVM、集合、多線程、新特性系列教程

2.Spring MVC、Spring Boot、Spring Cloud 系列教程

3.Maven、Git、Eclipse、Intellij IDEA 系列工具教程

4.Java、後端、架構、阿里巴巴等大廠最新面試題

生活很美好，明天見～

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。