加權隨機算法

加權隨機算法通常應用在如下場景:有一個集合S,裏面好比有A,B,C,D這四項。這時咱們想隨機從中抽取一項,可是抽取的機率不一樣,好比咱們但願抽到A的機率是50%,抽到B和C的機率是20%,D的機率是10%。通常來講,咱們能夠給各項附一個權重,抽取的機率正比於這個權重。那麼上述集合就成了:python

{A:5,B:2,C:2,D:1}算法

方法一:

擴展這個集合,使每一項出現的次數與其權重正相關。在上述例子這個集合擴展成:
{A,A,A,A,A,B,B,C,C,D}
而後就能夠用均勻隨機算法來從中選取。數組

好處:選取的時間複雜度爲O(1),算法簡單。
壞處:空間佔用極大。另外若是權重數字位數較大,例如{A:49.1 B:50.9}的時候,就會產生巨大的空間浪費。app

方法二:

計算權重總和sum,而後在1到sum之間隨機選擇一個數R,以後遍歷整個集合,統計遍歷的項的權重之和,若是大於等於R,就中止遍歷,選擇遇到的項。dom

仍是以上面的集合爲例,sum等於10,若是隨機到1-5,則會在遍歷第一個數字的時候就退出遍歷。符合所選取的機率。python2.7

好處:沒有額外的空間佔用,算法也比較簡單。
壞處:選取的時候要遍歷集合,時間複雜度是O(n)。函數

方法三:

能夠對方法二進行優化,對項目集按照權重排序。這樣遍歷的時候,機率高的項能夠很快遇到,減小遍歷的項。
比較{A:5,B:2,C:2,D:1}和{B:2,C:2,A:5,D:1}
前者遍歷步數的指望是5/10*1+2/10*2+2/10*3+1/10*4然後者是2/10*1+2/10*2+5/10*3+1/10*4。優化

好處:提升了平均選取速度。
壞處:須要進行排序,而且不易添加刪除修改項。spa

解決:

這是能想到和能看到的最多的版本,不知道尚未更高效好用的算法。排序

  1. #!/usr/bin/env python  
  2. # -*- coding: utf-8 -*-  
  3. #python2.7x  
  4. #random_weight.py   
  5. #author: orangleliu@gmail.com 2014-10-11  
  6.   
  7. ''''' 
  8. 每一個元素都有權重,而後根據權重隨機取值 
  9.  
  10. 輸入 {"A":2, "B":2, "C":4, "D":10, "E": 20} 
  11. 輸出一個值 
  12. '''  
  13. import random  
  14. import collections as coll  
  15.   
  16. data = {"A":2, "B":2, "C":4, "D":6, "E": 11}  
  17.   
  18. #第一種 根據元素權重值 "A"*2 ..等,把每一個元素取權重個元素放到一個數組中,而後最數組下標取隨機數獲得權重  
  19. def list_method():  
  20.     all_data = []  
  21.     for v, w in data.items():  
  22.         temp = []  
  23.         for i in range(w):  
  24.             temp.append(v)  
  25.         all_data.extend(temp)  
  26.           
  27.     n = random.randint(0,len(all_data)-1)  
  28.     return all_data[n]  
  29.       
  30. #第二種 也是要計算出權重總和,取出一個隨機數,遍歷全部元素,把權重相加sum,當sum大於等於隨機數字的時候中止,取出當前的元組  
  31. def iter_method():  
  32.     total = sum(data.values())  
  33.     rad = random.randint(1,total)  
  34.       
  35.    cur_total = 0  
  36.     res = ""  
  37.     for k, v in data.items():  
  38.         cur_total += v  
  39.         if rad<= cur_total:  
  40.             res = k   
  41.             break  
  42.     return res  
  43.       
  44.       
  45. def test(method):  
  46.     dict_num = coll.defaultdict(int)  
  47.     for i in range(100):  
  48.         dict_num[eval(method)] += 1  
  49.     for i,j in dict_num.items():  
  50.         print i, j      
  51.       
  52. if __name__ == "__main__":  
  53.     test("list_method()")  
  54.     print "-"*50  
  55.     test("iter_method()")  
  56.       

一次執行的結果

  1. A 4  
  2. C 14  
  3. B 7  
  4. E 44  
  5. D 31  
  6. --------------------------------------------------  
  7. A 8  
  8. C 16  
  9. B 6  
  10. E 43  
  11. D 27  

 

 

問題:

例如咱們要選從不一樣省份選取一個號碼,每一個省份的權重不同,直接選隨機數確定是不行的了,就須要一個模型來解決這個問題。

簡化成下面的問題:

 字典的key表明是省份,value表明的是權重,咱們如今須要一個函數,每次基於權重選擇一個省份出來

{"A":2, "B":2, "C":4, "D":10, "E": 20}

相關文章
相關標籤/搜索