幾道和「黑洞照片」那種海量數據有關的算法問題

昨晚被一則新聞刷屏:北京時間 4 月 10 日今晚 9 點,人類首張黑洞照片正式發佈。html

看到這張圖片,小吳內心是極爲震撼的:愛因斯坦太太太太太牛逼了!!!java

同時,看新聞的時候小吳還注意到裏面有個細節,給黑洞」拍照「的事件視界望遠鏡從 2017 年就開始爲黑洞拍照了,但直到 2019 年才公佈。面試

內心不由納悶:爲何給黑洞拍照須要這麼長時間?算法

因而去更加詳細的搜索資料,果真發現了端倪,其中一個點就是 望遠鏡觀測到的數據量很是龐大數組

2017 年時 8 個望遠鏡的數據量達到了 10PB(=10240TB),2018 年又增長了格陵蘭島望遠鏡,數據量繼續增長。龐大的數據量爲處理讓數據處理的難度不斷加大。函數

平時面試的時候總是說海量數據,海量數據,此次的數據真的是海量數據了。網站

此次的數據流之大,致使每一個射電望遠鏡產生的數據,都只能用硬盤來儲存。code

那麼如今問題來了,假設你做爲給黑洞拍照的研發人員,給你一臺內存有限的計算機,你如何找出這些數據的中位數或者判斷某個數字是否存在裏面。htm

1. 海量數據查找中位數

題目描述

如今有 10 億個 int 型的數字( java 中 int 型佔 4B),以及一臺可用內存爲 1GB 的機器,如何找出這 10 億個數字的中位數?blog

所謂中位數就是有序列表中間的數。若是列表長度是偶數,中位數則是中間兩個數的平均值。

題目解析

題目中有 10 億個數字,每一個數字在內存中佔 4B,那麼這 10 億個數字徹底加載到內存中須要:10 * 10^8 * 4,大概須要 4GB 的存儲空間。根據題目的限制,顯然不能把全部的數字都裝入內存中。

這裏,能夠採用基於 二進制位比較 和 快速排序算法中的 分割思想 來尋找中位數,實際上這也是 桶排序 的一種應用。

桶排序桶排序

假設將這 10 億個數字保存在一個大文件中,依次讀一部分文件到內存(不超過內存的限制: 1GB ),將每一個數字用二進制表示,比較二進制的最高位(第 32 位),若是數字的最高位爲 0,則將這個數字寫入 file_0 文件中;若是最高位爲 1,則將該數字寫入 file_1 文件中。

注意:最高位爲符號位,也就是說 file_1 中的數都是負數,而 file_0 中的數都是正數。

經過這樣的操做,這 10 億個數字分紅了兩個文件,假設 file_0 文件中有 6 億個數字,而 file_1 文件中有 4 億個數字。

這樣劃分後,思考一下:所求的中位數在哪一個文件中?

10 億個數字的中位數是10 億個數排序以後的第 5 億個數,如今 file_0 有 6 億個正數,file_1 有 4 億個負數,file_0 中的數都比 file_1 中的數要大,排序以後的第 5 億個數必定是正數,那麼排序以後的第 5 億個數必定位於file_0中。

也就是說:中位數就在 file_0 文件中,而且是 file_0 文件中全部數字排序以後的第 1 億個數字

如今,咱們只須要處理 file_0 文件了(不須要再考慮 file_1 文件)。

而對於 file_0 文件,能夠一樣的採起上面的措施處理:將 file_0 文件依次讀一部分到內存(不超內存限制:1GB ),將每一個數字用二進制表示,比較二進制的 次高位(第 31 位),若是數字的次高位爲 0,寫入 file_0_0 文件中;若是次高位爲 1 ,寫入 file_0_1 文件中。

現假設 file_0_0 文件中有 3 億個數字,file_0_1中也有 3 億個數字,則中位數就是:file_0_0 文件中的數字從小到大排序以後的第 1 億個數字。

拋棄 file_0_1 文件,繼續對 file_0_0 文件 根據次次高位(第 30 位) 劃分,假設這次劃分的兩個文件爲:file_0_0_0中有 0.5 億個數字,file_0_0_1 中有 2.5 億個數字,那麼中位數就是 file_0_0_1 文件中的全部數字排序以後的第 0.5 億個數。

2. 海量數據中判斷數字是否存在

題目描述

如今有 10 億個 int 型的數字( java 中 int 型佔 4B),以及一臺可用內存爲 1GB 的機器,給出一個整數,問若是快速地判斷這個整數是否在這 10 億數字中?

題目分析

這裏可使用 布隆過濾器 進行處理。

布隆過濾器(英語:Bloom Filter)是 1970 年由 Burton Bloom 提出的。

它其實是一個很長的二進制矢量和一系列隨機映射函數。

能夠用來判斷一個元素是否在一個集合中。它的優點是隻須要佔用很小的內存空間以及有着高效的查詢效率。

對於布隆過濾器而言,它的本質是一個位數組:位數組就是數組的每一個元素都只佔用 1 bit ,而且每一個元素只能是 0 或者 1。

一開始,布隆過濾器的位數組全部位都初始化爲 0。好比,數組長度爲 m ,那麼將長度爲 m 個位數組的全部的位都初始化爲 0。

0 0 0 0 0 0 0 0 0 0
0 0 1 m-2 m-1

在數組中的每一位都是二進制位。

布隆過濾器除了一個位數組,還有 K 個哈希函數。當一個元素加入布隆過濾器中的時候,會進行以下操做:

  • 使用 K 個哈希函數對元素值進行 K 次計算,獲得 K 個哈希值。
  • 根據獲得的哈希值,在位數組中把對應下標的值置爲 1。

圖 1圖 1

舉個例子,假設布隆過濾器有 3 個哈希函數:f1, f2, f3 和一個位數組 arr。如今要把 2333 插入布隆過濾器中:

  • 對值進行三次哈希計算,獲得三個值 n1, n2, n3。
  • 把位數組中三個元素 arr[n1], arr[n2], arr[3] 都置爲 1。

當要判斷一個值是否在布隆過濾器中,對元素進行三次哈希計算,獲得值以後判斷位數組中的每一個元素是否都爲 1,若是值都爲 1,那麼說明這個值在布隆過濾器中,若是存在一個值不爲 1,說明該元素不在布隆過濾器中。

布隆布隆

小吳在前不久專門分析講解過此題,更加詳細的講解請點擊這裏查看~

參考資料

海量數據查找中位數:https://www.cnblogs.com/hapjin/p/5769087.html

我的網站:https://www.cxyxiaowu.com

公衆號:五分鐘學算法

相關文章
相關標籤/搜索