CPU|MICGPU|FPGA|超算|Meta-data|

生物醫學大數據:算法

收集數據後對數據的分析,如同看相,而對數據信息的挖掘能夠看做是算命。這兩個過程是基於算法和軟件這類工具之上的。數據庫

在存儲方面:在硬件上,爲了Parallel computing的目的,剛開始選擇的處理器是multiple core,以後選擇many integrated core architectureMIC英特爾® 集成衆核架構(英特爾® MIC 架構)產品爲開發人員提供了一個關鍵優點:它們基於標準的現有編程工具和方法運行),以後選擇GPU(大內存),以後是FPGA電場可編程邏輯閘陣列,它是在PALGALCPLD等可編程邏輯器件的基礎上進一步發展的產物。它是做爲專用集成電路領域中的一種半定製電路而出現的,既解決了全定製電路的不足,又克服了原有可編程邏輯器件門電路數有限的缺點。可是就生物信息學領域只能跑GATK),現在又有了超級計算機。編程

 

 

 

 

 

 

 

No free lunch:由CPU到超算,靈活性降低可是專有性上升,同時存在的問題是費用變高。現現在的生物信息學分析,正在使用更爲專有性的硬件,也更加費錢。架構

所以,面臨Massive data和因爲data transfer形成的cost,能夠有如下基於軟件的應對方法:工具

1.儘量傳輸壓縮包大數據

2.decouple:將原始數據分析拆解,選擇有須要的類型,會減小數據量spa

3.使用dataset保存分析結果:由於生物數據的特色是a.快速增加b.異構c.一次讀屢次寫,因此以數據特徵做爲研究對象更爲重要,將這些數據特徵存入數據庫更能夠方便查找。對象

4.去冗餘:將原始數據中重複部分去掉。
blog

 

對於Data的處理過程當中,須要注意:ip

1.要對數據進行Analysis,mining(便是prediction),visual。其中,Data mining這個過程是:首先先可以創建scientific model,這個model是一種grey box,它有別於white box或者black box。white box是研究現象的本質,black box是由現象1指向現象2,它們其中是沒有過程的,即不知道爲何;而grey box是經過statistical定量獲得的,是利用統計學將不肯定是否發生的機率數據化,將預測變成能夠度量的數字。由於統計學是將現象1和現象2用數學公式聯繫在一塊兒,其中數公式反應的是二者的關聯強度,並對這個關聯強度定量,因此人們利用這個定量值make decision,這個decision能夠是斷定這些原始數據與某patterns關聯很大(或反應了某pattern),據此有一個結論,就是「是or不是某pattern」,根據這個結論,科學家能夠找到new knowledge。

2.明白Meta-data(元數據,又稱詮釋數據、中介數據、中繼數據、後設數據等,爲描述其餘數據信息的數據。)與raw-data之間的關係,由於生物信息學數據有一次讀屢次寫(或者屢次分析)的特色,因此應該分離讀寫。

3.同時面臨愈來愈多的數據必需要擴大內存。

相關文章
相關標籤/搜索