Bye~「大」數據

回想起在我剛開始攻讀數據科學碩士學位的天真歲月裏,任何與大數據相關的主題都會讓我興奮不已、躍躍欲試。我試圖挖掘每一組數據中屬於3V的一部分。_(3V:2001年麥塔集團(META Group)分析師萊尼在一份報告中對大數據提出了「3D數據管理」的觀點,即認爲大數據將往高速、多樣、海量3個方向發展,提出了3個特性:高速性「Velocity」、多樣化「Variety」、規模化「Volume」,統稱3V。)_我想要從無窮無盡的數據流中提煉出可供分析的數據,而後去建模、製做數據可視化、進行數據轉換等等。但時間來到當下,往往看到「大數據」這3個字,總會不自覺地讓我揚起眉毛,心裏不斷地猜測接下來又會出現的是哪個一樣「流行」又「模糊」的科技熱詞呢?安全

01 「熱點」與「現實」

我最近對於一些互聯網看上去「高大上」的話變得十分敏感。好比「讓大數據爲數字化時代賦能」,這句話看上去真的很酷!但它的意義是什麼呢?面對現實生活中受困於Excel表格、沮喪卻不得不人手緩慢運算過程的企業或我的,這句很「酷」的話到底是想要表達什麼?服務器

大數據使人感到興奮是由於它表明了一種巨大的財富,你能夠在其中搜索、查找並使用對你有價值的任何東西。我最初對於大數據的見解是認爲「在全部這些數據中,確定有什麼深層含義是咱們絕對想知道的」。我這種想法或許是對的,但要從大量數據中找到那些有價值的東西,咱們要付出什麼代價呢?網絡

02 沒有正確的基礎架構,大數據無異於垃圾

在處理大數據以前,咱們須要先搭建好數據處理的基本架構,以確保整個系統擁有強大的計算能力、存儲能力、以及數據傳輸等能力。這一般須要花費一筆龐大的開支,同時,還會遇到各類意想不到的瓶頸。隨着雲平臺的發展,雖然計算能力變得更加便宜和易於使用,但隨着雲存儲的指數級增加,雲計算的平常使用甚至本地服務器的維護都是一筆不小的開銷。所以,這裏也出現了一個本世紀頗有意思的迷思:架構

有時候,對某些企業/我的而言像黃金同樣的數據,於另外一些企業/我的而言就是浪費整個存儲空間和算力的垃圾。大數據

目前的現狀是,不少公司都是先花錢挖掘數據,而後再回過頭來看哪些數據是真的有用的。那若是咱們在收集數據以前就優先肯定數據是否有用,這樣會更高效、節能一些嗎?雲計算

03 不是全部數據都是值得被關注的數據

數據科學界有句話叫「無用輸入再無效輸出」。確實,在實際應用中有不少數據其實是不可靠且須要下很大功夫清理才能被使用的數據。並且,時常出現的狀況是,咱們花費了大量精力、時間和金錢卻只能在龐大的數據集中找到少許信息。spa

就像Forrester報告中說的那樣「企業中至少有60%的閒置數據」。rest

企業何不將用於存儲閒置數據的錢用來搭建正確的數據處理架構呢?blog

人們已經意識到,不是每個數據特性都是有用的(有些甚至可能有害),數據的質量每每比數量更加劇要。咱們更但願數據可以以可靠、一致的方式來呈現咱們關心的事情。而這一認知也會更好地將咱們領入一個可解釋的、負責任的和安全的關於AI的研究探索階段。生命週期

總結一下……

當下,咱們已經意識到了數據的重要性,而以後,咱們須要作的是搭建更完善的基礎架構從而更安全地使用、共享、分析數據,而且可以更加精準地區分無用數據和有價值的信息。咱們還須要確保數據的質量和可靠性,確保全世界均可以使用它們並理解其中涵義(這對於將來AI的研究也尤其重要)。最後我想說的是,數據最根本的價值不在於龐大,而在於可靠和有效。

Bye~「大」數據

有效且可靠將爲數據迎來更長的生命週期!

這話聽起來沒那麼酷,但更可愛也更讓人安心了,不是嗎?

原文連接:https://towardsdatascience.com/bye-bye-big-data-fbea187c7739

點擊「閱讀」瞭解更多精彩內容!

以上信息來源於網絡,由「京東智聯雲開發者」公衆號編輯整理,不表明京東智聯雲立場

相關文章
相關標籤/搜索