近日,Ramesh Dontha 在 DataConomy 上連發兩篇文章,扼要而全面地介紹了關於大數據的 75 個核心術語,這不只是大數據初學者的很好的入門資料,對於高階從業人員也能夠起到查缺補漏的做用。本文分爲上篇(25 個術語)和下篇(50 個術語)。機器之心對文章進行了編譯,原文連接請見文末。node
若是你剛接觸大數據,你可能會以爲這個領域很難以理解,無從下手。不過,你能夠從下面這份包含了 25 個大數據術語的清單入手,那麼咱們開始吧。web
算法(Algorithm):算法能夠理解成一種數學公式或用於進行數據分析的統計學過程。那麼,「算法」又是何以與大數據扯上關係的呢?要知道,儘管算法這個詞是一個統稱,可是在這個流行大數據分析的時代,算法也常常被說起且變得愈加流行。算法
分析(Analytics):讓咱們試想一個極可能發生的狀況,你的信用卡公司給你發了封記錄着你整年卡內資金轉帳狀況的郵件,若是這個時候你拿着這張單子,開始認真研究你在食品、衣物、娛樂等方面消費狀況的百分比會怎樣?你正在進行分析工做,你在從你原始的數據(這些數據能夠幫助你爲來年本身的消費狀況做出決定)中挖掘有用的信息。那麼,若是你以相似的方法在推特和臉書上對整個城市人們發的帖子進行處理會如何呢?在這種狀況下,咱們就能夠稱之爲大數據分析。所謂大數據分析,就是對大量數據進行推理並從中道出有用的信息。如下有三種不一樣類型的分析方法,如今咱們來對它們分別進行梳理。shell
描述性分析法(Descriptive Analytics):若是你只說出本身去年信用卡消費狀況爲:食品方面 25%、衣物方面 35%、娛樂方面 20%、剩下 20% 爲雜項開支,那麼這種分析方法被稱爲描述性分析法。固然,你也能夠找出更多細節。數據庫
預測性分析法(Predictive Analytics):若是你對過去 5 年信用卡消費的歷史進行了分析,發現每一年的消費狀況基本上呈現一個連續變化的趨勢,那麼在這種狀況下你就能夠高几率預測出:來年的消費狀態應該和以往是相似的。這不是說咱們在預測將來,而是應該理解爲,咱們在「用機率預測」可能發生什麼事情。在大數據的預測分析中,數據科學家可能會使用先進的技術,如機器學習,和先進的統計學處理方法(這部分後面咱們會談到)來預測天氣狀況、經濟變化等等。編程
規範性分析(Prescriptive Analytics):這裏咱們仍是用信用卡轉帳的例子來理解。假如你想找出本身的哪類消費(如食品、娛樂、衣物等等)能夠對總體消費產生巨大影響,那麼基於預測性分析(Predictive Analytics)的規範性分析法經過引入「動態指標(action)」(如減小食品或衣物或娛樂)以及對由此產生的結果進行分析來規定一個能夠下降你總體開銷的最佳消費項。你能夠將它延伸到大數據領域,並想象一個負責人是如何經過觀察他面前多種動態指標的影響,進而做出所謂由「數據驅動」的決策的。瀏覽器
批處理(Batch processing):儘管批量數據處理從大型機(mainframe)時代就已經存在了,可是在處理大量數據的大數據時代面前,批處理得到了更重要的意義。批量數據處理是一種處理大量數據(如在一段時間內收集到的一堆交易數據)的有效方法。分佈式計算(Hadoop),後面會討論,就是一種專門處理批量數據的方法。服務器
Cassandra 是一個很流行的開源數據管理系統,由 Apache Software Foundation 開發並運營。Apache 掌握了不少大數據處理技術,Cassandra 就是他們專門設計用於在分佈式服務器之間處理大量數據的系統。網絡
雲計算(Cloud computing):雖然雲計算這個詞如今已經家喻戶曉,這裏大可沒必要贅述,可是爲了全篇內容完整性的考慮,筆者仍是在這裏加入了雲計算詞條。本質上講,軟件或數據在遠程服務器上進行處理,而且這些資源能夠在網絡上任何地方被訪問,那麼它就可被稱爲雲計算。數據結構
集羣計算(Cluster computing):這是一個來描述使用多個服務器豐富資源的一個集羣(cluster)的計算的形象化術語。更技術層面的理解是,在集羣處理的語境下,咱們可能會討論節點(node)、集羣管理層(cluster management layer)、負載平衡(load balancing)和並行處理(parallel processing)等等。
暗數據(Dark data):這是一個生造詞,在筆者看來,它是用來嚇唬人,讓高級管理聽上去晦澀難懂的。基本而言,所謂暗數據指的是,那些公司積累和處理的實際上徹底用不到的全部數據,從這個意義上來講咱們稱它們爲「暗」的數據,它們有可能根本不會被分析。這些數據能夠是社交網絡中的信息,電話中心的記錄,會議記錄等等。不少估計認爲全部公司的數據中有 60% 到 90% 不等多是暗數據,但實際上沒人知道。
數據湖(Data lake):當筆者第一次聽到這個詞時,真的覺得這是個愚人節笑話。可是它真的是一個術語。因此一個數據湖(data lake)即一個以大量原始格式保存了公司級別的數據知識庫。這裏咱們介紹一下數據倉庫(Data warehouse)。數據倉庫是一個與這裏提到的數據湖相似的概念,但不一樣的是,它保存的是通過清理和而且其它資源整合後的結構化數據。數據倉庫常常被用於通用數據(但不必定如此)。通常認爲,一個數據湖可讓人更方便地接觸到那些你真正須要的數據,此外,你也能夠更方便地處理、有效地使用它們。
數據挖掘(Data mining):數據挖掘關乎以下過程,從一大羣數據中以複雜的模式識別技巧找出有意義的模式,而且獲得相關洞見。它與前文所述的「分析」息息相關,在數據挖掘中,你將會先對數據進行挖掘,而後對這些獲得的結果進行分析。爲了獲得有意義的模式(pattern),數據挖掘人員會使用到統計學(一種經典的舊方法)、機器學習算法和人工智能。
數據科學家:數據科學家是時下很是性感的一門行業。它指那些能夠經過提取原始數據(這就是咱們前面所謂的數據湖)進而理解、處理並得出洞見的這樣一批人。部分數據科學家必備的技能能夠說只有超人才有:分析能力、統計學、計算機科學、創造力、講故事能力以及理解商業背景的能力。難怪這幫人工資很高。
分佈式文件系統(Distributed File System):大數據數量太大,不能存儲在一個單獨的系統中,分佈式文件系統是一個可以把大量數據存儲在多個存儲設備上的文件系統,它可以減小存儲大量數據的成本和複雜度。
ETL:ETL 表明提取、轉換和加載。它指的是這一個過程:「提取」原始數據,經過清洗/豐富的手段,把數據「轉換」爲「適合使用」的形式,而且將其「加載」到合適的庫中供系統使用。即便 ETL 源自數據倉庫,可是這個過程在獲取數據的時候也在被使用,例如,在大數據系統中從外部源得到數據。
Hadoop:當人們思考大數據的時候,他們會當即想到 Hadoop。Hadoop 是一個開源軟件架構(logo 是一頭可愛的大象),它由 Hadoop 分佈式文件系統(HDFS)構成,它容許使用分佈式硬件對大數據進行存儲、抽象和分析。若是你真的想讓某人對這個東西印象深入,你能夠跟他說 YARN(Yet Another Resource Scheduler),顧名思義,就是另外一個資源調度器。我確實被提出這些名字的人深深震撼了。提出 Hadoop 的 Apache 基金會,還負責 Pig、Hive 以及 Spark(這都是一些軟件的名字)。你沒有被這些名字驚豔到嗎?
內存計算(In-memory computing):一般認爲,任何不涉及到 I/O 訪問的計算都會更快一些。內存計算就是這樣的技術,它把全部的工做數據集都移動到集羣的集體內存中,避免了在計算過程當中向磁盤寫入中間結果。Apache Spark 就是一個內存計算的系統,它相對 Mapreduce 這類 I/O 綁定的系統具備很大的優點。
物聯網(IoT):最新的流行語就是物聯網(IoT)。IoT 是嵌入式對象中(如傳感器、可穿戴設備、車、冰箱等等)的計算設備經過英特網的互聯,它們可以收發數據。物聯網生成了海量的數據,帶來了不少大數據分析的機遇。
機器學習(Machine Learning):機器學習是基於喂入的數據去設計可以學習、調整和提高的系統的一種方法。使用設定的預測和統計算法,它們持續地逼近「正確的」行爲和想法,隨着更多的數據被輸入到系統,它們可以進一步提高。
MapReduce:MapReduce 可能有點難以理解,我試着解釋一下吧。MapReduceMapReduce 是一個編程模型,最好的理解就是要注意到 Map 和 Reduce 是兩個不一樣的過程。在 MapReduce 中,程序模型首先將大數據集分割成一些小塊(這些小塊拿技術術語來說叫作「元組」,可是我描述的時候會盡可能避免晦澀的技術術語),而後這些小塊會被分發給不一樣位置上的不一樣計算機(也就是說以前描述過的集羣),這在 Map 過程是必須的。而後模型會收集每一個計算結果,而且將它們「reduce」成一個部分。MapReduce 的數據處理模型和 Hadoop 分佈式文件系統是分不開的。
非關係型數據庫(NoSQL):這個詞聽起來幾乎就是「SQL,結構化查詢語言」的反義詞,SQL 是傳統的關係型數據管理系統(RDBMS)必需的,可是 NOSQL 實際上指的是「不止 SQL」。NoSQL 實際上指的是那些被設計來處理沒有結構(或者沒有「schema」,綱要)的大量數據的數據庫管理系統。NoSQL 適合大數據系統,由於大規模的非結構化數據庫須要 NoSQL 的這種靈活性和分佈式優先的特色。
R 語言:這還有人能給一個編程語言起一個更加糟糕的名字嗎?R 語言就是這樣的語言。不過,R 語言是一個在統計工做中工做得很好的語言。若是你不知道 R 語言,別說你是數據科學家。由於 R 語言是數據科學中最流行的編程語言之一。
Spark(Apache Spark):Apache Spark 是一個快速的內存數據處理引擎,它可以有效地執行那些須要迭代訪問數據庫的流處理、機器學習以及 SQL 負載。Spark 一般會比咱們前面討論過的 MapReduce 快好多。
流處理(Stream processing):流處理被設計來用於持續地進行流數據的處理。與流分析技術(指的是可以持續地計算數值和統計分析的能力)結合起來,流處理方法特別可以針對大規模數據的實時處理。
結構化 vs 非結構化數據(Structured v Unstructured Data):這是大數據中的對比之一。結構化數據基本上是那些可以被放在關係型數據庫中的任何數據,以這種方式組織的數據能夠與其餘數據經過表格來關聯。非結構化數據是指任何不可以被放在關係型數據庫中的數據,例如郵件信息、社交媒體上的狀態,以及人類語音等等。
這篇文章是上篇文章的延續,因爲上篇反響熱烈,我決定多介紹 50 個相關術語。下面來對上篇文章涵蓋的術語作個簡短的回顧:算法,分析,描述性分析,預處理分析,預測分析,批處理,Cassandra(一個大規模分佈式數據存儲系統),雲計算,集羣計算,暗數據,數據湖,數據挖掘,數據科學家,分佈式文件系統,ETL,Hadoop(一個開發和運行處理大規模數據的軟件平臺),內存計算,物聯網,機器學習,Mapreduce(hadoop 的核心組件之一),NoSQL(非關係型的數據庫),R,Spark(計算引擎),流處理,結構化 vs 非結構化數據。
咱們接下來繼續瞭解另外 50 個大數據術語。
Apache 軟件基金會(ASF)提供了許多大數據的開源項目,目前有 350 多個。解釋完這些項目須要耗費大量時間,因此我只挑選解釋了一些流行術語。
Apache Kafka:命名於捷克做家卡夫卡,用於構建實時數據管道和流媒體應用。它如此流行的緣由在於可以以容錯的方式存儲、管理和處理數據流,聽說還很是「快速」。鑑於社交網絡環境大量涉及數據流的處理,卡夫卡目前很是受歡迎。
Apache Mahout:Mahout 提供了一個用於機器學習和數據挖掘的預製算法庫,也可用做建立更多算法的環境。換句話說,機器學習極客的最佳環境。
Apache Oozie:在任何編程環境中,你都須要一些工做流系統經過預約義的方式和定義的依賴關係,安排和運行工做。Oozie 爲 pig、MapReduce 以及 Hive 等語言編寫的大數據工做所提供正是這個。
Apache Drill, Apache Impala, Apache Spark SQL:這三個開源項目都提供快速和交互式的 SQL,如與 Apache Hadoop 數據的交互。若是你已經知道 SQL 並處理以大數據格式存儲的數據(即 HBase 或 HDFS),這些功能將很是有用。抱歉,這裏說的有點奇怪。
Apache Hive:知道 SQL 嗎?若是知道那你就很好上手 Hive 了。Hive 有助於使用 SQL 讀取、寫入和管理駐留在分佈式存儲中的大型數據集。
Apache Pig:Pig 是在大型分佈式數據集上建立、查詢、執行例程的平臺。所使用的腳本語言叫作 Pig Latin(我絕對不是瞎說,相信我)。聽說 Pig 很容易理解和學習。可是我很懷疑有多少是能夠學習的?
Apache Sqoop:一個用於將數據從 Hadoop 轉移到非 Hadoop 數據存儲(如數據倉庫和關係數據庫)的工具。
Apache Storm:一個免費開源的實時分佈式計算系統。它使得使用 Hadoop 進行批處理的同時能夠更容易地處理非結構化數據。
人工智能(AI):爲何 AI 出如今這裏?你可能會問,這不是一個單獨的領域嗎?全部這些技術發展趨勢緊密相連,因此咱們最好靜下心來繼續學習,對吧?AI 以軟硬件結合的方式開發智能機器和軟件,這種硬件和軟件的結合可以感知環境並在須要時採起必要的行動,不斷從這些行動中學習。是否是聽起來很像機器學習?跟我一塊兒「困惑」吧。
行爲分析(Behavioral Analytics):你有沒有想過谷歌是如何爲你須要的產品/服務提供廣告的?行爲分析側重於理解消費者和應用程序所作的事情,以及如何與爲何它們以某種方式起做用。這涉及瞭解咱們的上網模式,社交媒體互動行爲,以及咱們的網上購物活動(購物車等),鏈接這些無關的數據點,並試圖預測結果。舉一個例子,在我找到一家酒店並清空購物車後,我收到了度假村假期線路的電話。我還要說多點嗎?
Brontobytes:1 後面 27 個零,這是將來數字世界存儲單位的大小。而咱們在這裏,來談談 Terabyte、Petabyte、Exabyte、Zetabyte、Yottabyte 和 Brontobyte。你必定要讀這篇文章才能深刻了解這些術語。
商業智能(Business Intelligence):我將重用 Gartner 對 BI 的定義,由於它解釋的很好。商業智能是一個總稱,包括應用程序、基礎設施、工具以及最佳實踐,它能夠訪問和分析信息,從而改善和優化決策及績效。
生物測定學(Biometrics):這是一項 James Bondish 技術與分析技術相結合的經過人體的一種或多種物理特徵來識別人的技術,如面部識別,虹膜識別,指紋識別等。
點擊流分析(Clickstream analytics):用於分析用戶在網絡上瀏覽時的在線點擊數據。有沒有想過即便在切換網站時,爲何某些谷歌廣告仍是陰魂不散?由於谷歌大佬知道你在點擊什麼。
聚類分析(Cluster Analysis)是一個試圖識別數據結構的探索性分析,也稱爲分割分析或分類分析。更具體地說,它試圖肯定案例的同質組(homogenous groups),即觀察、參與者、受訪者。若是分組之前未知,則使用聚類分析來識別案例組。由於它是探索性的,確實對依賴變量和獨立變量進行了區分。SPSS 提供的不一樣的聚類分析方法能夠處理二進制、標稱、序數和規模(區間或比率)數據。
比較分析(Comparative Analytics):由於大數據的關鍵就在於分析,因此本文中我將深刻講解分析的意義。顧名思義,比較分析是使用諸如模式分析、過濾和決策樹分析等統計技術來比較多個進程、數據集或其餘對象。我知道它涉及的技術愈來愈少,可是我仍沒法徹底避免使用術語。比較分析可用於醫療保健領域,經過比較大量的醫療記錄、文件、圖像等,給出更有效和更準確的醫療診斷。
關聯分析(Connection Analytics):你必定看到了像圖表同樣的蜘蛛網將人與主題鏈接起來,從而肯定特定主題的影響者。關聯分析分析能夠幫助發現人們、產品、網絡之中的系統,甚至是數據與多個網絡結合之間的相關鏈接和影響。
數據分析師(Data Analyst):數據分析師是一個很是重要和受歡迎的工做,除了準備報告以外,它還負責收集、編輯和分析數據。我會寫一篇更詳細的關於數據分析師的文章。
數據清洗(Data Cleansing):顧名思義,數據清洗涉及到檢測並更正或者刪除數據庫中不許確的數據或記錄,而後記住「髒數據」。藉助於自動化或者人工工具和算法,數據分析師可以更正並進一步豐富數據,以提升數據質量。請記住,髒數據會致使錯誤的分析和糟糕的決策。
數據即服務(DaaS):咱們有軟件即服務(SaaS), 平臺即服務(PaaS),如今咱們又有 DaaS,它的意思是:數據即服務。經過給用戶提供按需訪問的雲端數據,DaaS 提供商可以幫助咱們快速地獲得高質量的數據。
數據虛擬化(Data virtualization):這是一種數據管理方法,它容許某個應用在不知道技術細節(如數據存放在何處,以什麼格式)的狀況下可以抽取並操做數據。例如,社交網絡利用這個方法來存儲咱們的照片。
髒數據(Dirty Data):既然大數據這麼吸引人,那麼人們也開始給數據加上其餘的形容詞來造成新的術語,例如黑數據(dark data)、髒數據(dirty data)、小數據(small data),以及如今的智能數據(smart data)。髒數據就是不乾淨的數據,換言之,就是不許確的、重複的以及不一致的數據。顯然,你不會想着和髒數據攪在一塊兒。因此,儘快地修正它。
模糊邏輯(Fuzzy logic):咱們有多少次對一件事情是肯定的,例如 100% 正確?很稀少!咱們的大腦將數據聚合成部分的事實,這些事實進一步被抽象爲某種可以決定咱們決策的閾值。模糊邏輯是一種這樣的計算方式,與像布爾代數等等中的「0」和「1」相反,它旨在經過漸漸消除部分事實來模仿人腦。
遊戲化(Gamification):在一個典型的遊戲中,你會有一個相似於分數同樣的元素與別人競爭,而且還有明確的遊戲規則。大數據中的遊戲化就是使用這些概念來收集、分析數據或者激發玩家。
圖數據庫(Graph Databases):圖數據使用節點和邊這樣的概念來表明人和業務以及他們之間的關係,以挖掘社交媒體中的數據。是否曾經驚歎過亞馬遜在你買一件產品的時候告訴你的關於別人在買什麼的信息?對,這就是圖數據庫。
Hadoop 用戶體驗(Hadoop User Experience /Hue):Hue 是一個可以讓使用 Apache Hadoop 變得更加容易的開源接口。它是一款基於 web 的應用;它有一款分佈式文件系統的文件瀏覽器;它有用於 MapReduce 的任務設計;它有可以調度工做流的框架 Oozie;它有一個 shell、一個 Impala、一個 Hive UI 以及一組 Hadoop API。
高性能分析應用(HANA):這是 SAP 公司爲大數據傳輸和分析設計的一個軟硬件內存平臺。
HBase: 一個分佈式的面向列的數據庫。它使用 HDFS 做爲其底層存儲,既支持利用 MapReduce 進行的批量計算,也支持利用事物交互的批量計算。
負載均衡(Load balancing):爲了實現最佳的結果和對系統的利用,將負載分發給多個計算機或者服務器。
元數據(Metadata):元數據就是可以描述其餘數據的數據。元數據總結了數據的基本信息,這使得查找和使用特定的數據實例變得更加容易。例如,做者、數據的建立日期、修改日期以及大小,這幾項是基本的文檔元數據。除了文檔文件以外,元數據還被用於圖像、視頻、電子表格和網頁。
MongoDB:MongoDB 是一個面向文本數據模型的跨平臺開源數據庫,而不是傳統的基於表格的關係數據庫。這種數據庫結構的主要設計目的是讓結構化數據和非結構化數據在特定類型應用的整合更快、更容易。
Mashup:幸運的是,這個術語和咱們在平常生活中使用的「mashup」一詞有着相近的含義,就是混搭的意思。實質上,mashup 是一個將不一樣的數據集合併到一個單獨應用中的方法(例如:將房地產數據與地理位置數據、人口數據結合起來)。這確實可以讓可視化變得很酷。
多維數據庫(Multi-Dimensional Databases):這是一個爲了數據在線分析處理(OLAP)和數據倉庫優化而來的數據庫。若是你不知道數據倉庫是什麼,我能夠解釋一下,數據倉庫不是別的什麼東西,它只是對多個數據源的數據作了集中存儲。
多值數據庫(MultiValue Databases):多值數據庫是一種非關係型數據庫,它可以直接理解三維數據,這對直接操做 HTML 和 XML 字符串是很好的。
天然語言處理(Natural Language Processing):天然語言處理是被設計來讓計算機更加準確地理解人類平常語言的軟件算法,可以讓人類更加天然、更加有效地和計算機交互。
神經網絡(Neural Network):根據這個描述(http://neuralnetworksanddeeplearning.com/),神經網絡是一個受生物學啓發的很是漂亮的編程範式,它可以讓計算機從觀察到的數據中學習。已經很久沒有一我的會說一個編程範式很漂亮了。實際上,神經網絡就是受現實生活中腦生物學啓發的模型....... 與神經網絡緊密關聯的一個術語就是深度學習。深度學習是神經網絡中一系列學習技術的集合。
模式識別(Pattern Recognition):當算法須要在大規模數據集或者在不一樣的數據集上肯定迴歸或者規律的時候,就出現了模式識別。它與機器學習和數據挖掘緊密相連,甚至被認爲是後二者的代名詞。這種可見性能夠幫助研究者發現一些深入的規律或者獲得一些可能被認爲很荒謬的結論。
射頻識別(Radio Frequency Identification/RFID):射頻識別是一類使用非接觸性無線射頻電磁場來傳輸數據的傳感器。隨着物聯網的發展,RFID 標籤可以被嵌入到任何可能的「東西里面」,這可以生成不少須要被分析的數據。歡迎來到數據世界。
軟件即服務(SaaS):軟件即服務讓服務提供商把應用託管在互聯網上。SaaS 提供商在雲端提供服務。
半結構化數據(Semi-structured data):半結構化數據指的是那些沒有以傳統的方法進行格式化的數據,例如那些與傳統數據庫相關的數據域或者經常使用的數據模型。半結構化數據也不是徹底原始的數據或者徹底非結構化的數據,它可能會包含一些數據表、標籤或者其餘的結構元素。半結構化數據的例子有圖、表、XML 文檔以及電子郵件。半結構化數據在萬維網上十分流行,在面向對象數據庫中常常可以被找到。
情感分析(Sentiment Analysis):情感分析涉及到了對消費者在社交媒體、顧客表明電話訪談和調查中存在的多種類型的交互和文檔中所表達的情感、情緒和意見的捕捉、追蹤和分析。文本分析和天然語言處理是情感分析過程當中的典型技術。情感分析的目標就是要辨別或評價針對一個公司、產品、服務、人或者時間所持有的態度或者情感。
空間分析(Spatial analysis):空間分析指的是對空間數據做出分析,以識別或者理解分佈在幾何空間中的數據的模式和規律,這類數據有幾何數據和拓撲數據。
流處理(Stream processing):流處理被設計用來對「流數據」進行實時的「連續」查詢和處理。爲了對大量的流數據以很快的速度持續地進行實時的數值計算和統計分析,社交網絡上的流數據對流處理的需求很明確。
智能數據(Smart Data)是通過一些算法處理以後有用而且可操做的數據。
Terabyte:這是一個相對大的數字數據單位,1TB 等於 1000GB。據估計,10TB 可以容納美國國會圖書館的全部印刷品,而 1TB 則可以容納整個百科全書 Encyclopedia Brittanica。
可視化(Visualization):有了合理的可視化以後,原始數據就可以使用了。固然這裏的可視化並不止簡單的圖表。而是可以包含數據的不少變量的同時還具備可讀性和可理解性的複雜圖表。
Yottabytes:接近 1000 Zettabytes,或者 2500 萬億張 DVD。如今全部的數字存儲大概是 1 Yottabyte,並且這個數字每 18 個月會翻一番。
Zettabytes:接近 1000 Exabytes,或者 10 億 Terabytes。
原文連接:http://dataconomy.com/2017/02/25-big-data-terms/
http://dataconomy.com/2017/07/75-big-data-terms-everyone-know/