原文連接算法
引言:數據科學存在於生產和生活的各個方面,貫穿於人類社會發展的始終。數據科學做爲科學,首先應該知足科學的基本定義。在此基礎上,數據科學兼具數據自己的一些特性。
本文內容整理自《數據科學家養成手冊》認知篇。網絡
數據科學是一個巨大而抽象的概念,要想清晰地認識這樣一個概念,就須要對其進行拆解。框架
科學是一種泛指的領域,包括數據科學、計算機科學、社會科學、經濟科學、語言科學、生物科學等都是小、窄而深的認知領域,這些領域的科學有各自的體系、規範及認知特性。科學,不論是某個領域的科學,仍是泛指的科學認知體系,都有最基本的要求——精確性和體系性。ide
太陽東昇西落,四季夏熱冬冷,這種事情不足爲奇。經過觀察星辰運動,得出這些天體都在圍繞地球轉動(至少看上去是這樣)的結論,也不值得稱道。而可以把這一切經過量化的(尤爲是精確量化的)描述進行闡釋和計算的人,確實比常人的觀察層面更廣、更深。這種精確描述的過程與狀態的現實指導意義遠比從大方向上指出一個性質要大。ui
體系性就是指「自圓其說」的框架。所謂「自圓其說」的概念是指一種科學理論要有完整的對象定義,以及對象之間的換算與轉化的條件和量化值的確切關係,一般表現爲各類各樣的計算公式或者統計機率的確切描述。並且,這一切有一個前提——須要「可應驗」,嚴格地說是「高度應驗」才行。體系框架的成立會造成一個封閉的討論邊界。在討論邊界內部的全部觀察對象都會以各類量化結果呈如今換算公式的因子裏,它的完整性會直接支持體系自己,並支持全部在該體系下進行的性狀判斷與預測。spa
數據無處不在。在網絡上、報紙上、書籍上,在家用電腦的磁盤上,在咱們的腦海裏,數據大量且普遍地存在。圍繞數據,人類已經作了不少數據科學的研究和應用工做,其中最爲基礎的就是數據的存儲和傳輸。數據的價值在於數據上所承載的信息,信息的價值在於其消除不肯定性時的成本及其直接和間接的做用,而這一系列的價值使得咱們對數據的價值予以空前的重視,這就是咱們熱衷於研究數據科學的緣由所在。
數據做爲信息的載體,經過在介質上的落地和傳輸,以及數據之間體系性的計算,給人類帶來了「消除不肯定性,下降試錯成本」的巨大利益。
著名信息學家克勞德·艾爾伍德·香農(Claude Elwood Shannon)曾經在1948年於《貝爾系統技術期刊》上發表論文《通訊的數學理論》(A Mathematical Theory of Communication),其中有一段描述大意是「信息是用來消除隨機不肯定性的東西」。香農在這篇論文中不只給出了信息的含義,還給出了信息量計算的公式,也就是信息學相關專業最爲經常使用的公式之一 —— 信息熵公式。
其中,P(xi ) 表明消息 xi 產生的機率。
數據做爲介質承載信息的形式,其實是一種將信息抽象後的符號表示。因此,究其本質,不管是磁帶上的語音數據,唱片上的音樂數據,磁盤上的文件數據,仍是紙張上的文字數據,都具備以下特性。設計
做用:承載信息,消除不肯定性。orm
形式:抽象過的符號記錄。對象
定義:符號的含義通過約定,不會或至少不易產生二義性。圖片
信息的流傳須要經過存儲介質實現持久化。如今咱們一提到存儲,一般都會想到計算機硬盤,包括傳統的機械硬盤及技術愈來愈成熟的固態硬盤(SSD硬盤)等。
衆所周知,目前的電子計算機使用的計算與存儲介質都是二進制的。這不是偶然的結果,而是由電子計算機的實現原理形成的。在ENIAC的設計過程當中,馮·諾依曼(John von Neumann)根據半導體電子元件的二穩態特性,將計算機的計算邏輯設計爲二進制方式(即只有「0」和「1」兩種狀態),在電子管上體現出來的特性就是「截止」和「導通」。而人類喜歡使用十進制也主要是由於人有10根手指,在平常生活中用十進制進行計算最爲便利。
電子管
在計算過程當中,計算機將「與門」、「或門」、「與非門」、「或非門」等邏輯元件組合在一塊兒,模擬計算進位的過程,進而造成完整的計算實現單元。用電子計算機實現的任何一種運算都是由這些邏輯門組合而成的,而這以後在電子計算機領域不斷進行的技術改進都是基於一樣的原理。儘管元件的體積愈來愈小,集成的程度愈來愈高,計算的速度愈來愈快,但從計算邏輯和實現的數學層面來講,其原理沒有本質的變化。
邏輯門
在硬盤技術方面也一樣不斷進行着量變的積累。不管盤片容量是500GB仍是1TB甚至更高,都是經過磁頭機械臂在盤片上滑動的同時高速轉動盤片來實現磁性材料持久化和材料狀態感應。計算中使用的「0」和「1」,就能夠經過這種持久化以磁介質疏密(磁通量的高低)寫入磁性材料層。
機械硬盤及其讀寫原理
展望將來,量子計算機和光子計算機的研發已經展開。這些新型計算機儘管實現原理不一樣,但只要成本足夠低,並且與目前的電子計算機採用相同的工業標準,使雙方在存儲介質、信息傳輸等多個方面可以毫無障礙地互聯互通,其將來就很是值得期待。
加拿大D-WAVE公司的量子計算機
信息通過抽象、建模,落實到介質上成爲數據。數據與不一樣特性的介質結合,在各類介質上落地的形式也不徹底同樣,而這種結合一般是數據去迎合介質的特性。有意義的數據落在介質上,才能造成能夠傳遞的信息,這就是信息產業賴以生存的基礎。
在瞭解科學和數據的定義後,咱們基本能夠給數據科學下一個完整的定義了——數據科學是一種研究信息感知、抽象、保存、建模、傳輸,以及數據之間的邏輯、數量統計、計算和轉化關係的綜合應用科學。數據科學的本質就是表述和指導對事物認知的關係量化,把普適性的科學思惟方式應用到數據上,使其成爲一門窄而深的、精確的、擁有完總體系的學科。這就是數據科學要解決的本質問題。
若是嘗試對數據科學這個龐大的體系進行細分,能夠分紅不少專一於數據某一方面處理的專項學科。例如,數據貯存學研究數據存儲中的數據體積、存取效率、可靠性問題等,數據傳輸學研究傳輸速度、傳輸質量問題等。在這兩個大的領域中,全部可能影響數據存儲和傳輸的因素都會被討論和研究,計算機硬件製造、光電信號傳輸、數據有損/無損壓縮、數據冗餘與高可用、數據校驗等都是研究的對象。
此外,還有研究如何在數據中進行信息抽象、計算、查找、分析等諸多度量與換算問題的數據算法學,以及其餘一切可以對數據的感知、抽象、保存、建模、傳輸,甚至是數據的可視化、數據之間的辯證邏輯提供支持的學科等。其餘分類一樣會因爲產業分化的須要而隨時產生。這種平衡中的變化不斷髮生,一些小的分支和分類也會因爲科研工做者潛移默化的努力而逐漸融合爲一個大的分支。這些方式一樣是仁者見仁,智者見智,不一而足。
本文內容整理自《數據科學家養成手冊》認知篇,點此連接可在博文視點官網查看此書。