參與文末話題討論,每日贈送異步圖書數據庫
——異步小編異步
每一個數據科學家都須要處理存儲在磁盤中的數據,這些數據涉及的格式有ASCII文本、PDF、XML、JSON等。此外,數據還能夠存儲在數據庫表格中。在對數據進行分析以前,數據科學家首先要作的是從這些數據源獲取各類格式的數據,並對這些數據進行清洗,去除其中的噪聲。今天推薦的圖書是《Java數據科學指南》一書,並從中節選第一章內容,從本文中咱們將學習這些內容,即瞭解如何從不一樣數據源獲取各類格式的數據。工具
在這一過程當中,咱們將用到外部Java庫(Java歸檔文件,簡稱JAR文件),這些庫的使用不只限於本文,還貫穿於《Java數據科學指南》一書。這些庫由不一樣開發者或組織開發,方便了你們的使用。編寫代碼時,咱們會用到Eclipse IDE工具,它是Windows平臺下最好的集成開發環境,全書都會使用它。接下來,咱們將講解如何導入任意一個外部JAR文件,如下各個部分將指導你把外部JAR文件導入到項目中,跟隨步驟動手去作便可。學習
對於一個Eclipse項目,你能夠採用以下方法添加JAR文件:首先依次單擊「Project|Build Path|Configure Build Path」,在Libraries選項卡中,單擊「Add External JARs」,選擇你想添加到項目的外部JAR文件,如圖1-1所示。ui
這部份內容(以及後面各部份內容)是爲那些想從複雜目錄結構中提取文件路徑與名稱的數據科學家準備的,以方便進一步進行後續分析。這裏的複雜目錄結構是指在一個根目錄下包含大量目錄與文件。spa