FEA從入門到精通系列 | 文本數據源加載與存儲

前面已經講過FEA原語的分類,今天將爲你們講解文本數據源的加載與存儲,在講解以前咱們先總結一下FEA支持的數據源。sql

一、支持Hadoop架構的數據源,如HDFS、HBASE等。數據庫

二、支持傳統關係型數據庫,如Oracle、Postgres、Mysql等。使得一些不能遷入到大數據平臺的數據一樣可使用FEA進行分析。架構

三、經過REST接口擴展,能夠很好的支持第三方平臺的數據,如阿里雲的大數據開放處理平臺ODPS和內存數據庫ADS等。工具

四、各類格式的文本文件的加載與存儲。oop

多種數據源的支持,使得FEA可以接入更多類型的數據來進行關聯分析、碰撞比對等運算,而不要求用戶必定要進行數據的大規模整合,既下降了用戶的使用成本,又發揮了多數據關聯分析的價值。大數據

1、文本數據源加載與存儲語句格式阿里雲

FEA支持對CSV、EXCEL、PKL等數據文件進行分析處理,能夠把每一項數據記錄加載到FEA引擎中。同時,也能夠將FEA引擎中的數據輸出爲CSV、EXCEL、PKL等數據文件。那麼,加載與存儲FEA語句的格式是什麼呢?見下圖:編碼

2、文本數據源加載詳解操作系統

如下是FEA 文本格式加載原語的示例,見下圖:.net

在加載LOG\CSV等文件格式時,常常會加入參數sep=」$」,encoding=‘utf8’,header=-1

那麼,這些參數到底表示什麼意義呢?

聽我娓娓道來。

一、encoding參數

通常來說Windows操做系統的文件默認編碼方式爲gbk,而Linux操做系統的文件默認編碼方式爲utf8,FEA分析工具在讀取用戶上傳的數據文件時默認的解碼方式是gbk。用戶上傳編碼方式爲utf8的數據文件後,FEA分析工具在對該數據文件進行加載時,原語必須加上with (encoding=‘utf8’)子句,以方便FEA用uft8進行文件解碼。

二、sep參數

FEA分析工具加載csv文件時,默認的分隔符爲","(即 with (sep=','))。若是用戶在加載csv文件時以’|’爲分隔符,那麼就是sep='|'。若是加載文本文件整一行,就用文本不存在的特殊字符。

三、 header參數

加載csv文件時,默認爲header=0,即csv文件內容的第一行爲列名;若是CSV文件第一行不是列名而是數據,這時能夠設置爲header=-1,此時生成的DF表將從0開始按順序生成列名。

3、文本數據源存儲詳解

如下是FEA 文本格式存儲原語的示例,見下圖:

在你存儲完結果數據並下載查看時,你常常會發現文件會多出index列,那麼咱們怎麼去除這一列呢?

技巧在Index參數這裏,格式以下:

index=True 或者index=False

其中,默認設置爲True,若是不想帶index可設置爲False。

注意index參數,只在store命令中生效。

4、其餘

隨着FEA的發展,對文件編碼的識別將變的自動化,未來encoding參數會使用的比較少。若是你必定要強制設置文件編碼格式,須要將encoding參數放置在最前面。

請同窗們趕忙按照本武功心法,回家練習基礎功,等你練到第三層,咱們就能夠出師征戰大數據分析了。下次咱們將講NOSQL數據庫的裝載,請期待!

 

往期精彩文章:

FEA從入門到精通系列 | 基礎原語分類

相關文章
相關標籤/搜索