前面已經講過FEA原語的分類,今天將爲你們講解文本數據源的加載與存儲,在講解以前咱們先總結一下FEA支持的數據源。sql
一、支持Hadoop架構的數據源,如HDFS、HBASE等。數據庫
二、支持傳統關係型數據庫,如Oracle、Postgres、Mysql等。使得一些不能遷入到大數據平臺的數據一樣可使用FEA進行分析。架構
三、經過REST接口擴展,能夠很好的支持第三方平臺的數據,如阿里雲的大數據開放處理平臺ODPS和內存數據庫ADS等。工具
四、各類格式的文本文件的加載與存儲。oop
多種數據源的支持,使得FEA可以接入更多類型的數據來進行關聯分析、碰撞比對等運算,而不要求用戶必定要進行數據的大規模整合,既下降了用戶的使用成本,又發揮了多數據關聯分析的價值。大數據
1、文本數據源加載與存儲語句格式阿里雲
FEA支持對CSV、EXCEL、PKL等數據文件進行分析處理,能夠把每一項數據記錄加載到FEA引擎中。同時,也能夠將FEA引擎中的數據輸出爲CSV、EXCEL、PKL等數據文件。那麼,加載與存儲FEA語句的格式是什麼呢?見下圖:編碼
2、文本數據源加載詳解操作系統
如下是FEA 文本格式加載原語的示例,見下圖:.net
在加載LOG\CSV等文件格式時,常常會加入參數sep=」$」,encoding=‘utf8’,header=-1
那麼,這些參數到底表示什麼意義呢?
聽我娓娓道來。
一、encoding參數
通常來說Windows操做系統的文件默認編碼方式爲gbk,而Linux操做系統的文件默認編碼方式爲utf8,FEA分析工具在讀取用戶上傳的數據文件時默認的解碼方式是gbk。用戶上傳編碼方式爲utf8的數據文件後,FEA分析工具在對該數據文件進行加載時,原語必須加上with (encoding=‘utf8’)子句,以方便FEA用uft8進行文件解碼。
二、sep參數
FEA分析工具加載csv文件時,默認的分隔符爲","(即 with (sep=','))。若是用戶在加載csv文件時以’|’爲分隔符,那麼就是sep='|'。若是加載文本文件整一行,就用文本不存在的特殊字符。
三、 header參數
加載csv文件時,默認爲header=0,即csv文件內容的第一行爲列名;若是CSV文件第一行不是列名而是數據,這時能夠設置爲header=-1,此時生成的DF表將從0開始按順序生成列名。
3、文本數據源存儲詳解
如下是FEA 文本格式存儲原語的示例,見下圖:
在你存儲完結果數據並下載查看時,你常常會發現文件會多出index列,那麼咱們怎麼去除這一列呢?
技巧在Index參數這裏,格式以下:
index=True 或者index=False
其中,默認設置爲True,若是不想帶index可設置爲False。
注意index參數,只在store命令中生效。
4、其餘
隨着FEA的發展,對文件編碼的識別將變的自動化,未來encoding參數會使用的比較少。若是你必定要強制設置文件編碼格式,須要將encoding參數放置在最前面。
請同窗們趕忙按照本武功心法,回家練習基礎功,等你練到第三層,咱們就能夠出師征戰大數據分析了。下次咱們將講NOSQL數據庫的裝載,請期待!
往期精彩文章: