OpenFEA技巧篇 | 文本分割

時間 2019-12-01

標籤 openfea 技巧文本分割简体版

原文原文鏈接

您還在爲沒法分析文本數據，沒法提取文本文件中有價值的內容而頭疼嗎？也許用FEA能幫助您解決問題。我先進行拋磚引玉，先講解如何用FEA分割文本文件，如下是一個名字爲access_log_for_pands.txt的文本文件（數據來源於網絡），內容爲網站訪問日誌，格式以下：html

1、數據加載正則表達式

要提取有價值的數據，不管怎麼樣都要先導入數據到FEA中。咱們使用FEA加載數據原語:apache=load csv by access_log_for_pandas.txt with (sep="$",header=-1) ，把整個1.74M大小文件加載FEA引擎中，並使用dump apache命令查看加載完成的數據，以下圖：apache

2、數據分割技巧瀏覽器

FEA一般會使用「字符串函數處理str」原語中split、slice函數對字符列進行分割，也能夠經過lambda函數對字符串進行分割，原語格式以下:網絡

df表.新列名=str 被處理列名 by (split\slicce（正則表達式）)|df表.新列名=lambda 被處理列名 by (x:表達式) 數據結構

下面開始簡單介紹幾個分割技巧。函數

注意：目前str原語命令一共還支持其餘15種不一樣類型函數，cat、contains、count、endswith\startswith、findall、get、jion、len、lower\upper、match、pad、center、repeat、replace、strip\rstrip\lstip（想查看詳細的函數說明信息，請訪問http://www.openfea.cn/xiazaibanben.html目錄下載《原語手冊》）文件。測試

（一）split 根據特定字符分割字符串網站

觀察dump apache展現出來的數據結果，咱們發現將日誌經過 ‘ - - ’字符串進行分割，使用如下原語完成分割：日誌

rename apache as (0:」s」)

apache.x=str s by (split(' - - '))

apache.x0=str x by (get(0))

apache.x1=str x by (get(1))

apache=loc apache by (s,x0,x1)

執行完以上原語後，使用dump apache查看數據結構。

恭喜你，你已經分割成功。

注：咱們來總結一下split函數使用辦法，示例以下：

apache.x=str s by (split('-')) #以-爲特殊字符,對s列值進行分割。

apache.x=str s by (split(' - - ')) #以 - - 爲特殊字符串，對s列值進行分割。