小學生作文數據集處理(二)

1、源數據集介紹 找到的數據集都是doc格式,爲了方便變成處理,將數據集進行合併,並處理爲txt格式,在合併的過程中,只保留作文的正文部分,比如:作文標題、評語、作者、指導教師等相關信息都刪除。 在原來的doc格式中存在大量的空格,不規則字符等 ,也需要一一刪除,比如空白框,???等: 需要整合的數據集如下: 2、數據集整理 將以上作文數據整合爲兩個txt,一個低年級.txt,和一個高年級.txt
相關文章
相關標籤/搜索