數據集的清洗

6月17日實訓記錄 兒童文學的相關數據集是分散在每一個文件夾下有一本書,做爲總的訓練集需要彙總成一個txt文件,今天進行了部分的數據集的整理入圖: 將文章開頭的一些信息和描述去除 消除所有的間隔和章節的描述,形成一個長文本的形式。如下圖:
相關文章
相關標籤/搜索