FlashText:語料庫數據快速清理利器

數據清理是很多機器學習任務上我們遇到的首要問題。本文介紹的 FastText 是一個開源 Python 庫,可用於快速進行大規模語料庫的文本搜索與替換。該項目的作者表示,使用正則表達式(Regex)需要 5 天的任務在新的方法中只需要 15 分鐘即可完成。 項目鏈接:https://github.com/vi3k6i5/flashtext 自然語言處理領域的開發者在處理文本之前必須對數據進行清理。
相關文章
相關標籤/搜索