爬網頁、洗數據、創建海量數據集一條龍!英偉達工程師小姐姐開源工具庫

想做研究,卻沒有足夠的數據,着實讓人抓狂、苦惱。 現在,你可以自己動手創建數據集了。 英偉達工程師小姐姐Chip Huyen,在GitHub上開源了一個名爲「lazynlp」的工具庫。 爬網頁、清洗數據、創建數據集都可以搞定。 她說,使用這個庫,你應該能創建一個比大於40G的文本數據集,比OpenAI訓練GPT-2時使用的還要大。 開源僅一天,項目在GitHub上就獲得了300多星,Twitter
相關文章
相關標籤/搜索