無監督對話數據清洗利器:Data Purification Framework

作者/吳金龍 現在一提到聊天機器人,大家就會想起各種算法模型,端到端、生成式、深度增強學習。有一種給我足夠多足夠好的數據,我就能用算法突破圖靈測試的風範。可恨的是,就是沒夠多夠好的數據。相對於英文,中文可用的公開數據集少之又少。 在聊天機器人裏,可用的公開對話數據就更少了,比如閒聊類的也就小黃雞、華爲微博數據,而且這些數據也都還不夠好。不論是公開數據還是自己抓的各種數據,使用前的清洗都是必須的。清
相關文章
相關標籤/搜索