騰訊抗黑灰產——自監督發現行話黑詞識別一詞多義

本文做者:lorenzwang ,騰訊 TEG 安全工程師php 常見的中文 NLP 下游任務通常都是以分詞做爲起點(以 transformer 爲核心的算法除外),對每一個詞取 embedding,做爲模型的輸入。不過在黑灰產領域,這種處理方法有一個問題:大量的黑話/黑詞對於下游任務很是有效,但卻不在通用的詞典中,致使分詞器沒法準確切分出對應的詞。好比,今年 315 晚會曝光的「714 」,再好
相關文章
相關標籤/搜索