騰訊抗黑灰產——自監督發現行話黑詞識別一詞多義

時間 2020-02-11

標籤騰訊黑灰監督發現行話識別多義欄目騰訊简体版

原文原文鏈接

本文做者：lorenzwang ，騰訊 TEG 安全工程師php 常見的中文 NLP 下游任務通常都是以分詞做爲起點（以 transformer 爲核心的算法除外），對每一個詞取 embedding，做爲模型的輸入。不過在黑灰產領域，這種處理方法有一個問題：大量的黑話/黑詞對於下游任務很是有效，但卻不在通用的詞典中，致使分詞器沒法準確切分出對應的詞。好比，今年 315 晚會曝光的「714 」，再好

>>阅读原文<<