基於外部詞典對深度學習訓練集進行標註-BIO方式

筆者研究方向爲NLP知識抽取,作實體抽取實驗過程當中須要對訓練數據進行標註。 我先使用jieba分詞對原文本進行分詞和pos詞性標註,而後基於pos詞性標註抽取出文本中的公司名、證券、基金名稱(這部分也能夠使用正則方法)等,保存到word_dict.txt中做爲詞典,而後基於改詞典對原文本中進行的數據進行標註。 word_dict.txt以下: INT與BON文本對應的標籤。 佔位詞 NONE,這
相關文章
相關標籤/搜索