一個簡單的英文自然語言處理流程

以細粒度情感分析爲例,每條語句有三行:句子-aspect-情感極性,分爲train和test兩個數據集。 整體流程 tokennizer: 處理分詞,以空格分開,建立word2id,id2word詞典 embedding:查找預訓練的詞向量,將每個單詞對應的詞向量組成詞典,未知詞另作處理 填充語句:將訓練和測試語句先轉化爲tokenid中的word2id,再padding到最大長度 然後就可以走模
相關文章
相關標籤/搜索