最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展

最新文本分類綜述:《A Survey on Text Classification: From Shallow to Deep Learning》算法

最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展

摘要。文本分類是天然語言處理中最基本的任務。因爲深度學習的空前成功,過去十年中該領域的研究激增。已有的文獻提出了許多方法,數據集和評估指標,從而須要對這些內容進行全面的總結。本文回顧1961年至2020年的文本分類方法,重點是從淺層學習到深度學習的模型。根據所涉及的文本以及用於特徵提取和分類的模型建立用於文本分類的分類法。而後,詳細討論這些類別中的每個類別,涉及支持預測測試的技術發展和基準數據集。並提供了不一樣技術之間的全面比較,肯定了各類評估指標的優缺點。最後,經過總結關鍵含義,將來的研究方向以及研究領域面臨的挑戰進行總結。網絡

文本分類流程。在許多NLP應用中,文本分類-爲文本指定預約義標籤的過程-是一項基礎而重要的任務。文本分類的主要流程:首先是預處理模型的文本數據。淺層學習模型一般須要經過人工方法得到良好的樣本特徵,而後使用經典的機器學習算法對其進行分類。所以,該方法的有效性在很大程度上受到特徵提取的限制。可是,與淺層模型不一樣,深度學習經過學習一組非線性變換將特徵工程直接集成到輸出中,從而將特徵工程集成到模型擬合過程當中。架構

最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展

文本分類發展歷程。主要文本分類方法的示意圖如圖2所示。從1960年代到2010年代,基於淺層學習的文本分類模型占主導地位。淺層學習意味着基於統計的模型,例如樸素貝葉斯(NB),K近鄰(KNN)和支持向量機(SVM)。與早期的基於規則的方法相比,該方法在準確性和穩定性方面具備明顯的優點。可是,這些方法仍然須要進行功能設計,這既耗時又昂貴。此外,它們一般會忽略文本數據中的天然順序結構或上下文信息,這使學習單詞的語義信息變得困難。自2010年代以來,文本分類已逐漸從淺層學習模型變爲深層學習模型。與基於淺層學習的方法相比,深度學習方法避免了人工設計規則和功能,並自動爲文本挖掘提供了語義上有意義的表示形式。所以,大多數文本分類研究工做都基於DNN,DNN是數據驅動的方法,具備很高的計算複雜性。不多有研究專一於淺層學習模型來解決計算和數據的侷限性。機器學習

最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展

文章主要貢獻。文章總結了從淺層學習到深度學習的現有模型。淺層學習模型強調特徵提取和分類器設計。一旦文本具備精心設計的特徵,就能夠經過訓練分類器來快速收斂。在不須要領域知識的狀況下,DNNs能夠自動進行特徵提取和學習。而後,爲單標籤和多標籤任務提供數據集和評估指標,並從數據,模型和性能角度總結將來的研究挑戰。此外,在四個表格中總結了各類信息,包括經典的淺層和深度學習模型的必要信息,DNN的技術細節,主要數據集的主要信息以及不一樣應用下的最新方法的通常基準。總而言之,這項研究的主要貢獻以下:ide

•在表1中介紹了文本分類的過程和發展,並根據出版年份總結了經典模型的必要信息,包括場所,應用程序,引文和代碼連接。性能

最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展

•根據模型結構對從淺層學習模型到深度學習模型的主要模型進行全面的分析和研究。總結了經典或更具體的模型,並主要在表2中概述了基本模型,度量和實驗數據集的設計差別。
最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展
學習

•介紹了當前數據集並給出了主要評估度量的表述,包括單標籤和多標籤文本分類任務。在表3中總結了主要數據集的必要信息,包括類別數,平均句子長度,每一個數據集的大小,相關論文和數據地址。
最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展
測試

•在表5中總結了經典模型在基準數據集上的分類準確度得分,並經過討論文本分類面臨的主要挑戰。
最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展
優化

文本分類模型。文本分類被稱爲從原始文本數據中提取特徵,並基於這些特徵預測文本數據的類別。在過去的幾十年中,已經提出了許多用於文本分類的模型,如表1所示。將文本分類的主要模型的主要信息(包括場所,應用程序,引文和代碼連接)製成表格。該表中的應用程序包括情感分析(SA),主題標籤(TL),新聞分類(NC),問題解答(QA),對話行爲分類(DAC),天然語言推斷(NLI)和事件預測(EP)。對於淺層學習模型,NB 是用於文本分類任務的第一個模型。此後,提出了通用分類模型,例如KNN,SVM和RF,它們被稱爲分類器,普遍用於文本分類。最近,XGBoost和LightGBM可能具備提供出色性能的潛力。對於深度學習模型,TextCNN在這些模型中擁有最多的參考文獻,其中首次引入CNN模型來解決文本分類問題。儘管BERT並非專門爲處理文本分類任務而設計的,但考慮到它在衆多文本分類數據集上的有效性,在設計文本分類模型時已被普遍採用。編碼

淺層學習模型:淺層學習模型加快了文本分類速度,提升了準確性,並擴大了淺層學習的應用範圍。首先是對原始輸入文本進行預處理,以訓練淺層學習模型,該模型一般包括分詞,數據清理和數據統計。而後,文本表示旨在以對計算機來講更容易的形式來表達預處理的文本,並最大程度地減小信息丟失,例如詞袋(BOW),N-gram,術語頻率倒排文檔頻率(TF-IDF),word2vec [94]和GloVe [95]。BOW的核心是用字典大小的向量表示每一個文本。向量的單個值表示對應於其在文本中固有位置的詞頻。與BOW相比,N-gram考慮相鄰單詞的信息,並經過考慮相鄰單詞來構建字典。TF-IDF使用單詞頻率並反轉文檔頻率來對文本建模。word2vec使用本地上下文信息來獲取單詞向量。GloVe -具備局部上下文和全局統計功能-訓練單詞-單詞共現矩陣中的非零元素。最後,根據所選特徵將表示的文本輸入分類器。

最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展
最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展
最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展

淺層學習方法是機器學習的一種。它從數據中學習,數據是對預測值的性能很重要的預約義功能。可是,要素工程是一項艱鉅的工做。在訓練分類器以前,咱們須要收集知識或經驗以從原始文本中提取特徵。淺層學習方法基於從原始文本中提取的各類文本特徵來訓練初始分類器。對於小型數據集,在計算複雜度的限制下,淺層學習模型一般比深層學習模型表現出更好的性能。所以,一些研究人員研究了數據較少的特定領域的淺層模型的設計。

深度學習模型:DNN由人工神經網絡組成,該人工神經網絡模擬人腦以自動從數據中學習高級功能,在語音識別,圖像處理和文本理解方面比淺層學習模型得到更好的結果。應該分析輸入數據集以對數據進行分類,例如單標籤,多標籤,無監督,不平衡的數據集。根據數據集的特徵,將輸入單詞向量發送到DNN中進行訓練,直到達到終止條件爲止。訓練模型的性能由下游任務驗證,例如情感分類,問題回答和事件預測。在表2中顯示了多年來的DNN,包括與相應基本模型,評估指標和實驗數據集不一樣的設計。如表2所示,前饋神經網絡和遞歸神經網絡是用於文本分類任務的前兩種深度學習方法,與淺層學習模型相比,它們能夠提升性能。而後,將CNN,RNN和注意力機制用於文本分類。許多研究人員經過改進CNN,RNN和注意力,或模型融合和多任務方法,提升了針對不一樣任務的文本分類性能。能夠生成上下文化詞向量的來自變壓器的雙向編碼器表示(BERT)的出現,是文本分類和其餘NLP技術發展的重要轉折點。許多研究人員已經研究了基於BERT的文本分類模型,該模型在包括文本分類在內的多個NLP任務中比上述模型具備更好的性能。此外,一些研究人員研究了基於GNN的文本分類技術,以捕獲文本中的結構信息,這是其餘方法沒法替代的。
最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展
最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展
最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展
最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展
最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展
最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展
最新文本分類大綜述-從1961-2020年文本分類自淺入深的發展






深度學習由神經網絡中的多個隱藏層組成,具備更高的複雜度,而且能夠在非結構化數據上進行訓練。深度學習架構能夠直接從輸入中學習特徵表示,而無需太多的人工干預和先驗知識。可是,深度學習技術是一種數據驅動的方法,一般須要大量數據才能實現高性能。儘管基於自我注意的模型能夠爲DNN帶來一些單詞間的可解釋性,但與淺層模型進行比較並不足以解釋其緣由和工做方式。

技術挑戰。文本分類-做爲有效的信息檢索和挖掘技術-在管理文本數據中起着相當重要的做用。它使用NLP,數據挖掘,機器學習和其餘技術來自動分類和發現不一樣的文本類型。文本分類將多種類型的文本做爲輸入,而且文本由預訓練模型表示爲矢量。而後將向量饋送到DNN中進行訓練,直到達到終止條件爲止,最後,下游任務驗證了訓練模型的性能。現有的模型已經顯示出它們在文本分類中的有用性,可是仍有許多可能的改進須要探索。儘管一些新的文本分類模型反覆擦寫了大多數分類任務的準確性指標,但它沒法指示模型是否像人類同樣從語義層面「理解」文本。此外,隨着噪聲樣本的出現,小的樣本噪聲可能致使決策置信度發生實質性變化,甚至致使決策逆轉。所以,須要在實踐中證實該模型的語義表示能力和魯棒性。此外,由詞向量表示的預訓練語義表示模型一般能夠提升下游NLP任務的性能。關於上下文無關單詞向量的傳輸策略的現有研究還是相對初步的。所以,咱們從數據,模型和性能的角度得出結論,文本分類主要面臨如下挑戰:

數據層面:對於文本分類任務,不管是淺層學習仍是深度學習方法,數據對於模型性能都是必不可少的。研究的文本數據主要包括多章,短文本,跨語言,多標籤,少樣本文本。對於這些數據的特徵,現有的技術挑戰以下:

Zero-shot/Few-shot learning。當前的深度學習模型過於依賴大量標記數據。這些模型的性能在零鏡頭或少鏡頭學習中受到顯着影響。

外部知識。咱們都知道,輸入的有益信息越多,DNN的性能就越好。所以,認爲添加外部知識(知識庫或知識圖)是提升模型性能的有效途徑。然而,如何添加以及添加什麼仍然是一個挑戰。

多標籤文本分類任務。多標籤文本分類須要充分考慮標籤之間的語義關係,而且模型的嵌入和編碼是有損壓縮的過程。所以,如何減小訓練過程當中層次語義的丟失以及如何保留豐富而複雜的文檔語義信息仍然是一個亟待解決的問題。

具備許多術語詞彙的特殊領域。特定領域的文本(例如金融和醫學文本)包含許多特定的單詞或領域專家,可理解的語,縮寫等,這使現有的預訓練單詞向量難以使用。

模型層面:現有的淺層和深度學習模型的大部分結構都被嘗試用於文本分類,包括集成方法。BERT學習了一種語言表示法,能夠用來對許多NLP任務進行微調。主要的方法是增長數據,提升計算能力和設計訓練程序,以得到更好的結果如何在數據和計算資源和預測性能之間權衡是值得研究的。

性能評估層面:淺層模型和深層模型能夠在大多數文本分類任務中取得良好的性能,可是須要提升其結果的抗干擾能力。如何實現對深度模型的解釋也是一個技術挑戰。

模型的語義魯棒性。近年來,研究人員設計了許多模型來加強文本分類模型的準確性。可是,若是數據集中有一些對抗性樣本,則模型的性能會大大下降。所以,如何提升模型的魯棒性是當前研究的熱點和挑戰。

模型的可解釋性。DNN在特徵提取和語義挖掘方面具備獨特的優點,而且已經完成了出色的文本分類任務。可是,深度學習是一個黑盒模型,訓練過程難以重現,隱式語義和輸出可解釋性不好。它對模型進行了改進和優化,丟失了明確的準則。此外,咱們沒法準確解釋爲何該模型能夠提升性能。

相關文章
相關標籤/搜索