參考資料熵簡科技-李漁博士的報告《文本增強技術的研究進展及應用實踐》
1)回譯(Back translation)
【原始文本爲】文本數據增強技術在自然語言處理中屬於基礎性技術;
【翻譯爲日語】テキストデータ拡張技術は、自然言語処理の基本的な技術です;
【日語再翻譯爲英語】Text data extension technology is a basic technology of natural language processing;
【英語再翻譯回中文】文本數據擴展技術是自然語言處理的基本技術。
2)EDA(Easy data augmentation)
四種操作:同義詞替換、隨機插入、隨機交換和隨機刪除
【同義詞替換(SR)】從句子中隨機選擇非停止詞。用隨機選擇的同義詞替換這些單詞;
【隨機插入(RI)】隨機的找出句中某個不屬於停用詞集的詞,並求出其隨機的同義詞,將該同義詞插入句子的一個隨機位置。重複n次;
【隨機交換(Random Swap, RS)】隨機的選擇句中兩個單詞並交換它們的位置。重複n次;
【隨機刪除(RD)】以概率p隨機刪除句子中每個單詞。
舉例如下
【 原始文本】今天天氣很好。
【同義詞替換(SR)】今天天氣不錯。(好 替換爲 不錯)
【隨機插入(RI)】今天不錯天氣很好。(插入 不錯)
【隨機交換(RS)】今天很好天氣。(很好 和 天氣交換位置)
【隨機刪除(RD)】今天天氣好。(刪除 很)
一個問題:經過EDA操作之後,文本的類別標籤 ( label ) 是否還能保持不變,畢竟這是對文本進行隨機操作?
效果
如何設置替換比例和增強的文本倍數,原文給出的建議如下[11],其中,α是替換刪除等的比例,比如同義詞替換中,替換的單詞數n=α∗L,L是句子長度,隨機插入、隨機替換類似;Naug 是使用EDA方法從每一個句子拓展出的句子數量
3)EDA改進:非核心詞替換
4)基於上下文信息的文本增強
5)基於語言生成模型的文本增強–LAMBADA(IBM201911 GPT-based[2])
6)其他方法:基於文本風格遷移的數據增強
[1] Wei, Jason W., and Kai Zou. 「Eda: Easy data augmentation techniques for boosting performance on text classification tasks.」 arXiv preprint arXiv:1901.11196 (2019). [2] Anaby-Tavor, Ateret, et al. 「Not Enough Data? Deep Learning to the Rescue!.」 arXiv preprint arXiv:1911.03118 (2019). [3] Hu, Zhiting, et al. 「Learning Data Manipulation for Augmentation and Weighting.」 Advances in Neural Information Processing Systems. 2019. [4] Wang, William Yang, and Diyi Yang. 「That’s so annoying!!!: A lexical and frame-semantic embedding based data augmentation approach to automatic categorization of annoying behaviors using# petpeeve tweets.」 Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015. [5] Chawla, Nitesh V., et al. 「SMOTE: synthetic minority over-sampling technique.」 Journal of artificial intelligence research16 (2002): 321-357. [6] Xie, Qizhe, et al. 「Unsupervised data augmentation.」 arXiv preprint arXiv:1904.12848 (2019). [7] Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep learning. MIT press, 2016. [8] Sennrich, Rico, Barry Haddow, and Alexandra Birch. 「Improving neural machine translation models with monolingual data.」 arXiv preprint arXiv:1511.06709 (2015). [9] Edunov, Sergey, et al. 「Understanding back-translation at scale.」 arXiv preprint arXiv:1808.09381 (2018). [10] Yu, Adams Wei, et al. 「Qanet: Combining local convolution with global self-attention for reading comprehension.」 arXiv preprint arXiv:1804.09541 (2018). [11] Wei, Jason W., and Kai Zou. 「Eda: Easy data augmentation techniques for boosting performance on text classification tasks.」 arXiv preprint arXiv:1901.11196 (2019). [12] Kobayashi, Sosuke. 「Contextual augmentation: Data augmentation by words with paradigmatic relations.」 arXiv preprint arXiv:1805.06201 (2018). [13] Wu, Xing, et al. 「Conditional BERT contextual augmentation.」 International Conference on Computational Science. Springer, Cham, 2019. [14] Liu, Ting, et al. 「Generating and exploiting large-scale pseudo training data for zero pronoun resolution.」 arXiv preprint arXiv:1606.01603 (2016). [15] Hou, Yutai, et al. 「Sequence-to-sequence data augmentation for dialogue language understanding.」 arXiv preprint arXiv:1807.01554 (2018). [16] Dong, Li, et al. 「Learning to paraphrase for question answering.」 arXiv preprint arXiv:1708.06022 (2017). [17] Radford, Alec, et al. 「Improving language understanding by generative pre-training.」(2018). https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf [18] Radford, Alec, et al. 「Language models are unsupervised multitask learners.」 OpenAI Blog 1.8 (2019): 9. [19] Hu, Zhiting, et al. 「Toward controlled generation of text.」 Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017. [20] Guu, Kelvin, et al. 「Generating sentences by editing prototypes.」 Transactions of the Association for Computational Linguistics 6 (2018): 437-450.