利用人工智能(Magpie開源庫)給一段中文的文本內容進行分類打標籤

當下人工智能是真心的火熱呀,各類原來傳統的業務也都在嘗試用人工智能技術來處理,以此來節省人工成本,提升生產效率。既然有這麼火的利器,那麼咱們就先來簡單認識下什麼是人工智能吧,人工智能是指利用語音識別、語義理解、圖像識別、視覺處理、機器學習、大數據分析等技術實現機器智能自動化作出響應的一種模擬人行爲的手段。而咱們這裏介紹的Magpie則屬於人工智能領域裏語義理解、機器學習中的一個具體的實現技術。git

 

前述github

近期由於工做緣由,須要歷來自於客戶聊天對話的文本中進行用戶行爲判斷,並對其打上相應的標籤。而我須要解決的就是利用文本內容進行機器自動分類打標籤,但在業務中,一段文本會存有不一樣的多個標籤,那麼如何來實現呢?經過Github,找到了Magpie,發現其與個人需求很是吻合。一番折騰後,就有了本文章。後端

 

Magpie網絡

Magpie是一個開源的文本分類庫,基於一個高層神經網絡Keras技術編寫,後端默認由Tensorflow來處理。Magpie是由Python語言開發的,且默認只支持英文文本分類,我由於業務須要便在其基礎上作了中文文本的支持。以下是Magpie相關的網址:機器學習

Magpie官網:https://github.com/inspirehep/magpie工具

Keras中文文檔:https://keras-cn.readthedocs.io/en/latest/學習

 

實現開發工具

經過上面的介紹,咱們清楚了須要實現的業務與目的,以及採用的技術手段。那麼,就讓咱們一塊兒來看看藉助Magpie會有什麼神祕的事情發生吧。測試

一、從Magpie下載源碼包到本地,經過PyCharm IDE開發工具打開項目後發現有「data」、「magpie」、「save」等目錄。其中「data」目錄用於存放訓練的源數據,「magpie」目錄用於存放源代碼,「save」目錄用於存放訓練後的模型文件,具體結以下圖:大數據

image

 

二、在項目中引用相應的第三方類庫,以下:

  1 'nltk~=3.2',
  2 'numpy~=1.12',
  3 'scipy~=0.18',
  4 'gensim~=0.13',
  5 'scikit-learn~=0.18',
  6 'keras~=2.0',
  7 'h5py~=2.6',
  8 'jieba~=0.39',

 

三、對項目有了必定認識後,如今咱們來準備源數據。咱們這裏假定有三種標籤,分別爲「軍事「、」旅遊「'、」政治」,每一個標籤各準備必定數量的源數據(訓練數據理論上是越多越好,這裏我偷懶就只按每一個標籤各準備了50條數據),其中拿出70%作爲訓練數據,30%作爲測試數據,根據Magpie規則將訓練源數據放到「data」目錄內。

 

四、數據準備好後,咱們須要改動源代碼,使其能支持中文。中文面臨一個問題就是分詞,而咱們這裏使用jieba分詞庫。依次打開」magpie\base「目下的」Document「類中,並在該類內加入相應的分詞代碼,具體代碼以下:

  1 from __future__ import print_function, unicode_literals
  2 
  3 import re
  4 import io
  5 import os
  6 import nltk
  7 import string
  8 import jieba
  9 
 10 from nltk.tokenize import WordPunctTokenizer, sent_tokenize, word_tokenize
 11 
 12 nltk.download('punkt', quiet=True)  # make sure it's downloaded before using
 13 
 14 class Document(object):
 15 
 16     """ Class representing a document that the keywords are extracted from """
 17     def __init__(self, doc_id, filepath, text=None):
 18         self.doc_id = doc_id
 19 
 20         if text:
 21             text = self.clean_text(text)
 22             text = self.seg_text(text)
 23             self.text = text
 24             self.filename = None
 25             self.filepath = None
 26         else:  # is a path to a file
 27             if not os.path.exists(filepath):
 28                 raise ValueError("The file " + filepath + " doesn't exist")
 29 
 30             self.filepath = filepath
 31             self.filename = os.path.basename(filepath)
 32             with io.open(filepath, 'r', encoding='gbk') as f:
 33                 text_context = f.read()
 34                 text_context = self.clean_text(text_context)
 35                 self.text = self.seg_text(text_context)
 36                 print(self.text)
 37         self.wordset = self.compute_wordset()
 38 
 39 
 40 
 41     # 利用jieba包進行分詞,並而且去掉停詞,返回分詞後的文本
 42     def seg_text(self,text):
 43         stop = [line.strip() for line in open('data/stopwords.txt', encoding='utf8').readlines()]
 44         text_seged = jieba.cut(text.strip())
 45         outstr = ''
 46         for word in text_seged:
 47             if word not in stop:
 48                 outstr += word
 49                 outstr += ""
 50         return outstr.strip()
 51 
 52     # 清洗文本,去除標點符號數字以及特殊符號
 53     def clean_text(self,content):
 54         text = re.sub(r'[+——!,;/·。?、~@#¥%……&*「」《》:()[]【】〔〕]+', '', content)
 55         text = re.sub(r'[▲!"#$%&\'()*+,-./:;<=>\\?@[\\]^_`{|}~]+', '', text)
 56         text = re.sub('\d+', '', text)
 57         text = re.sub('\s+', '', text)
 58         return text
 59 
 60     def __str__(self):
 61         return self.text
 62 
 63     def compute_wordset(self):
 64         tokens = WordPunctTokenizer().tokenize(self.text)
 65         lowercase = [t.lower() for t in tokens]
 66         return set(lowercase) - {',', '.', '!', ';', ':', '-', '', None}
 67 
 68     def get_all_words(self):
 69         """ Return all words tokenized, in lowercase and without punctuation """
 70         return [w.lower() for w in word_tokenize(self.text)
 71                 if w not in string.punctuation]
 72 
 73     def read_sentences(self):
 74         lines = self.text.split('\n')
 75         raw = [sentence for inner_list in lines
 76                for sentence in sent_tokenize(inner_list)]
 77         return [[w.lower() for w in word_tokenize(s) if w not in string.punctuation]
 78                 for s in raw]
 79 

 

五、通這上述的改造,咱們的分類程序能夠較好的支持中文了,接下來就能夠進行數據訓練了。項目是經過運行」train.py「類來進行訓練操做,但在運行以前咱們須要對該類作下改動,具體代碼以下:

  1 from magpie import Magpie
  2 
  3 magpie = Magpie()
  4 magpie.train_word2vec('data/hep-categories', vec_dim=3) #訓練一個word2vec
  5 magpie.fit_scaler('data/hep-categories') #生成scaler
  6 magpie.init_word_vectors('data/hep-categories', vec_dim=3) #初始化詞向量
  7 labels = ['軍事','旅遊','政治'] #定義全部類別
  8 magpie.train('data/hep-categories', labels, test_ratio=0.2, epochs=20) #訓練,20%數據做爲測試數據,5輪
  9 
 10 #保存訓練後的模型文件
 11 magpie.save_word2vec_model('save/embeddings/here', overwrite=True)
 12 magpie.save_scaler('save/scaler/here', overwrite=True)
 13 magpie.save_model('save/model/here.h5')

 

六、運行」train.py「類來進行訓練數據,截圖以下:

image

 

七、模型訓練成功後,接下來就能夠進行模擬測試了。項目是經過運行」test.py「類來進行測試操做,但在運行以前咱們須要對該類作下改動,具體代碼以下:

  1 from magpie import Magpie
  2 
  3 magpie = Magpie(
  4     keras_model='save/model/here.h5',
  5     word2vec_model='save/embeddings/here',
  6     scaler='save/scaler/here',
  7     labels=['旅遊', '軍事', '政治']
  8 )
  9 
 10 #單條模擬測試數據
 11 text = '特朗普在聯合國大會發表演講談到這屆美國政府成績時,稱他已經取得了美國曆史上幾乎最大的成就。隨後大會現場傳出了嘲笑聲,特朗普當即迴應道:「這是真的。」'
 12 mag1 = magpie.predict_from_text(text)
 13 print(mag1)
 14 
 15 '''
 16 #也能夠經過從txt文件中讀取測試數據進行批量測試
 17 mag2 = magpie.predict_from_file('data/hep-categories/1002413.txt')
 18 print(mag2)
 19 '''

 

八、運行」test.py「類來進行測試數據,截圖以下:

image

 

總結

一、文本分類在不少場景中都能應用,好比垃圾郵件分類、用戶行爲分析、文章分類等,經過本文簡單的演示後聰明的你是否是有了一個更大的發現呢!

二、本文使用了Magpie開源庫實現模型訓練與測試,後臺用Tensorflow來運算。並結合jieba分詞進行中文切詞處理。

三、Magpie自己是不支持中文文本內容的,在這裏我加入了jieba分詞庫後使得整個分類程序有了較好的支持中文文本內容的能力。

四、本文測試分值跟訓練數據的數量有必定關係,訓練數據理論上是越多越好。

五、分享一句話:人工智能要有多少的智能,就必須要有多少的人工。

 

聲明

本文爲做者原創,轉載請備註出處與保留原文地址,謝謝。如文章能給您帶來幫助,請點下推薦或關注,感謝您的支持!

相關文章
相關標籤/搜索