做者|Zijing Zhu
編譯|VK
來源|Towards Datas Sciencepython
據估計,世界上80%的數據是非結構化的。所以,從非結構化數據中提取信息是數據分析的重要組成部分。web
文本挖掘是從非結構化文本數據中獲取有價值的信息的過程,情感分析是文本挖掘的應用之一。它使用天然語言處理和機器學習技術從文本數據中理解和分類情緒。在商業環境中,情緒分析普遍應用於瞭解客戶評論、從電子郵件中檢測垃圾郵件等。正則表達式
本文是本教程的第一部分,介紹了使用Python進行情緒分析的具體技術。爲了更好地說明程序,我將以個人一個項目爲例,對WTI原油期貨價格進行新聞情緒分析。我將介紹重要的步驟以及相應的Python代碼。flask
原油期貨價格短時間內有較大波動。任何產品的長期均衡都是由供求情況決定的,而價格的短時間波動則反映了市場對該產品的信心和預期。在本項目中,我利用與原油相關的新聞文章來捕捉不斷更新的市場信心和預期,並經過對新聞文章進行情緒分析來預測將來原油價格的變化。如下是完成此分析的步驟:網絡
一、收集資料:網絡抓取新聞文章app
二、文本數據預處理(本文)dom
三、文本矢量化:TFIDF機器學習
四、用logistic迴歸進行情緒分析函數
五、使用python flask web app在Heroku部署模型工具
我將討論第二部分,即本文中文本數據的預處理。若是你對其餘部分感興趣,請繼續閱讀。
我使用NLTK、Spacy和一些正則表達式中的工具來預處理新聞文章。要導入庫並使用Spacy中的預構建模型,可使用如下代碼:
import spacy import nltk # 初始化spacy'en'模型 nlp = spacy.load(‘en’, disable=[‘parser’, ‘ner’])
以後,我用Pandas讀入數據:
「Subject」和「Body」是我將應用文本預處理過程的列。我按照標準的文本挖掘過程對新聞文章進行預處理,以重新聞內容中提取有用的特徵,包括標識化、刪除停用詞和詞形還原。
文本數據預處理的第一步是將每一個句子分解成單獨的單詞,這稱爲標識化。使用單個單詞而不是句子會破壞單詞之間的聯繫。然而,這倒是一種經常使用的方法。計算機經過檢查文章中出現的單詞和這些單詞出現的次數來分析文本數據是比較高效和方便的,而且足以得出有價值的結果。
以個人數據集中的第一篇新聞文章爲例:
可使用NLTK tokenizer:
或者可使用Spacy,記住nlp是上面定義的Spacy引擎:
標識化以後,每一篇新聞文章都將轉換成一個單詞、符號、數字和標點符號的列表。你能夠指定是否也要將每一個單詞都轉換爲小寫。下一步是刪除無用信息。例如,符號、數字、標點符號。我將使用spacy和regex組合來刪除它們。
import re #標識化和刪除標點 words = [str(token) for token in nlp(text) if not token.is_punct] #刪除數字和其餘符號,但「@」除外--用於刪除電子郵件 words = [re.sub(r"[^A-Za-z@]", "", word) for word in words] #刪除網站和電子郵件地址 words = [re.sub(r」\S+com」, 「」, word) for word in words] words = [re.sub(r」\S+@\S+」, 「」, word) for word in words] #刪除空白 words = [word for word in words if word!=’ ‘]
應用上述轉換後,原始新聞文章以下所示:
通過一番改造,新聞文章乾淨多了,但咱們仍是看到了一些咱們不但願看到的詞,好比「and」、「we」等,下一步就是去掉無用的詞,即停用詞。
停用詞是在許多文章中常常出現但沒有意義的詞。stopword的例子有「I」、「the」、「a」、「of」。這些字眼若是刪除,將不會影響對文章的理解。要刪除stopwords,咱們能夠從NLTK庫導入stopwords。
此外,我還列出了其餘在經濟分析中普遍使用的停用詞列表,包括日期和時間,更通常的沒有經濟意義的單詞,等等。如下是我如何構建停用詞列表的方法:
#導入其餘停用詞列表 with open(‘StopWords_GenericLong.txt’, ‘r’) as f: x_gl = f.readlines() with open(‘StopWords_Names.txt’, ‘r’) as f: x_n = f.readlines() with open(‘StopWords_DatesandNumbers.txt’, ‘r’) as f: x_d = f.readlines() #導入nltk停用詞 stopwords = nltk.corpus.stopwords.words(‘english’) #合併全部停用詞 [stopwords.append(x.rstrip()) for x in x_gl][stopwords.append(x.rstrip()) for x in x_n][stopwords.append(x.rstrip()) for x in x_d] #將全部停用詞改成小寫 stopwords_lower = [s.lower() for s in stopwords]
而後重新聞文章中排除停用詞:
words = [word.lower() for word in words if word.lower() not in stopwords_lower]
應用於上一個示例,其外觀以下:
除去中止字,以及符號、數字和標點符號後,咱們要把每一篇新聞文章的單詞進行詞形還原。咱們必須去掉語法時態並將每一個單詞轉換成其原始形式。
例如,若是咱們想計算一篇新聞文章中出現「open」一詞的次數,咱們須要計算「open」、「opens」、「opened」的出現次數。所以,詞形還原是文本轉換的一個重要步驟。另外一種將單詞轉換成原始形式的方法叫作詞幹提取。它們之間的區別是:
詞形還原是把一個詞引入它原來的詞形中,詞幹提取是把一個詞的詞根提取出來(可能直接去掉前綴後綴)。我選擇詞形還原而不是詞幹提取,由於詞幹提取後,有些詞變得很難理解。從解釋的角度來講,詞形還原比詞幹提取好。
上面的引理很容易實現。在詞形還原以後,每一篇新聞文章都將轉換成一個詞的列表,這些詞都是原來的形式。新聞文章如今改爲這樣:
讓咱們總結一下函數中的步驟,並在全部文章中應用該函數:
def text_preprocessing(str_input): #標識化,刪除標點,詞形還原 words=[token.lemma_ for token in nlp(str_input) if not token.is_punct] #刪除符號、網站、電子郵件地址 words = [re.sub(r」[^A-Za-z@]」, 「」, word) for word in words] words = [re.sub(r」\S+com」, 「」, word) for word in words] words = [re.sub(r」\S+@\S+」, 「」, word) for word in words] words = [word for word in words if word!=’ ‘] words = [word for word in words if len(word)!=0] #刪除停用字 words=[word.lower() for word in words if word.lower() not in stopwords_lower] #將列表合併爲一個字符串 string = " ".join(words) return string
在這裏,文本預處理與前面的全部預處理步驟相結合:
在將其推廣到全部新聞文章以前,重要的是將其應用於隨機新聞文章,並查看其工做原理,遵循如下代碼:
import random index = random.randint(0, df.shape[0]) text_preprocessing(df.iloc[index][‘Body’])
若是你想爲此特定項目排除一些額外的單詞,或者你想刪除一些多餘的信息,你能夠在應用於全部新聞文章以前修改函數。這是一篇隨機選取的新聞文章,在標識化先後,去掉了停用詞和詞形還原。
預處理前的新聞文章:
預處理後的新聞文章
若是能夠,你能夠將全部文章都應用於如下函數:
df[‘news_cleaned’]=df[‘Body’].apply(text_preprocessing) df[‘subject_cleaned’]=df[‘Subject’].apply(text_preprocessing)
文本預處理是文本挖掘和情感分析的重要組成部分。有不少方法能夠對非結構化數據進行預處理,使其可讀,便於計算機未來分析。下一步,我將討論用於將文本數據轉換爲稀疏矩陣,以便它們能夠用做定量分析的輸入。
若是你的分析很簡單,而且不須要在預處理文本數據時進行大量定製,那麼vectorizers一般具備內嵌函數來執行基本步驟,好比標識化、刪除stopwords。或者你能夠編寫本身的函數,並在向量化器中指定自定義函數,這樣就能夠同時對數據進行預處理和向量化。
若是你但願這樣作,那麼你的函數須要返回一個通過標記化的單詞列表,而不是一個長字符串。可是,就我的而言,我更喜歡在向量化以前先對文本數據進行預處理。經過這種方式,我一直在監視函數的性能,並且它實際上會更快,特別是當你有一個大的數據集時。
歡迎關注磐創AI博客站:
http://panchuang.net/
sklearn機器學習中文官方文檔:
http://sklearn123.com/
歡迎關注磐創博客資源彙總站:
http://docs.panchuang.net/