---恢復內容開始---算法
個人工程實踐項目爲《基於情感詞典的文本情感分析》,情感分析是指經過機器學習或者天然語言處理技術,從文本中分析出人們對實體或屬性所表達的觀點、情感、評價、態度和情緒,情感分析也被稱爲情感挖掘、意見挖掘、觀點抽取等。文本情感分析的主要任務是判斷文本的情感傾向性,即對做者表達的情感是積極的仍是消極的,正面的仍是負面的,褒義的仍是貶義的判斷,所以也被情感分類。基於情感詞典的文本情感分類,是對人的記憶和判斷思惟的最簡單的模擬。其原理經過考察並分析文本中全部的具備情感色彩的詞語,並對這些詞語以及修飾詞的情感強度進行量化加權來計算整個文本情感傾向的方法。其具體的實現方法爲:首先對輸入文本進行分詞和去除停用詞,而後將每一個處理過的分詞與構建的情感詞典進行匹配,最後根據匹配結果獲得文本的情感極性。主要的用例有:網絡
- 獲取數據集:本項目所針對的目標是京東電子商品評論,獲取數據集的主要方式有網絡爬蟲,下載公開數據集、利用公開API獲取。
- 數據預處理:主要的工做是對原始數據進行去重、缺失值處理、分詞和去除停用詞。
- 構建領域情感詞典:領域情感詞典的構建是本項目的主要工做,實現的方式爲在公開的情感詞典基礎上利用語義的相識度來進行擴充,計算相識度的主要方法有word2vec、PMI算法
- 情感分析:主要的任務是利用文本分詞與領域情感詞典的匹配狀況,獲得情感值,而且運用LDA模型提取出感詞所對應的主題,輸出文本的情感詞-情感值-主題詞
![](http://static.javashuo.com/static/loading.gif)
High level use case:機器學習
- 獲取數據集
- 數據預處理
- 構建領域情感詞典
- 情感分析
Expanded use case:學習
- 自定義詞典。將分詞結果、網絡詞彙、專業詞彙和情感詞典去重整合爲自定義詞典,並利用jieba分詞來進行切分,提升分詞的準確率。
- 構建領域停用詞表。將分詞結果進行詞頻統計,並按從大到小排列,將一些不相關的詞加入到停用詞表,以便以後進行情感分析。
- 構建領域情感詞典。公共的情感詞典並不適用電商領域,爲提升情感分析的準確率,在公開公用情感詞典的基礎上,利用語義的相識度來擴展獲得電商領域的情感詞典。
- 構建LDA主題模型。傳統的情感分析是針對整個文本,而實際上用戶更關心評論的某些主題特徵,經過構建LDA主題模型挖掘文本的主題詞,以此來優化系統。