NLP實現文本分詞+在線詞雲實現工具

實現文本分詞+在線詞雲實現工具html

 

詞雲是NLP中比較簡單並且效果較好的一種表達方式,說到可視化,R語言當仍不讓,可見R語言︱文本挖掘——詞雲wordcloud2包git

固然用代碼寫詞雲仍是比較費勁的,網上也有一些成型的軟件供你們使用。github

本節轉載於金磚咖啡館公衆號微信

咱們詞雲製做工具是目前很是流行的tagxedo,tagxedo對於英文的分詞作的很好(廢話,英文單詞之間有空格),可是對於中文分詞作的很差,因而咱們須要用到另一個在線工具http://life.chacuo.net/convertexportword(百度找的,你也能夠用別的),將中文的詞和詞之間加上空格(分詞)。網絡

 

(1)打開分詞網站http://life.chacuo.net/convertexportword,將你須要作詞雲的文本放到第一個框裏,咱們這裏就直接再搜狐上找了一篇文章(http://stock.sohu.com/20160422/n445480002.shtml),而後點擊「中文分詞」按鈕,你就會發現,網站就把第一個框裏的文本分詞結果放在了第二個框裏(加了空格)。將第二個框的結果全選,而後「複製」,備用。app

 

(2)打開詞雲網站:http://www.tagxedo.com/app.html,(注意:第一次打開的時候會讓你安裝「Silverlight」,你只須要按照指示下載安裝,而後刷新上面的連接。工具

有時候打不開,可參考一些其餘詞雲網站。字體

 

接下來的步驟以下:大數據

a.加載文本。打開load,在「enter text」裏面將前面複製的分詞後文本粘貼進去,再按「Submit」。(等待一下,等下面的進度條讀完)。優化

 

b.加載圖片。爲了作個性化詞雲,我提早準備了一張奧巴馬的照片。點擊左邊「Shape」會彈出圖片菜單,咱們選擇下方的「AddImage」(若是你想用內置的圖片直接在彈出菜單裏面選擇就行了)。

c.圖片設置。點擊「AddImage」,加載完圖片後,菜單會讓你作一些設置,只要是調整threshold和Blur(調整邊界和模糊度)。下面還有一些設置文字擺放位置的,本身點一下,很容易摸索,最後點擊「accept」,運行一下就看到結果了。

d.保存。點擊「save」,選擇本身要的圖片大小,就能夠保存了。(也就獲得最上面的效果咯)

e.詞頻。若是想看詞頻或者像刪除某些不須要的詞(好比「的」),那麼單機「word|layoutoptions」裏面的「skip」菜單,裏面有詳細詞頻,不須要的詞,直接點「Keep」就變成「Skip」了(也就是刪除了)。

2、Wordle

本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款?   36大數據》

體驗詞雲:http://www.wordle.net/

這些年比較火的一款詞雲軟件,Wordle是一個用於從文本生成詞雲圖而提供的遊戲工具,詞雲圖會更加突出話題並頻繁地出如今源文本,它的優勢是能夠快速的分析文本或網站的詞頻,並以多種多種風格展現,且支持文字字體選擇和用戶自定義顏色。作完詞雲圖,生成圖像後還能夠保存在網絡之中供你查看、連接、下載以及與好友分享。

因爲Wordle目前只支持英文,因此應在Excel或記事本里先將中文信息轉換成Wordle能夠識別的語言,即英文或數字。

3、WordItOut

本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款?   36大數據》

體驗詞雲:http://worditout.com/

WordItOut網站很人性,還給用戶解釋什麼是詞雲以及詞雲的做用等信息。它操做簡單,進入網站後只須要輸入一段文本,而後就能夠生成各類樣式的「雲」文字。用戶能夠根據本身的須要對WordItOut進行再設計,好比顏色、字符、字體、背景、文字位置等,保存下載後,能夠複製。

可是WordItOut是不識別中文的,若是輸入中英混合的文本,保存後只顯示英文字體,對於不懂英文的同窗是比較痛苦的。

———————————————————————————————————————— 4、Tagul

 

本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款?   36大數據》

體驗詞雲:https://tagul.com/

Tagul雲能夠自定義字體、詞雲的形狀(有愛心、BUS、雪人、人像、UFO等),顏色等,作出來的詞雲圖很酷炫,爲網站訪問者提供良好的用戶體驗。用戶能夠在網站作好詞雲圖,而後印在衣服、杯子、鼠標墊等地方,本身設計身邊的物件,感受頗有成就感,很實用的網站。

———————————————————————————————————

 

5、ToCloud

 

本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款?   36大數據》

ToCloud

體驗詞雲:http://www.tocloud.com/

ToCloud是一個在線免費標籤雲生成器,你能夠設置詞的長度和頻率。ToCloud整個頁面看着有點亂的感受,可是可千萬不要小看它,工具很是好用,它能提取短語,是一個比較好的標籤雲工具之一利用詞頻生成詞雲,你能夠快速瞭解頁面優化了某些單詞。

如今,來兩款國內的數據產品,絕對國產,不再用擔憂英文很差或者中英文互導麻煩了。

————————————————————————————————————————

 

 

6、圖悅

 

本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款?   36大數據》

一、圖悅

體驗詞雲:http://www.picdata.cn/

這款國內的在線詞頻分析工具,在長文本自動分詞並製做詞雲方面仍是很出衆的,並且也容易上手,還能夠自定義定製圖形模板:標準、微信、地圖等,切換自如,用起來體驗很不錯。

可是圖悅在導出excel詞頻有一些不足的地方,不介意的話能夠忽略。

 

————————————————————————————————————————

 

 

7、BDP我的版

 

本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款?   36大數據》 二、BDP我的版

體驗詞雲:https://me.bdp.cn/home.html

這是一款數據可視化工具,除了詞雲,還有不少其餘酷炫的圖表,如GIS地圖、漏斗圖等。BDP很容易上手,直接把詞語這個數據拉到維度欄,再選擇詞雲就瞬間呈現詞雲圖表,BDP會自動算好詞頻,你能夠設置顏色,快速實現詞雲可視化。

不足之處,BDP不是專門製做詞雲的工具,可是還有幾十種圖表供你使用,是一款比較不錯的數據分析工具。

這麼多款詞雲製做工具,你們自行選擇吧,感興趣的話均可以試試,會有不少有意思的發現,原來詞雲可視化是如此簡單,瞬間以爲本身棒棒的。

 

demo2:jieba + https://wordart.com/

用jieba分詞提取關鍵詞作漂亮的詞雲

        

 

               

用到的工具

  1. 原始數據:《白夜行》小說,txt格式(我是用calibre把原來mobi格式的書轉成txt的)。後期能夠用爬蟲爬點網頁數據作原始數據。爲簡單就先用txt練手好了。
  2. 提取關鍵詞:jieba分詞、停用詞表
  3. 在線詞雲生成工具:TAGUL

簡單分析一下

生成詞雲最關鍵的問題是中文分詞,統計分析各個詞的權重(權重較高的字體顯示較大)。這些問題jieba分詞已經幫咱們解決了。咱們只須要import jieba.analyse,使用jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())方法便可,固然只是提取關鍵詞仍是不夠的,由於有些沒有意義的經常使用詞諸如「個人」、「或者」、「一個」等詞,會出如今結果裏面,還須要一個「停用詞表」來幫咱們過濾結果。 咱們的目標是提取關鍵詞,並獲得「關鍵詞+製表符+權重」的文本,這裏關鍵詞和權重用製表符隔開是爲了在用在線工具的時候,能順利導入權重的值,決定詞的大小(size)。

 

關鍵詞和size中間用製表符分開

 

步驟:

  1. 安裝jieba pip install jieba
  2. 準備好txt文件和停用詞表(網上能夠下載到,txt格式便可)
  3. 編寫代碼
import jieba.analyse

path = '你的txt文件路徑'
file_in = open(path, 'r')
content = file_in.read()

try:
    jieba.analyse.set_stop_words('你的停用詞表路徑')
    tags = jieba.analyse.extract_tags(content, topK=100, withWeight=True)
    for v, n in tags:
        #權重是小數,爲了湊整,乘了一萬
        print v + '\t' + str(int(n * 10000))

finally:
    file_in.close()

運行結果以下:

 

4.打開TAGUL,開始製做詞雲,把結果貼進import words裏

 
5.選個shape(詞雲輪廓)
 
6.在fonts中,導入一箇中文字體,我用的微軟雅黑:
 
7.點擊visualize便可生成
 
8.Download and Share裏面能夠下載須要的格式。

 

參考文章:

http://www.jianshu.com/p/6a285dfa3d87

1.TF-IDF與餘弦類似性的應用(一):自動提取關鍵詞 2.超簡單:快速製做一款高逼格詞雲圖 3.jieba的github

相關文章
相關標籤/搜索