實現文本分詞+在線詞雲實現工具html
詞雲是NLP中比較簡單並且效果較好的一種表達方式,說到可視化,R語言當仍不讓,可見R語言︱文本挖掘——詞雲wordcloud2包git
固然用代碼寫詞雲仍是比較費勁的,網上也有一些成型的軟件供你們使用。github
本節轉載於金磚咖啡館公衆號微信
咱們詞雲製做工具是目前很是流行的tagxedo,tagxedo對於英文的分詞作的很好(廢話,英文單詞之間有空格),可是對於中文分詞作的很差,因而咱們須要用到另一個在線工具http://life.chacuo.net/convertexportword(百度找的,你也能夠用別的),將中文的詞和詞之間加上空格(分詞)。網絡
(1)打開分詞網站http://life.chacuo.net/convertexportword,將你須要作詞雲的文本放到第一個框裏,咱們這裏就直接再搜狐上找了一篇文章(http://stock.sohu.com/20160422/n445480002.shtml),而後點擊「中文分詞」按鈕,你就會發現,網站就把第一個框裏的文本分詞結果放在了第二個框裏(加了空格)。將第二個框的結果全選,而後「複製」,備用。app
(2)打開詞雲網站:http://www.tagxedo.com/app.html,(注意:第一次打開的時候會讓你安裝「Silverlight」,你只須要按照指示下載安裝,而後刷新上面的連接。工具
有時候打不開,可參考一些其餘詞雲網站。字體
接下來的步驟以下:大數據
a.加載文本。打開load,在「enter text」裏面將前面複製的分詞後文本粘貼進去,再按「Submit」。(等待一下,等下面的進度條讀完)。優化
b.加載圖片。爲了作個性化詞雲,我提早準備了一張奧巴馬的照片。點擊左邊「Shape」會彈出圖片菜單,咱們選擇下方的「AddImage」(若是你想用內置的圖片直接在彈出菜單裏面選擇就行了)。
c.圖片設置。點擊「AddImage」,加載完圖片後,菜單會讓你作一些設置,只要是調整threshold和Blur(調整邊界和模糊度)。下面還有一些設置文字擺放位置的,本身點一下,很容易摸索,最後點擊「accept」,運行一下就看到結果了。
d.保存。點擊「save」,選擇本身要的圖片大小,就能夠保存了。(也就獲得最上面的效果咯)
e.詞頻。若是想看詞頻或者像刪除某些不須要的詞(好比「的」),那麼單機「word|layoutoptions」裏面的「skip」菜單,裏面有詳細詞頻,不須要的詞,直接點「Keep」就變成「Skip」了(也就是刪除了)。
2、Wordle
本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款? 36大數據》
體驗詞雲:http://www.wordle.net/
這些年比較火的一款詞雲軟件,Wordle是一個用於從文本生成詞雲圖而提供的遊戲工具,詞雲圖會更加突出話題並頻繁地出如今源文本,它的優勢是能夠快速的分析文本或網站的詞頻,並以多種多種風格展現,且支持文字字體選擇和用戶自定義顏色。作完詞雲圖,生成圖像後還能夠保存在網絡之中供你查看、連接、下載以及與好友分享。
因爲Wordle目前只支持英文,因此應在Excel或記事本里先將中文信息轉換成Wordle能夠識別的語言,即英文或數字。
3、WordItOut
本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款? 36大數據》
體驗詞雲:http://worditout.com/
WordItOut網站很人性,還給用戶解釋什麼是詞雲以及詞雲的做用等信息。它操做簡單,進入網站後只須要輸入一段文本,而後就能夠生成各類樣式的「雲」文字。用戶能夠根據本身的須要對WordItOut進行再設計,好比顏色、字符、字體、背景、文字位置等,保存下載後,能夠複製。
可是WordItOut是不識別中文的,若是輸入中英混合的文本,保存後只顯示英文字體,對於不懂英文的同窗是比較痛苦的。
———————————————————————————————————————— 4、Tagul
本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款? 36大數據》
體驗詞雲:https://tagul.com/
Tagul雲能夠自定義字體、詞雲的形狀(有愛心、BUS、雪人、人像、UFO等),顏色等,作出來的詞雲圖很酷炫,爲網站訪問者提供良好的用戶體驗。用戶能夠在網站作好詞雲圖,而後印在衣服、杯子、鼠標墊等地方,本身設計身邊的物件,感受頗有成就感,很實用的網站。
———————————————————————————————————
5、ToCloud
本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款? 36大數據》
ToCloud
體驗詞雲:http://www.tocloud.com/
ToCloud是一個在線免費標籤雲生成器,你能夠設置詞的長度和頻率。ToCloud整個頁面看着有點亂的感受,可是可千萬不要小看它,工具很是好用,它能提取短語,是一個比較好的標籤雲工具之一利用詞頻生成詞雲,你能夠快速瞭解頁面優化了某些單詞。
如今,來兩款國內的數據產品,絕對國產,不再用擔憂英文很差或者中英文互導麻煩了。
————————————————————————————————————————
6、圖悅
本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款? 36大數據》
一、圖悅
體驗詞雲:http://www.picdata.cn/
這款國內的在線詞頻分析工具,在長文本自動分詞並製做詞雲方面仍是很出衆的,並且也容易上手,還能夠自定義定製圖形模板:標準、微信、地圖等,切換自如,用起來體驗很不錯。
可是圖悅在導出excel詞頻有一些不足的地方,不介意的話能夠忽略。
————————————————————————————————————————
7、BDP我的版
本節轉載於36大數據,文章《免費詞雲可視化工具,你知道幾款? 36大數據》 二、BDP我的版
體驗詞雲:https://me.bdp.cn/home.html
這是一款數據可視化工具,除了詞雲,還有不少其餘酷炫的圖表,如GIS地圖、漏斗圖等。BDP很容易上手,直接把詞語這個數據拉到維度欄,再選擇詞雲就瞬間呈現詞雲圖表,BDP會自動算好詞頻,你能夠設置顏色,快速實現詞雲可視化。
不足之處,BDP不是專門製做詞雲的工具,可是還有幾十種圖表供你使用,是一款比較不錯的數據分析工具。
這麼多款詞雲製做工具,你們自行選擇吧,感興趣的話均可以試試,會有不少有意思的發現,原來詞雲可視化是如此簡單,瞬間以爲本身棒棒的。
demo2:jieba + https://wordart.com/
生成詞雲最關鍵的問題是中文分詞,統計分析各個詞的權重(權重較高的字體顯示較大)。這些問題jieba分詞已經幫咱們解決了。咱們只須要import jieba.analyse
,使用jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
方法便可,固然只是提取關鍵詞仍是不夠的,由於有些沒有意義的經常使用詞諸如「個人」、「或者」、「一個」等詞,會出如今結果裏面,還須要一個「停用詞表」來幫咱們過濾結果。 咱們的目標是提取關鍵詞,並獲得「關鍵詞+製表符+權重」的文本,這裏關鍵詞和權重用製表符隔開是爲了在用在線工具的時候,能順利導入權重的值,決定詞的大小(size)。
關鍵詞和size中間用製表符分開
pip install jieba
import jieba.analyse path = '你的txt文件路徑' file_in = open(path, 'r') content = file_in.read() try: jieba.analyse.set_stop_words('你的停用詞表路徑') tags = jieba.analyse.extract_tags(content, topK=100, withWeight=True) for v, n in tags: #權重是小數,爲了湊整,乘了一萬 print v + '\t' + str(int(n * 10000)) finally: file_in.close()
運行結果以下:
4.打開TAGUL,開始製做詞雲,把結果貼進import words裏
1.TF-IDF與餘弦類似性的應用(一):自動提取關鍵詞 2.超簡單:快速製做一款高逼格詞雲圖 3.jieba的github