複合數據類型，英文詞頻統計

時間 2019-11-30

標籤複合數據類型英文詞頻統計简体版

原文原文鏈接

1.列表，元組，字典，集合分別如何增刪改查及遍歷。數組

列表：app

對列表的數據項進行修改或更新，你也能夠使用append()方法來添加列表項；能夠使用 del 語句來刪除列表的的元素；工具

元組：this

元組能夠使用下標索引來訪問元組中的值；元組中的元素值是不容許修改的，但咱們能夠對元組進行鏈接組合；元組中的元素值是不容許刪除的，但咱們能夠使用del語句來刪除整個元組；編碼

字典：spa

把相應的鍵放入到方括號中；向字典添加新內容的方法是增長新的鍵/值對，修改或刪除已有鍵/值對；能刪單一的元素也能清空字典，清空只需一項操做，顯示刪除一個字典用del命令；code

集合：blog

將元素 x 添加到集合 s 中，若是元素已存在，則不進行任何操做；clear()清空集合 s;remove()移除元素；排序

2.總結列表，元組，字典，集合的聯繫與區別。參考如下幾個方面：索引

括號
有序無序
可變不可變
重複不可重複
存儲與查找方式

3.詞頻統計

1.下載一長篇小說，存成utf-8編碼的文本文件 file

2.經過文件讀取字符串 str

3.對文本進行預處理

4.分解提取單詞 list

5.單詞計數字典 set , dict

6.按詞頻排序 list.sort(key=lambda),turple

7.排除語法型詞彙，代詞、冠詞、連詞等無語義詞
- 自定義停用詞表
- 或用stops.txt

f = open('text1.txt','r', encoding='UTF-8')
str = f.read()
f.close()
text=str.lower()#轉換字符串中全部大寫字符爲小寫
sep = '''
,.!?-"
'''
for s in sep:
    text = text.replace(s,' ')#符號轉換空格
text = text.split();#空格分割單詞單詞

dict={}
for word in text:
    dict[word] = text.count(word)#獲取單詞數目

exclude={'the','and','of','to','a','in','was','she','her','had','that','it','with','i','mr','but','by','said','be','were','which','from','which','this','an','on','he','for','you','as','his','not','at','mrs'}#定義數組
for a in exclude:
    if a in dict.keys():
        dict.pop(a)#排除語法型詞彙

word=list(dict.items())
word.sort(key=lambda x:x[1],reverse=True)#降序排序

print(word)#顯示結果

import pandas as pd
pd.DataFrame(data=word).to_csv('text1.csv',encoding='utf-8')#生成csv文件

8.輸出TOP(20)

9.可視化：詞雲

排序好的單詞列表word保存成csv文件

import pandas as pd
pd.DataFrame(data=word).to_csv('big.csv',encoding='utf-8')

線上工具生成詞雲：
https://wordart.com/create

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。