複合數據類型，英文詞頻統計

時間 2019-12-09

標籤複合數據類型英文詞頻統計简体版

原文原文鏈接

複合數據類型，英文詞頻統計

做業要求來自於https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2696ide

1、列表，元組，字典，集合的增刪改查及遍歷 spa

1.列表 .net

（1）增：3d

1 dict={'tom':1,'ben':5,'amy':3,'jack':7,'yang':6,'wang':9}
2 dict['li']=8
3 print(dict)

zeng4

運行截圖：excel

（2）刪除：code

1 dict={'tom':1,'ben':5,'amy':3,'jack':7,'yang':6,'wang':9}
2 del dict['ben']
3 print(dict)

shan4

運行截圖：對象

（3）修改：blog

1 dict={'tom':1,'ben':5,'amy':3,'jack':7,'yang':6,'wang':9}
2 dict['ben']=8
3 print(dict)

gai4

運行截圖：索引

（4）查找：utf-8

1 dict={'tom':1,'ben':5,'amy':3,'jack':7,'yang':6,'wang':9}
2 print(dict['ben'])

cha4

運行截圖：

（5）遍歷：

list=['tom','ben','amy','jack','yang','wang']
for i in range(len(list)):
    print("序號：", i, "  值：", list[i])

bianli

運行截圖：

2.元組

（1）增：

tup1=('tom','ben','amy','jack','yang','wang')
tup2=('tang','hong')
tup=tup1+tup2
print(tup)

zeng2

運行截圖：

（2）刪除：

tup=('tom','ben','amy','jack','yang','wang')
print(tup)
del tup
print(tup)

shanchu2

運行截圖：

（3）修改：

tup=('tom','ben','amy','jack','yang','wang')
tup=list(tup)
tup[0]='張四'
tup[1]='Jacky'
tup=tuple(tup)
print(tup)

xiugai2

運行截圖：

（4）查找：

tup=('tom','ben','amy','jack','yang','wang')
print(tup[2])

查找2

運行截圖：

（5）遍歷：

tup=('tom','ben','amy','jack','yang','wang')
for x in (tup):
    print(x)

bianli2

運行截圖：

3.字典

（1）增：

zeng2

運行截圖：

（2）刪除：

shanchu2

運行截圖：

（3）修改：

xiugai2

運行截圖：

（4）查找：

查找2

運行截圖：

（5）遍歷：

bianli2

運行截圖：

4.集合

（1）增：

1 s=set(['tom','ben','amy','jack','yang','wang'])
2 s.add('meng')
3 print(s)

zeng5

運行截圖：

（2）刪除：

1 s=set(['tom','ben','amy','jack','yang','wang'])
2 s.remove('ben')
3 print(s)

shan5

運行截圖：

（3）修改：

1 s=set(['tom','ben','amy','jack','yang','wang'])
2 s=list(s)
3 s[2]='li'
4 s=set(s)
5 print(s)

xiugai5

運行截圖：

（4）遍歷：

1 s=set(['tom','ben','amy','jack','yang','wang'])
2 for x in s:
3     print(x)

bian5

運行截圖：

2、總結列表，元組，字典，集合的聯繫與區別。

1.列表

（1）括號【中括號】

（2）有序無序【有序】

（3）可變不可變【可變】

（4）重複不可重複【可重複】

（5）存儲與查找方式【存儲時每個元素被標識一個索引，程序只需處理對象的操做】

2.元組

（1）括號【小括號】

（2）有序無序【有序】

（3）可變不可變【不可變】

（4）重複不可重複【可重複】

（5）存儲與查找方式【同列表】

3.字典

（1）括號【大括號】

（2）有序無序【無序】

（3）可變不可變【由於是無序，故不能進行序列操做，但能夠在遠處修改，經過鍵映射到值】

（4）重複不可重複【不可重複】

（5）存儲與查找方式【和列表同樣】

4.集合

（1）括號【小括號】

（2）有序無序【無序】

（3）可變不可變【可變】

（4）重複不可重複【不可重複】

（5）存儲與查找方式【和列表同樣】

3、詞頻統計

源代碼以下：

# 讀取文件
f = open("lem.txt","r")
text = f.read()
f.close()
# 轉爲小寫
text = text.lower()
# 將全部其餘作分隔符（,.？！）替換爲空格
text = text.replace(","," ").replace("."," ").replace("?"," ").replace("!"," ")
# 分割爲單詞
text = text.split()
setText = set(text)
exclude = {'a','the','and','i','you','in','but','not','with','by','its','for','of','an','to'}
setText = setText-exclude
# 轉爲字典
textDict = {}
for word in setText:
    textDict[word] = text.count(word)
# 轉爲列表
word = list(textDict.items())
word.sort(key = lambda x:x[1],reverse=True)
print(word[:20])
# 生成excel
import pandas as pd
pd.DataFrame(data=word).to_csv('lem.csv',encoding='utf-8')