複合數據類型,英文詞頻統計

1.列表,元組,字典,集合分別如何增刪改查及遍歷。數組

使用append()方法來添加列表項(僅支持增長一個元素),extend()增長一個列表,insert()根據索引添加元素app

del 根據索引刪除元素,或者使用remove()刪除指定值的元素,pop()根據索引刪除元素編碼

對列表數組某元素進行賦值,以進行更新3d

搜索能夠經過搜索元素或者搜索元素索引值對象

列表有三種遍歷方法,一種是帶Index索引的循環,一種是用range()方法進行的,還有一種是使用enumerate() 方法的。blog

 

元組的增長和修改不能直接經過賦值,但能夠對元組進行鏈接組合,索引

例:utf-8

tup3 = tup1 + tup2rem

元組能夠使用下標索引來訪問元組中的值字符串

元組中的元素值是不容許刪除的,但咱們能夠使用del語句來刪除整個元組

 

字典的訪問須要在輸出時把相應的鍵放入到方形弧內

向字典添加新內容的方法是增長新的鍵,因爲字典是另外一種可變容器模型,且可存儲任意類型對象,因此能夠直接在方形弧內添加新的名稱

而字典內的修改是對已有鍵進行修改

刪除使用del()能夠刪除整個詞典的條目,也能夠用dict來刪除某一條目。

 

集合的增長是經過使用add()方法添加元素,使用remove()進行刪除元素,

 

 

2.總結列表,元組,字典,集合的聯繫與區別。參考如下幾個方面:

列表:

 

括號:有括號:[]

有序無序:有序

可變不可變:可變

重複不可重複:可重複

存儲與查找方式:順序查找和根據下標查找,存儲根據對應下標存儲

元組:

 

括號:有括號:()

有序無序:有序

可變不可變:不可變

重複不可重複:可重複

存儲與查找方式:順序查找和根據下標查找,存儲根據對應下標存儲

字典:

 

括號:有括號:{}

有序無序:無序

可變不可變:可變,根據key改變鍵值

重複不可重複:key不可重複,鍵值可重複

存儲與查找方式:根據key存儲和查找所對應的鍵值

集合:

 

括號:有括號:()

有序無序:無序

可變不可變:可變

重複不可重複:不可重複

存儲與查找方式:順序查找和根據下標查找,存儲根據對應下標存儲

3.詞頻統計

 

1.下載一長篇小說,存成utf-8編碼的文本文件 file

 

 

2.經過文件讀取字符串 

import string
import pandas as pd
def getNumber(x):
y=x[1]
return y

file = open('21.txt','r',encoding='UTF-8').read().lower()
s = "'"
for i in s:
file = file.replace(s,' ')
song = file.split()
exclude = {'a','the','i','you','and','in','but','not','it','s','beat','do','m'}
cun = set(song)-exclude
dis = {}
for i in cun:
dis[i] = song.count(i)
words = list(dis.items())
words.sort(key=getNumber,reverse=True)
#輸出前20
for j in range(20):
print(words[j])
#保存爲csv文件
pd.DataFrame(data=words).to_csv(r'21.csv',encoding='UTF-8')

 

 

 

 

相關文章
相關標籤/搜索