複合數據類型，英文詞頻統計

時間 2019-11-13

標籤複合數據類型英文詞頻統計简体版

原文原文鏈接

1.列表，元組，字典，集合分別如何增刪改查及遍歷。數組

使用append()方法來添加列表項（僅支持增長一個元素），extend()增長一個列表，insert()根據索引添加元素app

del 根據索引刪除元素，或者使用remove()刪除指定值的元素，pop()根據索引刪除元素編碼

對列表數組某元素進行賦值，以進行更新3d

搜索能夠經過搜索元素或者搜索元素索引值對象

列表有三種遍歷方法，一種是帶Index索引的循環，一種是用range()方法進行的，還有一種是使用enumerate() 方法的。blog

元組的增長和修改不能直接經過賦值，但能夠對元組進行鏈接組合，索引

例：utf-8

tup3 = tup1 + tup2rem

元組能夠使用下標索引來訪問元組中的值字符串

元組中的元素值是不容許刪除的，但咱們能夠使用del語句來刪除整個元組

字典的訪問須要在輸出時把相應的鍵放入到方形弧內

向字典添加新內容的方法是增長新的鍵，因爲字典是另外一種可變容器模型，且可存儲任意類型對象，因此能夠直接在方形弧內添加新的名稱

而字典內的修改是對已有鍵進行修改

刪除使用del()能夠刪除整個詞典的條目，也能夠用dict來刪除某一條目。

集合的增長是經過使用add()方法添加元素，使用remove()進行刪除元素，

2.總結列表，元組，字典，集合的聯繫與區別。參考如下幾個方面：

列表:

括號:有括號:[]

有序無序:有序

可變不可變:可變

重複不可重複:可重複

存儲與查找方式:順序查找和根據下標查找，存儲根據對應下標存儲

元組:

括號:有括號:()

有序無序:有序

可變不可變:不可變

重複不可重複:可重複

存儲與查找方式:順序查找和根據下標查找，存儲根據對應下標存儲

字典:

括號:有括號:{}

有序無序:無序

可變不可變:可變，根據key改變鍵值

重複不可重複:key不可重複，鍵值可重複

存儲與查找方式:根據key存儲和查找所對應的鍵值

集合:

括號:有括號:()

有序無序:無序

可變不可變:可變

重複不可重複:不可重複

存儲與查找方式:順序查找和根據下標查找，存儲根據對應下標存儲

3.詞頻統計

1.下載一長篇小說，存成utf-8編碼的文本文件 file

2.經過文件讀取字符串

import string
import pandas as pd
def getNumber(x):
    y=x[1]
    return y

file = open('21.txt','r',encoding='UTF-8').read().lower()
s = "'"
for i in s:
    file = file.replace(s,' ')
song = file.split()
exclude = {'a','the','i','you','and','in','but','not','it','s','beat','do','m'}
cun = set(song)-exclude
dis = {}
for i in cun:
    dis[i] = song.count(i)
words = list(dis.items())
words.sort(key=getNumber,reverse=True)
#輸出前20
for j in range(20):
    print(words[j])
#保存爲csv文件
pd.DataFrame(data=words).to_csv(r'21.csv',encoding='UTF-8')