1.列表,元組,字典,集合分別如何增刪改查及遍歷。數組
列表:app
對列表的數據項進行修改或更新,你也能夠使用append()方法來添加列表項;能夠使用 del 語句來刪除列表的的元素;工具
元組:this
元組能夠使用下標索引來訪問元組中的值;元組中的元素值是不容許修改的,但咱們能夠對元組進行鏈接組合;元組中的元素值是不容許刪除的,但咱們能夠使用del語句來刪除整個元組;編碼
字典:spa
把相應的鍵放入到方括號中;向字典添加新內容的方法是增長新的鍵/值對,修改或刪除已有鍵/值對;能刪單一的元素也能清空字典,清空只需一項操做,顯示刪除一個字典用del命令;code
集合:blog
將元素 x 添加到集合 s 中,若是元素已存在,則不進行任何操做;clear()清空集合 s;remove()移除元素;排序
2.總結列表,元組,字典,集合的聯繫與區別。參考如下幾個方面:索引
3.詞頻統計
1.下載一長篇小說,存成utf-8編碼的文本文件 file
2.經過文件讀取字符串 str
3.對文本進行預處理
4.分解提取單詞 list
5.單詞計數字典 set , dict
6.按詞頻排序 list.sort(key=lambda),turple
7.排除語法型詞彙,代詞、冠詞、連詞等無語義詞
f = open('text1.txt','r', encoding='UTF-8') str = f.read() f.close() text=str.lower()#轉換字符串中全部大寫字符爲小寫 sep = ''' ,.!?-" ''' for s in sep: text = text.replace(s,' ')#符號轉換空格 text = text.split();#空格分割單詞單詞 dict={} for word in text: dict[word] = text.count(word)#獲取單詞數目 exclude={'the','and','of','to','a','in','was','she','her','had','that','it','with','i','mr','but','by','said','be','were','which','from','which','this','an','on','he','for','you','as','his','not','at','mrs'}#定義數組 for a in exclude: if a in dict.keys(): dict.pop(a)#排除語法型詞彙 word=list(dict.items()) word.sort(key=lambda x:x[1],reverse=True)#降序排序 print(word)#顯示結果 import pandas as pd pd.DataFrame(data=word).to_csv('text1.csv',encoding='utf-8')#生成csv文件
8.輸出TOP(20)
排序好的單詞列表word保存成csv文件
import pandas as pd
pd.DataFrame(data=word).to_csv('big.csv',encoding='utf-8')
線上工具生成詞雲:
https://wordart.com/create