數據清洗——cleanccide
cleancc函數
快速清洗數據內容能夠spa
項目地址xml
使用方法排序
pip install cleanccip
import cleancc字符串
共有五個函數調用:pandas
1.第一個函數爲punct:it
[pip
去除標點並讓全部字母小寫
:param pop_list:所要處理的的列表格式
:param lower:是否轉小寫,默認是
:return all_comment:處理後的結果-字符串格式
]
2.第二個函數爲statistics:
[
詞頻統計
:param pop_list:所要處理的的列表格式
:param symbol:是否去除標點,默認是
:param lower:是否轉小寫,默認是
:return wordCount_dict:統計結果-字典格式
]
3.第三個函數爲stop_words:
[
刪除詞頻統計中的停頓詞
:param statis:是否選擇詞頻清理
:param pop_list:所要處理的的列表格式
:param symbol:是否去除標點,默認是
:param lower:是否轉小寫,默認是
:param wordCount_dict:詞頻統計結果-字典
:return wordCount_dict:清除後結果-字典格式
]
4.第四個函數爲Count_Sort:
[
字典排名數目排序
:param wordCount_dict:詞頻統計結果-字典
:param choices_number:返回前choices_number個字典個數
:return keyword_list:出現的單詞-列表格式
:return value_list:單詞對應的詞頻-列表格式
]鄭州人流多少錢 http://www.hnmt120.com/
5.第五個函數爲word_all:
[
調用所有函數
:param pop_list:所要處理的的列表格式
:param choices_number:返回前choices_number個字典個數
:param symbol:是否去除標點,默認是
:param lower:是否轉小寫,默認是
:return keyword_list:出現的單詞-列表格式
:return value_list:單詞對應的詞頻-列表格式
]
注意事項
注意:處理數據參數類型爲列表,須要pandas轉換爲列表後進行調用!
使用示例:
import pandas as pd
from cleancc import clean
from bs4 import BeautifulSoup
df = pd.read_csv("label.csv",sep='\t', escapechar='\\')
review_list = df['review'].tolist()
comment_list = [BeautifulSoup(k,'lxml').text for k in review_list]
print(comment_list)
keyword_list, value_list = clean.word_all(comment_list,150)
print(keyword_list, value_list)