週末須要作一個統計word文檔字數的問題,剛開始覺得很簡單,由於以前作過excel表格相關的任務,因此認爲利用擴展模塊應該比較簡單。python
經過搜索,確實搜到了一個python操做word的模塊,python-docx linux
經過命令安裝:pip install python-docxexcel
使用代碼示例:對象
#讀取docx中的文本代碼示例
import docx
#獲取文檔對象
file=docx.Document("D:\\temp\\word.docx")
print("段落數:"+str(len(file.paragraphs)))#段落數爲13,每一個回車隔離一段blog
#輸出每一段的內容
for para in file.paragraphs:
print(para.text)ip
#輸出段落編號及段落內容
for i in range(len(file.paragraphs)):
print("第"+str(i)+"段的內容是:"+file.paragraphs[i].text)文檔
拿過來本身試了一下,卻報瞭如下的錯誤:pip
拿異常上百度搜了一下,大體的意思是python-docx這個模塊貌似只支持docx文件,不支持doc。import
好吧,嘗試另外一種方法,使用antiword(這裏使用的linux環境)百度
先下載安裝,地址:http://www.winfield.demon.nl/
使用tar解壓以後,分別用make 和 make install命令進行安裝
切換到安裝的目錄後,使用「./antiword」 + doc文件名便可讀取文件內容。