python讀取word文檔

週末須要作一個統計word文檔字數的問題,剛開始覺得很簡單,由於以前作過excel表格相關的任務,因此認爲利用擴展模塊應該比較簡單。python

經過搜索,確實搜到了一個python操做word的模塊,python-docx linux

經過命令安裝:pip install python-docxexcel

使用代碼示例:對象

#讀取docx中的文本代碼示例
import docx
#獲取文檔對象
file=docx.Document("D:\\temp\\word.docx")
print("段落數:"+str(len(file.paragraphs)))#段落數爲13,每一個回車隔離一段blog

#輸出每一段的內容
for para in file.paragraphs:
  print(para.text)ip

#輸出段落編號及段落內容
for i in range(len(file.paragraphs)):
  print("第"+str(i)+"段的內容是:"+file.paragraphs[i].text)文檔

拿過來本身試了一下,卻報瞭如下的錯誤:pip

拿異常上百度搜了一下,大體的意思是python-docx這個模塊貌似只支持docx文件,不支持doc。import

好吧,嘗試另外一種方法,使用antiword(這裏使用的linux環境)百度

先下載安裝,地址:http://www.winfield.demon.nl/

使用tar解壓以後,分別用make  和 make install命令進行安裝

切換到安裝的目錄後,使用「./antiword」 + doc文件名便可讀取文件內容。

相關文章
相關標籤/搜索