python docx文檔轉html頁面

說到word文檔轉html的,網上一搜一大把,各類在線word轉html頁面,使用起來也方便。可是在實際項目中要使用的話,須要本身開發,這裏就提供一個簡單的方法。 
後綴 .doc 和 .docx 都是word文檔,doc是word2003以及以前版本保存的文檔,docx是word200七、word2010等保存的新型文檔,本質都是屬於文字排版的文件。注意 這裏提供的方法暫時是針對docx的。html

這裏使用pydocx的庫,安裝pip3 install pydocx,能夠直接對docx文件進行處理,簡單粗暴,PyDocX.to_html("**.docx"),返回值就是轉換後的html的源碼,而後再經過寫文件,寫到html文件裏面。前端

from pydocx import PyDocX
html = PyDocX.to_html("test.docx")
f = open("test.html", 'w', encoding="utf-8")
f.write(html)
f.close()

這裏對文件的處理都是當前文件夾下面的,獲得的html文件能夠直接打開查看,經過對html查看,能夠發現文字轉換成了P標籤,圖片使用base64 的方式顯示的。服務器

這裏是對本地的文件進行處理,進一步部署到服務器上,我使用的是Django的項目,前端頁面經過form 表單進行上傳docx 文件。code

相關文章
相關標籤/搜索