Python網絡爬蟲筆記(三):下載博客園隨筆到Word文檔

(一)   說明 在上一篇的基礎上修改了下,使用lxml提取博客園隨筆正文內容,並保存到Word文檔中。 操作Word文檔會用到下面的模塊: pip install python-docx 修改的代碼(主要是在link_crawler()的while循環中增加了下面這段) 1 tree = lxml.html.fromstring(html) #解析HTML爲統一的格式 2
相關文章
相關標籤/搜索