本週又和你們見面了,首先說一下兩週以後要進行研究生的期末考試,因此此次多是考試以前的最後一更,我要忙着複習了,還請你們見諒,通常狀況下我都是每週更新一篇技術原創。javascript
好了,廢話很少說,我們進入今天的主題。因爲我在簡書也有本身的基地,因此每次在博客園文章更新完,還要在簡書進行更新。因爲簡書文章的編輯格式是MarkDown,因此前幾回更新修改格式都是很是麻煩,浪費時間,尤爲是有了圖片以後。因而,爲了避免讓本身的時間浪費在這麼無聊的事情上,我就用學到的爬蟲知識,對我寫的文章進行格式的轉化(固然我只是按照我文章的格式進行解析的,不具備通用性,以後能夠完善通用性)。html
我們就按照我寫的上面文章Scrapy爬取美女圖片第四集 突破反爬蟲(上)爲例,進行格式的轉化。java
來到這個界面:python
你會發現文章中主要包含這幾種特殊對象: 段落文本(有顏色和無顏色之分),圖片(主要是提取圖片連接),代碼框中的代碼。因此我們須要對這幾種對象進行分別提取和轉化。git
老規矩,打開firebug,輸入連接,此次不只須要觀察HTML結構,還要觀察網絡這個選項,捕獲這個get請求,會發現很大的不一樣。github
一樣是表現的代碼內容,發現網絡請求返回的標籤和最後生成的標籤是不同的。這就是經過javascript動態修改html。那我們該以什麼爲準呢?固然是以網絡請求的格式爲準,由於在實際的網絡訪問中就是獲取的這個內容。markdown
經過上面的能夠看到代碼都是由pre標籤進行包裹,其餘內容都是由p標籤進行包裹。因此爲了統一格式,先將獲取到的pre標籤換成p標籤,並添加code屬性進行區分。固然用到的仍是bs4這個神器。直接看一下代碼:網絡
soup = BeautifulSoup(response)#,'html.parser',from_encoding='utf-8' pres = soup.findAll('pre') for pre in pres: pre.name ='p' pre['code']='yes'
首先提取其中圖片的連接,並按照標籤的順序添加到list中存儲:app
ps = soup.findAll('p') for p in ps: img = p.img if img !=None: self.content={'tag':'img','content':img['src']} self.papers.append(self.content)
接着提取code的代碼內容,並按照標籤的順序添加到list中存儲:post
if p.get('code')=='yes': self.content={'tag':'code','content':p.text.replace(' :','').strip()} self.papers.append(self.content)
而後將正常段落中的顏色部分進行標註,我習慣是將加顏色的文字,最後轉化爲加粗形式。從格式中看到,加顏色的字體使用span標籤進行包裹的。
我們將標籤進行替換和標註,以便後續處理。
elif p.span != None: spans = p.findAll('span')#找到全部的span標籤 for span in spans: # print span.text if span.get('style').find('color')!=-1: # del span['style'] # span.name='color' if span.string!=None: span.string = 'c_start'+span.string+'c_end' #對有顏色的文本進行標註
有時候會發現,文本中有連接,我們還要把連接進行按次序提取。
links =p.findAll('a') for link in links: if link.string!=None: link.string = '['+link.string+']'+'('+link.string+')' self.content={'tag':'text','content':p.text.replace(' :','').strip()} self.papers.append(self.content)
通過這幾個步驟就將全部要提取的內容都分離出來了,接下來進行轉化爲markdown格式。
#coding:utf-8 class Convert(object): @classmethod def convert(self,papers): str = '' with open('D:\markdown.txt','w') as file_writer: for p in papers: if p['tag']=='text': str = p['content'].replace('c_start','**').replace('c_end','**') #這個是替換顏色,使用加粗 pass elif p['tag']=='code': str = '```'+'\r\n'+p['content']+'\r\n'+'```' #這個是代碼框的添加 else: ##這個是圖片連接的轉化 str = ''%(p['content']) str = '\r\n'+str+'\r\n' file_writer.write(str.encode('utf-8')) file_writer.write('\r\n'.encode('utf-8')) file_writer.close()
最後我們看一下效果,將生成的markdown文本複製到簡書上去,是否顯示正確。這個就是最後簡書文章連接:http://www.jianshu.com/p/9159111bcd87。效果仍是不錯的,可能須要一些微調,之前整理格式要花10幾分鐘,不超過兩分鐘就搞定
完整的代碼我已經上傳到github上:
https://github.com/qiyeboy/html2Md
今天的分享就到這裏,若是你們以爲還能夠呀,記得推薦呦。
歡迎你們支持我公衆號:
本文章屬於原創做品,歡迎你們轉載分享。尊重原創,轉載請註明來自:七夜的故事 http://www.cnblogs.com/qiyeboy/