2015.12.30 日學習總結

---------2015.12.30---------------- html

學習心得:學習極客學院的python教程下的定向數據爬蟲 python

學習成果:經過數據爬蟲扒下了喜歡漫畫網站的漫畫(文章最後是代碼)頗有成就感~~~~ 正則表達式

         安裝好第三方庫文件  Requests 編程

學習筆記: 學習

安裝python 第三方庫 撞牆時 網站

選擇下載網站(幾乎全部的第三庫文件) ui

http://www.lfd.uci.edu/~gohlke/pythonlibs/ url

whl文件 改後綴名爲.zip 解壓後 將解壓後的最短文件明拷貝到 python安裝位置的Lib文件夾裏 spa

 


重點是要記住三個關鍵字 code

Search  findall  Sub

正則表達式的用法 經常使用的就是這幾個

----[1]-----

# for each in pics_url: #用循環重複一塊兒作就會換行

#     print(each) #單獨作不換行

----[2]-----

# # text = re.findall('">(.*?)</a></li>', html, re.S) #加上換行符號re.S 要慎用

----[3]-----

# # links = re.findall('href="(.*?)"', html, re.S)

# # #print(links) #單獨打印報錯

# # SyntaxError: Non-ASCII character '\xe7' in file D:/python_test/hello_word on line 50, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

# # 解決 辦法 #-*-coding:utf8-*-聲明

--------------------

但編程的時候 遇到如下幾個問題 後面學習的話 我將帶着問題去學習 固然若是有朋友能夠幫忙解答,那就更好啦

--<1>---

# # title = re.search('<title>(.*?)</title>', html, re.S).group(1)

#爲何要加group不加就是內存地址?

--<2>---

# text = re.findall('<ul>(.*?)</ul>', html, re.S)[0] #爲何必定要加[0]?

--<3>---

# print('下載漫畫中:',each) #'中文顯示爲\xe4\xb8\x8b\xe8\xbd\xbd\xe6\xbc\xab\xe7\x94\xbb\xe4\xb8\xad\xef\xbc\x9a??? 開始還提取了片頭照片

 

附上個人把漫畫的教程

# -*-coding:utf8-*-  import re  import requests

g = open('shuhui.txt','r')
htmls = g.read()
g.close()
pics_url = re.findall('<img src="(.*?)" alt="', htmls)

i = 1 for each in pics_url: print('now is downloading', each)
    pics = requests.get(each)
    fb = open('pics\\' + str(i) + '.jpg', 'wb')
    fb.write(pics.content)
    fb.close()
    i += 1
相關文章
相關標籤/搜索