爬蟲之代理ip的用法

#coding:utf-8
from urllib import request

url= 'http://www.baidu.com'
# 準備代理ip地址
proxy_ip = {
    'http':'139.224.135.94:80'
}
# 根據代理ip建立代理對象
proxy_handler = request.ProxyHandler(proxy_ip)
# 本身建立一個發送請求的對象
opener = request.build_opener(proxy_handler)
# 掛載opener對象
request.install_opener(opener)
# open()發起請求
# response = opener.open(url)
# print(response.read().decode('utf-8'))


ip_list = [
    '139.224.135.94:80',
    '211.159.171.58:80',
    '180.114.229.48:61234',
    '115.213.203.209:808',
    '119.28.152.208:80',
    '122.72.18.34:80',
    '120.79.184.10:6666',
    '120.92.88.202:10000'
]

for ip in ip_list:
    try:
        proxy_han = request.ProxyHandler({'http:':ip})
        opener = request.build_opener(proxy_han)
        request.install_opener(opener)
        # timeout 設置超時時間
        resp = opener.open('http://www.baidu.com',timeout=0.1)
        print(len(resp.read().decode('utf-8')))
    except Exception as e:
        print(ip,'不可用')
        print(e)
    else:
        print(ip,'可用')

讀寫excel(xlrd、xlwt)

最近須要從多個excel表裏面用各類方式整理一些數據,雖說原來用過java作這類事情,可是因爲最近在學python,因此固然就決定用python嘗試一下了。發現python果真簡潔不少。這裏簡單記錄一下。(因爲是用到什麼學什麼,因此不算太深刻,高手勿噴,歡迎指導)html

1、讀excel表java

讀excel要用到xlrd模塊,官網安裝(http://pypi.python.org/pypi/xlrd)。而後就能夠跟着裏面的例子稍微試一下就知道怎麼用了。大概的流程是這樣的:python

一、導入模塊數組

      import xlrdui

二、打開Excel文件讀取數據編碼

       data = xlrd.open_workbook('excel.xls')url

三、獲取一個工做表spa

1  table = data.sheets()[0]          #經過索引順序獲取
2  table = data.sheet_by_index(0) #經過索引順序獲取
3  table = data.sheet_by_name(u'Sheet1')#經過名稱獲取

四、獲取整行和整列的值(返回數組)代理

         table.row_values(i)調試

         table.col_values(i)

五、獲取行數和列數 

        table.nrows

        table.ncols

六、獲取單元格

  table.cell(0,0).value

        table.cell(2,3).value

就我本身使用的時候以爲仍是獲取cell最有用,這就至關因而給了你一個二維數組,餘下你就能夠想怎麼幹就怎麼幹了。得益於這個十分好用的庫代碼非常簡潔。可是仍是有若干坑的存在致使話了必定時間探索。如今列出來供後人參考吧:

一、首先就是個人統計是根據姓名統計各個表中的信息的,可是調試發現不一樣的表中各個名字貌似不可以匹配,開始懷疑過編碼問題,不事後來發現是由於  空格。由於在excel中輸入的時候極可能會順手在一些名字後面加上幾個空格或是tab鍵,這樣看起來沒什麼差異,可是程序處理的時候這就是兩個徹底  不一樣的串了。個人解決方法是給每一個獲取的字符串都加上strip()處理一下。效果良好

二、仍是字符串的匹配,在判斷某個單元格中的字符串(中文)是否等於我所給出的的時候發現沒法匹配,而且各類unicode也不太奏效,百度過一些解決  方案,可是都比較複雜或是沒用。最後我採用了一個比較變通的方式:直接從excel中獲取我想要的值再進行比較,效果是不錯就是通用行不太好,個  呢不能問題還沒解決。

2、寫excel表

  寫excel表要用到xlwt模塊,官網下載(http://pypi.python.org/pypi/xlwt)。大體使用流程以下:

一、導入模塊

  import xlwt

二、建立workbook(其實就是excel,後來保存一下就行)

  workbook = xlwt.Workbook(encoding = 'ascii')

三、建立表
  worksheet = workbook.add_sheet('My Worksheet')

四、往單元格內寫入內容

  worksheet.write(0, 0, label = 'Row 0, Column 0 Value')

五、保存

  workbook.save('Excel_Workbook.xls')

因爲個人需求比較簡單,因此這上面沒遇到什麼問題,惟一的就是建議仍是用ascii編碼,否則可能會有一些詭異的現象。

固然xlwt功能遠遠不止這些,他甚至能夠設置各類樣式之類的。

https://www.cnblogs.com/MrLJC/p/3715783.html

相關文章
相關標籤/搜索