最近用urllib2寫了一個公司內部用的腳本html
這個腳本要訪問一個webservice,訪問以前先要用https登錄拿到cookie再到另外一個地方獲取一個臨時用的idpython
首先是https登錄,這段很好寫,之前寫過校內網發帖機,輕車熟路,用cookielib的CookieJar加上HTTPCookieProcessor搞定,代碼以下(其中那個超簡單的lambda hack簡直絕了:web
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
url_login = 'https://xxx.yahoo.com/login/'
body = (('username', '半瓶墨水'),
('password', '密碼'),
('action', 'login'),)json
print 'login to get cookies'
opener.open(url_login, urllib.urlencode(body))cookie
可是後面用cookie去拿id的時候,就總是告訴我403錯誤,而後opener就拋異常,想問題想到頭大,後來發現這個服務訪問成功不是返回200,而是403,因此看到403的時候不要管他,直接看body內容就好了,日,不知道爲何這麼設計。app
怎麼辦呢?查了一下urllib2的文檔,發現能夠繼承一下HTTPCookieProcessor,本身作了一個NoExceptionCookieProcesser,後來的過程當中發現webservice有時候返回400和500的時候body中包含有用的信息,一併處理了:ui
print 'login to get cookies'
opener.open(url_login, urllib.urlencode(body))url
而後又發現一個問題,webservice在提交的時候要求用PUT方式,而且只接受json,urllib2默認只支持GET和POST,Google了一下,發現能夠建立Request對象,而後更改它的請求方法(get_method)以及header,搞定:spa
request = urllib2.Request(url_ws, data="blablabla")
request.add_header('Content-Type', 'application/json')
request.add_header('Accept', 'application/json')
request.get_method = lambda: 'PUT'
result = opener.open(request).read().strip()設計
參考:http://stackoverflow.com/questions/111945/is-there-any-way-to-do-http-put-in-python