Charles是一個網絡抓包工具,咱們能夠用它來作App的抓包分析,獲得App運行過程當中發生的全部網絡請求和響應內容,這就和Web端瀏覽器的開發者工具Network部分看到的結果一致。程序員
相比Fiddler來講,Charles的功能更強大,並且跨平臺支持更好。因此咱們選用Charles做爲主要的移動端抓包工具,用於分析移動App的數據包,輔助完成App數據抓取工做。web
1、本節目標api
本節咱們以京東App爲例,經過Charles抓取App運行過程當中的網絡數據包,而後查看具體的Request和Response內容,以此來了解Charles的用法。瀏覽器
2、準備工做緩存
請確保已經正確安裝Charles並開啓了代理服務,手機和Charles處於同一個局域網下,Charles代理和CharlesCA證書設置好。服務器
3、原理網絡
首先Charles運行在本身的PC上,Charles運行的時候會在PC的8888端口開啓一個代理服務,這個服務其實是一個HTTP/HTTPS的代理。併發
確保手機和PC在同一個局域網內,咱們可使用手機模擬器經過虛擬網絡鏈接,也可使用手機真機和PC經過無線網絡鏈接。ide
設置手機代理爲Charles的代理地址,這樣手機訪問互聯網的數據包就會流經Charles,Charles再轉發這些數據包到真實的服務器,服務器返回的數據包再由Charles轉發回手機,Charles就起到中間人的做用,全部流量包均可以捕捉到,所以全部HTTP請求和響應均可以捕獲到。同時Charles還有權力對請求和響應進行修改。函數
4、抓包
初始狀態下Charles的運行界面以下圖所示。
Charles會一直監聽PC和手機發生的網絡數據包,捕獲到的數據包就會顯示在左側,隨着時間的推移,捕獲的數據包愈來愈多,左側列表的內容也會愈來愈多。
能夠看到,圖中左側顯示了Charles抓取到的請求站點,咱們點擊任意一個條目即可以查看對應請求的詳細信息,其中包括Request、Response等內容。
接下來清空Charles的抓取結果,點擊左側的掃帚按鈕便可清空當前捕獲到的全部請求。而後點擊第二個監聽按鈕,確保監聽按鈕是打開的,這表示Charles正在監聽App的網絡數據流,以下圖所示。
這時打開手機京東,注意必定要提早設置好Charles的代理並配置好CA證書,不然沒有效果。
打開任意一個商品,如iPhone,而後打開它的商品評論頁面,以下圖示。
不斷上拉加載評論,能夠看到Charles捕獲到這個過程當中京東App內發生的全部網絡請求,以下圖所示。
左側列表中會出現一個api.m.jd.com連接,並且它在不停閃動,極可能就是當前App發出的獲取評論數據的請求被Charles捕獲到了。咱們點擊將其展開,繼續上拉刷新評論。隨着上拉的進行,此處又會出現一個個網絡請求記錄,這時新出現的數據包請求肯定就是獲取評論的請求。
爲了驗證其正確性,咱們點擊查看其中一個條目的詳情信息。切換到Contents選項卡,這時咱們發現一些JSON數據,覈對一下結果,結果有commentData字段,其內容和咱們在App中看到的評論內容一致,以下圖所示。
這時能夠肯定,此請求對應的接口就是獲取商品評論的接口。這樣咱們就成功捕獲到了在上拉刷新的過程當中發生的請求和響應內容。
5、分析
如今分析一下這個請求和響應的詳細信息。首先能夠回到Overview選項卡,上方顯示了請求的接口URL,接着是響應狀態Status Code、請求方式Method等,以下圖所示。
這個結果和本來在Web端用瀏覽器開發者工具內捕獲到的結果形式是相似的。
接下來點擊Contents選項卡,查看該請求和響應的詳情信息。
上半部分顯示的是Request的信息,下半部分顯示的是Response的信息。好比針對Reqeust,咱們切換到Headers選項卡便可看到該Request的Headers信息,針對Response,咱們切換到JSON TEXT選項卡便可看到該Response的Body信息,而且該內容已經被格式化,以下圖所示。
因爲這個請求是POST請求,咱們還須要關心POST的表單信息,切換到Form選項卡便可查看,以下圖所示。
這樣咱們就成功抓取App中的評論接口的請求和響應,而且能夠查看Response返回的JSON數據。
至於其餘App,咱們一樣可使用這樣的方式來分析。若是咱們能夠直接分析獲得請求的URL和參數的規律,直接用程序模擬便可批量抓取。
6、重發
Charles還有一個強大功能,它能夠將捕獲到的請求加以修改併發送修改後的請求。點擊上方的修改按鈕,左側列表就多了一個以編輯圖標爲開頭的連接,這就表明此連接對應的請求正在被咱們修改,以下圖所示。
咱們能夠將Form中的某個字段移除,好比這裏將partner字段移除,而後點擊Remove。這時咱們已經對原來請求攜帶的Form Data作了修改,而後點擊下方的Execute按鈕便可執行修改後的請求,以下圖所示。
能夠發現左側列表再次出現了接口的請求結果,內容仍然不變,以下圖所示。
刪除Form表單中的partner字段並無帶來什麼影響,因此這個字段是可有可無的。
有了這個功能,咱們就能夠方便地使用Charles來作調試,能夠經過修改參數、接口等來測試不一樣請求的響應狀態,就能夠知道哪些參數是必要的哪些是沒必要要的,以及參數分別有什麼規律,最後獲得一個最簡單的接口和參數形式以供程序模擬調用使用。
7、結語
以上內容即是經過Charles抓包分析App請求的過程。經過Charles,咱們成功抓取App中流經的網絡數據包,捕獲原始的數據,還能夠修改原始請求和從新發起修改後的請求進行接口測試。
知道了請求和響應的具體信息,若是咱們能夠分析獲得請求的URL和參數的規律,直接用程序模擬便可批量抓取!
在 Python 中一切都是對象,毫無例外整數也是對象,對象之間比較是否相等能夠用 ==,也能夠用 is。 ==和 is操做的區別是:
is比較的是兩個對象的id值是否相等,也就是比較倆對象是否爲同一個實例對象,是否指向同一個內存地址。
==比較的是兩個對象的內容是否相等,默認會調用對象的 __eq__()方法。
清楚 is和 ==的區別以後,對此也許你有可能會遇到下面的這些困惑,因而就有了這樣一篇文章,試圖把Python中一些隱晦的東西趴出來,但願對你有必定的幫助。咱們先來看兩段代碼:
片斷一:
>>> a = 256
>>> b = 256
>>> a == b
True
>>>
片斷二:
>>> a = 256
>>> b = 256
>>> a is b
True
>>>
在交互式命令行執行上面兩段代碼,代碼片斷一中的 a==b返回 True很好理解,由於兩個對象的值都是256,對於片斷二, a is b也返回True,這說明a和b是指向同一個對象的,能夠檢查一下他們的id值是否相等:
>>> id(a)
8213296
>>> id(b)
8213296
>>>
結果證實他倆的確是同一個對象,指向的是同一個內存地址。那是否是全部的整數對象只要兩個對象的值(內容)相等,它們就是同一個實例對象呢?換句話說,對於整數對象只要 ==返回 True, is操做也會返回 True嗎?帶着這個問題來看下面這兩段代碼:
片斷一:
>>> a = 257
>>> b = 257
>>> a == b
True
>>>
片斷二:
>>> a = 257
>>> b = 257
>>> a is b
False
>>>
對於257, a is b返回的居然是False,結果可能在你的意料之中,也有可能出乎你的意料,但無論怎麼,咱們仍是要刨根問底,找出問題的真相。
解惑一
出於對性能的考慮,Python內部作了不少的優化工做,對於整數對象,Python把一些頻繁使用的整數對象緩存起來,保存到一個叫 small_ints的鏈表中,在Python的整個生命週期內,任何須要引用這些整數對象的地方,都再也不從新建立新的對象,而是直接引用緩存中的對象。Python把這些可能頻繁使用的整數對象規定在範圍[-5, 256]之間的小對象放在 small_ints中,但凡是須要用些小整數時,就從這裏面取,再也不去臨時建立新的對象。由於257再也不小整數範圍內,所以儘管a和b的值是同樣,可是他們在Python內部倒是以兩個獨立的對象存在的,各自爲政,互不干涉。
弄明白第一個問題後,咱們繼續在Python交互式命令行中寫一個函數,再來看下面這段代碼:
片斷一:
>>> c = 257
>>> def foo():
... a = 257
... b = 257
... print a is b
... print a is c
...
>>> foo()
True
False
呃,什麼狀況,是的,你沒看錯,片斷一中的這段代碼 a、b 值都是257的狀況下,出現了 a is b返回 True,而 a is c 返回的 False,a、b、c的值都爲257,爲何會出現不一樣的結果呢?這對於剛恰好不容易創建起來的認知就被完全否決了嗎,那這段代碼中究竟發生了什麼?難道解惑一中的結論是錯誤的嗎?
解惑二
A Python program is constructed from code blocks. A block is a piece of Python program text that is executed as a unit. The following are blocks: a module, a function body, and a class definition. Each command typed interactively is a block. A script file (a file given as standard input to the interpreter or specified as a command line argument to the interpreter) is a code block. A script command (a command specified on the interpreter command line with the ‘-c‘ option) is a code block. structure-of-a-program
爲了弄清楚這個問題,咱們有必要先理解程序代碼塊的概念。Python程序由代碼塊構成,代碼塊做爲程序的一個最小基本單位來執行。一個模塊文件、一個函數體、一個類、交互式命令中的單行代碼都叫作一個代碼塊。在上面這段代碼中,由兩個代碼塊構成, c = 257做爲一個代碼塊,函數 foo做爲另一個代碼塊。Python內部爲了將性能進一步的提升,凡是在一個代碼塊中建立的整數對象,若是存在一個值與其相同的對象於該代碼塊中了,那麼就直接引用,不然建立一個新的對象出來。Python出於對性能的考慮,但凡是不可變對象,在同一個代碼塊中的對象,只有是值相同的對象,就不會重複建立,而是直接引用已經存在的對象。所以,不只是整數對象,還有字符串對象也遵循一樣的原則。因此 a is b就理所固然的返回 True了,而 c和 a不在同一個代碼塊中,所以在Python內部建立了兩個值都是257的對象。爲了驗證剛剛的結論,咱們能夠借用 dis模塊從字節碼的角度來看看這段代碼。
能夠看出兩個257都是從常量池的同一個位置 co_consts[1]獲取的。
總結
一番長篇大論以後,得出兩點結論:一、小整數對象[-5,256]是全局解釋器範圍內被重複使用,永遠不會被GC回收。二、同一個代碼塊中的不可變對象,只要值是相等的就不會重複建立新的對象。彷佛這些知識點對平常的工做一點忙也幫不上,由於你根本不會用 is來比較兩個整數對象的值是否相等。那爲何還要拿出來討論呢?嗯,程序員學知識,不該該淺嘗輒止,要充分發揮死磕到底的精神。
手機爬蟲很是有意思,並且能夠爬取的數據很是多,固然還有不少東西要學。之後我也會寫一些實戰的有趣案例給你們。
若是你也是想要學習Python爬蟲的話,不妨點擊文章底部左側的瞭解更多看看,爲你分享的一個三大案列入門Python爬蟲的課程。
本篇文章的分享到此結束,文章來源網絡,若有侵權,請聯繫刪除。