豆瓣自動註冊、回貼腳本 powered by Python & Selenium

前言,以前在豆瓣日誌寫了這片文章,結果被豆瓣官方刪除了。。。哎,轉到這裏記錄一下。


故事原由: 上週的時候吧,發現有條瘋狗在這張劇照(天生殺人狂)下面罵我。若是隻是罵我傻逼我還能忍,畢竟人在江湖飄哪人不挨刀。可是你問候的範圍大了,那做爲一個社會主義核心價值觀沒有問題的青年,我必須得去操一下你媽了吧。請點擊操他媽熱線。結果這個慫逼竟然還發私信罵我而後還把我拉黑了,真雞巴慫。只能在劇照評論下回懟,但劇照畢竟是個公共地方,回多了有礙觀瞻。既然私信也無法發了,想了想,那就註冊個小號吧,寫個腳本罵它7749天也不錯呀,說幹就幹,知識就是罵娘。( _) =========================分割線============================= 代碼思路: 1. 帳號註冊 豆瓣如今的帳號註冊機制須要郵箱與短信雙重驗證。這就比較麻煩了,可是有一個小漏洞能夠跳過郵箱,只須要手機號就能夠註冊。具體連接我就不在這裏明說了,請參考代碼實現。 2. 手機號 註冊一個帳號就須要一個手機,而且還要接受驗證短信,我哪來那麼多手機呀?問這種問題的同窗說明你的互聯網思惟還不夠深入啊。來,請百度「驗證碼接收平臺」,爲你打開新世界的大門。 3. 破解驗證碼 手機號的問題搞定了,可是下一個問題接踵而來。我發現點擊接受短信驗證碼的時候,豆瓣會很賤的先彈出一個Captcha驗證碼。因爲以前作過相似項目,第一思路就是那上Tesseract-OCR唄。我下面的代碼實現也是用的PyTesseract。 先對驗證碼圖像二值化,再降噪,最後進行ocr識別。 通過幾天的運行,發現識別成功率低的嚇人。只有35/882 = 3.97%。 不過好在豆瓣沒有對驗證碼圖像的獲取進行限制,能夠暴力破解。 做爲一個不怕困難、艱苦奮鬥的黨員,我決定嘗試一下對Tesseract進行訓練。我取了500張驗證碼圖像,熬瞎了個人眼睛,終於完成了這一項21世紀的偉大工程,興致勃勃的將db.traineddata放入Tesseract目錄下,點擊運行。 WTF!識別率穩定在0.00%, 什麼鬼哦,是我訓練的方式不對嗎?ᕕ༼ ͠ຈ Ĺ̯ ͠ຈ ༽┌∩┐ 算了,萬事開頭難,只要肯放棄。訓練這種事情不適合我這個懶人。這個時候,個人互聯網思惟忽然春光乍泄,誒,有沒有驗證碼破解平臺呀?我直接用別人的不就行了!我真棒 微軟、百度、騰訊都有提供ocr接口,可是好像效果也不咋滴,我試了試微軟的發現還不如本地Tesseract。就在這時候,我發現有某位不肯意透露姓名的網友提示了能夠找「打碼平臺」,使用真「人工」智能來進行驗證碼破解,一條驗證碼也就1分錢左右。臥槽,這簡直是爲我打開了一扇新世界的大門。我試了下雲打碼,效果還真不錯嘿,大概5秒左右能返回結果。主要是這網站的py接口寫的還能夠,其餘打碼平臺的py接口寫的實在太垃圾了,慘不忍睹。 4. 豆瓣的自動防護機制 首先,新註冊的帳號給人發送私信的話,好想都會被丟進對方的垃圾豆郵裏。我估計豆瓣會驗證新帳號的完整性,好比有沒有頭像呀之類的。我懶得測試了,打狗並不值得投入太多時間,畢竟我還在那狗逼的廣播頁面操他媽了,這個是會有豆瓣提醒的,垃圾豆郵的話,等他哪天不當心點開,大概會很驚喜吧。挺好。 第二,一個ip地址註冊的帳號數應該是有限制的,好比一天內只容許註冊多少個這樣。若是超過閾值,註冊能夠成功,可是登錄後訪問任何一個頁面,都會被跳轉到手機驗證頁面,提示帳號有異常,須要再次發送短信驗證。。。。(2018.01.16訂正:可能不是註冊數限制的問題哦,有可能只是碰巧那幾個手機號有「問題」,致使豆瓣須要該手機號主動發短信進行驗證。) =========================分割線============================= 代碼: https://share.weiyun.com/5aaXApZ =========================分割線============================= 若是這篇文章對你有一點點幫助,肯請不吝口舌,幫我去這傻逼的主頁問候他全家。謝謝。 傻逼的主頁
相關文章
相關標籤/搜索