豆瓣自動註冊、回貼腳本 powered by Python & Selenium

時間 2019-11-17

標籤豆瓣自動註冊腳本 powered python selenium 欄目 Python 简体版

原文原文鏈接

前言，以前在豆瓣日誌寫了這片文章，結果被豆瓣官方刪除了。。。哎，轉到這裏記錄一下。



故事原由：

上週的時候吧，發現有條瘋狗在這張劇照(天生殺人狂)下面罵我。若是隻是罵我傻逼我還能忍，畢竟人在江湖飄哪人不挨刀。可是你問候的範圍大了，那做爲一個社會主義核心價值觀沒有問題的青年，我必須得去操一下你媽了吧。請點擊操他媽熱線。結果這個慫逼竟然還發私信罵我而後還把我拉黑了，真雞巴慫。只能在劇照評論下回懟，但劇照畢竟是個公共地方，回多了有礙觀瞻。既然私信也無法發了，想了想，那就註冊個小號吧，寫個腳本罵它7749天也不錯呀，說幹就幹，知識就是罵娘。( _)

=========================分割線=============================

代碼思路：

1. 帳號註冊
豆瓣如今的帳號註冊機制須要郵箱與短信雙重驗證。這就比較麻煩了，可是有一個小漏洞能夠跳過郵箱，只須要手機號就能夠註冊。具體連接我就不在這裏明說了，請參考代碼實現。

2. 手機號
註冊一個帳號就須要一個手機，而且還要接受驗證短信，我哪來那麼多手機呀？問這種問題的同窗說明你的互聯網思惟還不夠深入啊。來，請百度「驗證碼接收平臺」，爲你打開新世界的大門。

3. 破解驗證碼
手機號的問題搞定了，可是下一個問題接踵而來。我發現點擊接受短信驗證碼的時候，豆瓣會很賤的先彈出一個Captcha驗證碼。因爲以前作過相似項目，第一思路就是那上Tesseract-OCR唄。我下面的代碼實現也是用的PyTesseract。
先對驗證碼圖像二值化，再降噪，最後進行ocr識別。
通過幾天的運行，發現識別成功率低的嚇人。只有35/882 = 3.97%。 
不過好在豆瓣沒有對驗證碼圖像的獲取進行限制，能夠暴力破解。

做爲一個不怕困難、艱苦奮鬥的黨員，我決定嘗試一下對Tesseract進行訓練。我取了500張驗證碼圖像，熬瞎了個人眼睛，終於完成了這一項21世紀的偉大工程，興致勃勃的將db.traineddata放入Tesseract目錄下，點擊運行。
WTF！識別率穩定在0.00%， 什麼鬼哦，是我訓練的方式不對嗎？ᕕ༼ ͠ຈ Ĺ̯ ͠ຈ ༽┌∩┐

算了，萬事開頭難，只要肯放棄。訓練這種事情不適合我這個懶人。這個時候，個人互聯網思惟忽然春光乍泄，誒，有沒有驗證碼破解平臺呀？我直接用別人的不就行了！我真棒 
微軟、百度、騰訊都有提供ocr接口，可是好像效果也不咋滴，我試了試微軟的發現還不如本地Tesseract。就在這時候，我發現有某位不肯意透露姓名的網友提示了能夠找「打碼平臺」，使用真「人工」智能來進行驗證碼破解，一條驗證碼也就1分錢左右。臥槽，這簡直是爲我打開了一扇新世界的大門。我試了下雲打碼，效果還真不錯嘿，大概5秒左右能返回結果。主要是這網站的py接口寫的還能夠，其餘打碼平臺的py接口寫的實在太垃圾了，慘不忍睹。

4. 豆瓣的自動防護機制
首先，新註冊的帳號給人發送私信的話，好想都會被丟進對方的垃圾豆郵裏。我估計豆瓣會驗證新帳號的完整性，好比有沒有頭像呀之類的。我懶得測試了，打狗並不值得投入太多時間，畢竟我還在那狗逼的廣播頁面操他媽了，這個是會有豆瓣提醒的，垃圾豆郵的話，等他哪天不當心點開，大概會很驚喜吧。挺好。

第二，一個ip地址註冊的帳號數應該是有限制的，好比一天內只容許註冊多少個這樣。若是超過閾值，註冊能夠成功，可是登錄後訪問任何一個頁面，都會被跳轉到手機驗證頁面，提示帳號有異常，須要再次發送短信驗證。。。。（2018.01.16訂正：可能不是註冊數限制的問題哦，有可能只是碰巧那幾個手機號有「問題」，致使豆瓣須要該手機號主動發短信進行驗證。）

=========================分割線=============================

代碼：
https://share.weiyun.com/5aaXApZ

=========================分割線=============================

若是這篇文章對你有一點點幫助，肯請不吝口舌，幫我去這傻逼的主頁問候他全家。謝謝。
 傻逼的主頁

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。