抖音美女千千萬，想用Python爬爬看

時間 2019-11-24

標籤音美千千萬想用 python 欄目 Python 简体版

原文原文鏈接

前言

文的文字及圖片來源於網絡,僅供學習、交流使用,不具備任何商業用途,版權歸原做者全部,若有問題請及時聯繫咱們以做處理。python

做者：星安果、AirPythonandroid

PS：若有須要Python學習資料的小夥伴能夠加點擊下方連接自行獲取shell

http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cefjson

目標場景

相信你們平時刷抖音短視頻的時候，看到顏值高的小姐姐，都有隨手點贊關注的習慣。api

若是一條條去刷確實很耗時間，若是 Python 能幫忙篩選出顏值高的小姐姐那就省了不少事。網絡

本篇文章是藉助「百度人臉識別」API，幫咱們識別出抖音上顏值高的小姐姐，而後下載到手機相冊中。app

準備工做

首先，項目須要對頁面元素進行一些精準的操做，須要提早準備一部 Android 設備，激活開發者選項，並在開發者選項中打開「USB 調試和指針位置」兩處設置。ide

爲了確保 adb 命令能正常使用，須要提早配置好 adb 開發環境。學習

頁面元素中的部分元素無法利用 name 等經常使用屬性獲取到，可能須要獲取到完整的「UI 樹」，再利用 Airtest 判斷是否存在某個 UI 元素。ui

# 安裝依賴
pip3 install pocoui

另外，項目中會對視頻進行人臉識別，獲取到出現的全部人臉，再進行性別識別及顏值判斷。

這裏須要進行百度雲後臺，註冊一我的臉識別的應用，獲取到一組「API Key 和 Secret Key」值。

而後利用官網提供的 API 文檔便可獲取到「access token」，因爲 ak 的有效期爲一個月，因此只須要初始化一次，後面就能夠利用人臉識別接口進行正常的識別了。

 1 appid = '你註冊應用的appid'
 2 api_key = '你註冊應用的ak'
 3 secret_key = '你註冊應用的sk'
 4 
 5 def get_access_token():
 6     """
 7      其關access_token有效期通常有一個月
 8     """
 9     # 此變量賦值成本身API Key的值
10     client_id = api_key  
11 
12     # 此變量賦值成本身Secret Key的值
13     client_secret = secret_key  
14 
15     auth_url = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=' + client_id + '&client_secret=' + client_secret
16 
17     header_dict = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like Gecko',
18                    "Content-Type": "application/json"}
19 
20     # 請求獲取到token的接口
21     response_at = requests.get(auth_url, headers=header_dict)
22     json_result = json.loads(response_at.text)
23     access_token = json_result['access_token']
24     return access_token

編寫腳本

在上面已經配置好了 adb 環境的狀況下，能夠直接藉助 python 中的 os 模塊執行 adb 命令打開抖音 App。

 1 # 抖音App的應用包名和初始Activity
 2 package_name = 'com.ss.android.ugc.aweme'
 3 activity_name = 'com.ss.android.ugc.aweme.splash.SplashActivity'
 4 
 5 def start_my_app(package_name, activity_name):
 6     """
 7     打開應用
 8     adb shell am start -n com.tencent.mm/.ui.LauncherUI
 9     :param package_name:
10     :return:
11     """
12     os.popen('adb shell am start -n %s/%s' % (package_name, activity_name))

接着，咱們須要截取當前播放視頻的截圖到本地。須要注意的是，抖音視頻播放界面包含視頻創做者頭像、BGM 創做者頭像等一些雜亂的元素，可能對人臉識別的結果產生一些偏差，因此須要對屏幕截圖以後的圖像進行「二次裁剪」處理。

 1 def get_screen_shot_part_img(image_name):
 2     """
 3     獲取手機截圖的部份內容
 4     :return:
 5     """
 6     # 截圖
 7     os.system("adb shell /system/bin/screencap -p /sdcard/screenshot.jpg")
 8     os.system("adb pull /sdcard/screenshot.jpg %s" % image_name)
 9 
10     # 打開圖片
11     img = Image.open(image_name).convert('RGB')
12 
13     # 圖片的原寬、高(1080*2160)
14     w, h = img.size
15 
16     # 截取部分，去掉其頭像、其餘內容雜亂元素
17     img = img.crop((0, 0, 900, 1500))
18 
19     img.thumbnail((int(w / 1.5), int(h / 1.5)))
20 
21     # 保存到本地
22     img.save(image_name)
23 
24     return image_name

如今可使用百度提供的 API 獲取到上面截圖的人臉列表。

 1 def parse_face_pic(pic_url, pic_type, access_token):
 2     """
 3     人臉識別
 4     5秒以內
 5     :param pic_url:
 6     :param pic_type:
 7     :param access_token:
 8     :return:
 9     """
10     url_fi = 'https://aip.baidubce.com/rest/2.0/face/v3/detect?access_token=' + access_token
11 
12     # 調用identify_faces，獲取人臉列表
13     json_faces = identify_faces(pic_url, pic_type, url_fi)
14 
15     if not json_faces:
16         print('未識別到人臉')
17         return None
18     else:
19         # 返回全部的人臉
20         return json_faces

從上述的人臉列表中篩選出性別爲女，年齡爲 18-30 歲之間，顏值超過 70 的小姐姐。

 1 def analysis_face(face_list):
 2     """
 3     分析人臉，判斷顏值是否達標
 4     18-30之間，女，顏值大於80
 5     :param face_list:識別的臉的列表
 6     :return:
 7     """
 8     # 是否能找到高顏值的美女
 9     find_belle = False
10     if face_list:
11         print('一共識別到%d張人臉，下面開始識別是否有美女~' % len(face_list))
12         for face in face_list:
13             # 判斷是男、女
14             if face['gender']['type'] == 'female':
15                 age = face['age']
16                 beauty = face['beauty']
17 
18                 if 18 <= age <= 30 and beauty >= 70:
19                     print('顏值爲:%d,及格，知足條件！' % beauty)
20                     find_belle = True
21                     break
22                 else:
23                     print('顏值爲:%d,不及格，繼續~' % beauty)
24                     continue
25             else:
26                 print('性別爲男,繼續~')
27                 continue
28     else:
29         print('圖片中沒有發現人臉.')
30 
31     return find_belle

因爲視頻是連續播放的，很難經過截取視頻某一幀，判斷視頻有出現顏值高的小姐姐。

另外，大部分短視頻播放時長爲「10s+」，這裏須要對每個視頻屢次截圖去作人臉識別，直到識別到顏值高的小姐姐。

 1 # 一條視頻最長的識別時間
 2 RECOGNITE_TOTAL_TIME = 10 
 3 # 識別次數
 4 recognite_count = 1
 5 
 6 # 對當前視頻截圖去人臉識別
 7 while True:
 8   # 獲取截圖
 9   print('開始第%d次截圖' % recognite_count)
10 
11   # 截取屏幕有用的區域，過濾視頻做者的頭像、BGM做者的頭像
12   screen_name = get_screen_shot_part_img('images/temp%d.jpg' % recognite_count)
13 
14   # 人臉識別
15   recognite_result = analysis_face(parse_face_pic(screen_name, TYPE_IMAGE_LOCAL, access_token))
16 
17   recognite_count += 1
18 
19   # 第n次識別結束後的時間
20   recognite_time_end = datetime.now()
21 
22   # 這一條視頻出現了顏值高的小姐姐
23   if recognite_result:
24          pass
25   else:
26          print('超時！！！這是一條沒有吸引力的視頻！')
27          # 跳出裏層循環
28          break

一旦當前播放的視頻識別出有顏值高的小姐姐，就須要模擬保存視頻到本地的操做。

獲取「分享」和「保存本地」兩個按鈕的座標位置，依次利用 adb 執行點擊操做便可下載視頻到本地。

 1 def save_video_met():
 2     """
 3     :return:
 4     """
 5     # 分享
 6     os.system("adb shell input tap 1000 1500")
 7     time.sleep(0.05)
 8 
 9     # 保存到本地
10     os.system("adb shell input tap 350 1700")

另外，因爲下載視頻的過程是一個耗時操做，在下載進度對話框還未消失以前，須要作一個「模擬等待」的操做。

 1 def wait_for_download_finished(poco):
 2     """
 3     從點擊下載，到下載徹底
 4     :return:
 5     """
 6 
 7     element = Element()
 8     while True:
 9         # 因爲是對話框，不能利用Element類來判斷是否存在某個元素來準確處理
10         # element_result = element.findElementByName('正在保存到本地')
11 
12         # 當前頁面UI樹元素信息
13         # 注意：保存的時候可能會獲取元素異常，這裏須要拋出，並終止循環
14         # com.netease.open.libpoco.sdk.exceptions.NodeHasBeenRemovedException: Node was no longer alive when query attribute "visible". Please re-select.
15         try:
16             ui_tree_content = json.dumps(poco.agent.hierarchy.dump(), indent=4).encode('utf-8').decode('unicode_escape')
17         except Exception as e:
18             print(e)
19             print('異常，按下載處理~')
20             break
21 
22         if '正在保存到本地' in ui_tree_content:
23             print('還在下載中~')
24             time.sleep(0.5)
25             continue
26         else:
27             print('下載完成~')
28             break

在視頻保存到本地以後，就能夠模擬向上滑動的操做，跳到播放「下一條視頻」。循環上面的操做，便可篩選出全部顏值高的小姐姐，並保存到本地。

1 def play_next_video():
2     """
3     下一個視頻
4     從下往上滑動
5     :return:
6     """
7     os.system("adb shell input swipe 540 1300 540 500 100")

在腳本一條條刷視頻的過程當中，可能會遇到一下廣告，咱們須要對這類視頻進行過濾。

 1 def is_a_ad():
 2     """
 3     判斷的當前頁面上是不是一條廣告
 4     :return:
 5     """
 6     element = Element()
 7     ad_tips = ['去玩一下', '去體驗', '當即下載']
 8 
 9     find_result = False
10 
11     for ad_tip in ad_tips:
12         try:
13             element_result = element.findElementByName(ad_tip)
14             # 是一條廣告,直接跳出
15             find_result = True
16             break
17         except Exception as e:
18             find_result = False
19 
20     return find_resul