Tweepy1_抓取Twitter數據

時間 2019-11-18

標籤 tweepy1 tweepy 抓取數據简体版

原文原文鏈接

python機器學習-乳腺癌細胞挖掘（博主親自錄製視頻）https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

以前一直想用爬蟲登錄並抓取twitter數據，試過scrapy，requests等包，都沒成功，多是我還不太熟悉的緣由，不過html

今天發現了一個新包tweepy，專門用於在Python中處理twitter API。先嚐試一下教程的第一個例子，通過了本身的一點修改python

代碼以下：mysql

Tweepy抓取twitter數據 1 
   
import re  
import tweepy  
  
auth = tweepy.OAuthHandler("xxxxx",  
                           "xxxxx")  
auth.set_access_token("xxxxx",  
                      "xxxxx")  
  
api = tweepy.API(auth)  
  
  
highpoints = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')  
public_tweets = api.home_timeline()  
num = 0  
for tweet in public_tweets:  
    print num  
    num += 1  
    text_noem = highpoints.sub('--emoji--', tweet.text)  
    text_noem = text_noem.encode('utf8')

代碼解釋：正則表達式

第3-4行：導入tweepy和re模塊。之因此這麼簡單的代碼中要用re是由於在提取推文過程當中遇到了emoji表情，而emoji unicode是沒法編碼成 gbk 的，因此要用正則表達式把全部表情都替換掉。sql

第6-9行：設置API和token，這個須要註冊後在apps.twitter.com新建application後得到。api

第11行：根據auth返回API對象，用於具體返回responsesapp

第14行：設置emoji表情的正則表達式，用於過濾出全部的表情，此處參考了下面註明的一篇stackoverflow文章。機器學習

第15行：獲取用戶時間線上的信息scrapy

第16行：設置一個計數的變量ide

第17行：遍歷全部的推文：

循環內：

第18-22行：輸出序號，並輸出推文內容，將全部的emoji unicode用 ’--emoji--‘ 替代並將unicode編碼爲utf8以解決不能輸出的問題。

抓取Twitter數據的重點是twitter要求全部requets都必須通過OAuth認證，而tweepy這個包在這方面的設定讓authentication變得十分方便。

參考文獻：

http://stackoverflow.com/questions/13729638/how-can-i-filter-emoji-characters-from-my-input-so-i-can-save-in-mysql-5-5

http://tweepy.readthedocs.io/en/v3.5.0/getting_started.html

Tweepy 3.5.0 Doc (1) Getting started

開始

簡介

若是你是第一次接觸Tweepy，就請從這裏開始。這個教程的目標是提供你學習Tweepy所需的信息，讓你學習完本教程後能熟練使用Tweepy。咱們在這主要談論重要的基礎內容，而不會涉及太多細節，

你好 Tweepy

[python] view plain copy

import tweepy
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)
api = tweepy.API(auth)
public_tweets = api.home_timeline()
for tweet in public_tweets:
print tweet.text

這個例子能夠下載你Twitter主頁上的推文，而且把相應的文本內容打印到控制檯。Twitter要求全部請求（requests）都經過OAuth協議進行受權（身份認證）。Authentication Tutorial（身份認證教程）（連接）中有受權的詳細介紹。

API

API類爲Twitter的因此REST API方法提供接口（The API class provides access to the entire twitter RESTful API methods.）每種方法接受不一樣的參數，可是都返回response。更多請參見API Reference（連接）