廣西互聯網金融平臺系列-Scrapy爬蟲爬取泛灣天域數據

1、背景

與海金匯和小鵝網同樣,泛灣天域也沒有在技術上作防禦,直接爬數據就能夠了。這一波爬取廣西網貸平臺的數據,是想看看經過平臺的數據,來推測或者估算平臺的發展時期對應的運營行爲。css

2、目的

抓取泛灣天域全站的標的數據和投資人記錄數據dom

3、代碼示例

這種網站,邏輯很是簡單,進去 爬爬爬,完了。scrapy

class FanwantianyuSpider(scrapy.Spider):
    name = 'fanwantianyu'
    allowed_domains = ['www.fanwantianyu.com']
    start_urls = ['http://www.fanwantianyu.com/financing/sbtz/qylb/1']

    def parse(self, response):
        """
        將當前列表頁的每條標的連接拿到
            並傳給detail進行深刻爬取
            已知頁碼能夠在url中循環  就不用翻頁了
        """
        total = response.css('.w250 span.w200 a')
        for i in total:
            title_urls = i.css('::attr(href)').extract_first("")
            yield Request(url=parse.urljoin(response.url,title_urls),callback=self.parse_detail)
            pass

        for x in range(1,62):
            next_pages = "http://www.fanwantianyu.com/financing/sbtz/qylb/%s" % (x)
            yield Request(url=next_pages,callback=self.parse)

    def parse_detail(self, response):
        """  """
        f_loads = FanwanItemLoader(item=FanwanItem(), response=response)
        f_loads.add_css("title",".pub_title span::text")
        f_loads.add_value("target_urls", response.url)
        f_loads.add_value("target_urls_id", response.url)
        f_loads.add_css("amount", "div.ml30:nth-child(3) span:nth-child(2)::text")
        f_loads.add_css("profit", ".mr30 span.red.f24.mt10.mb10::text")
        f_loads.add_css("terms", ".mr30.ml30 span.f24.mt10.mb10::text")
        f_loads.add_css("protype", ".pub_title span::text")
        f_loads.add_css("status", ".plan_given_btn i::attr(class)")

        loaders = f_loads.load_item()
        yield loaders

        ilist_url = response.url.replace("bdxq","tbjl")
        yield Request(url=parse.urljoin(response.url,ilist_url),callback=self.parse_ilist)
        pass

    def parse_ilist(self, response):
        """ 投資記錄 """
        total_tr = response.css('table.tc tr:not(:first-child)')
        for tr in total_tr:
            ilist_loader = FanwanListItemLoader(item=FanwanListItem(),response=response)
            ilist_loader.add_value("target_urls", response.url)
            ilist_loader.add_value("target_id", response.url)
            ilist_loader.add_value("invest_username",tr.css("td::text")[1].extract())
            ilist_loader.add_value("invest_amount", tr.css("td::text")[2].extract())
            ilist_loader.add_value("invest_time", tr.css("td::text")[3].extract())
            ilist_item = ilist_loader.load_item()
            yield ilist_item

4、有意思的數據

根據爬取的數據,作了個基礎的總結,發現了幾個有意思的數據ide

1.泛灣天域這幾年總共發了610個標,其中金額最大的是2017-01-19那天發出的,用於補充借款人企業流動資金的標的,金額是300萬,收益率也還能夠,15%。網站

2.最小金額的借款是借了3萬元url

3.總投資筆數爲10015條(截止數據抓取日期),這樣算下來,平均每一個標的產生的投資筆數爲16.4次。spa

4.單筆投資金額最大的用戶是[Quee***],所投資的金額爲100萬,也就是上面的那個300萬借款的那條。這個用戶的投資筆數很少,就5筆,[2.5萬,100萬,20萬,20萬,11萬]code

5.泛灣天域最先的一筆投資是發生在2015-05-28,那個美好的傍晚[W818***]投了第一筆1.3萬元的投資,開啓了泛灣天域的征途(第二筆也是他,7千,兩次投資相隔1分鐘)。這位用戶厲害了,總共在泛灣天域投資了227筆。最高單筆投資27萬、最低也有投100的時候(估計是自動投標或者參與平臺活動)ci

相關文章
相關標籤/搜索