廣西互聯網金融平臺系列-Scrapy爬蟲爬取大戶人家-福金貸

1、背景

廣西這麼多平臺當中,跟國有企業掛鉤的很多,像林海金融、福金貸、金投互聯網等平臺。其中福金貸的上線還獲得廣西電視臺的報道,這麼有實力的平臺,數據是怎麼樣的?css

2、目的

這一次就想看看大戶人家的數據dom

3、代碼示例

方式:在標的列表頁是用JS點擊-跳轉到詳情頁面的,遇到這種渲染方式,我也只能採用scrapy結合selenium的方式進行數據抓取了。可是通過勘察分析,發現JS渲染的跳轉地址和詳情頁url地址一致,那就不用跳來跳去了,正則匹配一下,把座標提取出來再組合url就好了。scrapy

class GxfjdSpider(scrapy.Spider):
    name = 'gxfjds'
    allowed_domains = ['www.gxfjd.net']
    start_urls = ['https://www.gxfjd.net/boot/invest/420/1']

    def parse(self, response):
        print(response)
        """
        將當前列表頁的每條標的連接拿到
            並傳給detail進行深刻爬取
            已知頁碼能夠在url中循環  就不用翻頁了
        """

        total = response.css('table.newpro-table tr.leftTime')
        for x in total:
            target_js = x.css('td.button a::attr(href)').extract_first("")
            match = re.search('\d+,\d+',target_js)
            target_urls = "https://www.gxfjd.net/boot/lookup/" +  match.group(0) + "?pageSize=100&pageNo=1&tab=invest#invest"
            yield Request(url=target_urls,callback=self.parse_detail)

    def parse_detail(self, response):
        """ 標的詳細信息 投資人投資記錄 """
        loaders = GxfjdItemLoader(item=GxfjdItem(),response=response)

        loaders.add_css("title",'.u-tt3 span::text')
        loaders.add_css("protype", '.u-tt3 span::text')
        loaders.add_css("amount", '.l-ct.data dl:first-child strong::text')
        loaders.add_css("profit", '#Y-rate::text')
        loaders.add_css("terms", '#Brtime strong::text')

        loaders.add_value("target_urls",response.url)
        loaders.add_value("target_urls_id", response.url)

        loaders_item = loaders.load_item()
        yield loaders_item

        ilist = response.css('.m-tab2Content.m-table tr')[1:]
        for tr in ilist:
            iloders = GxfjdListItemLoader(item=GxfjdListItem(), response=response)
            names = tr.css('td:nth-child(1)::text').extract()
            print(tr.css('td:nth-child(1)::text').extract())
            amounts = tr.css('td:nth-child(2)::text').extract()
            print(tr.css('td:nth-child(2)::text').extract())
            itime = tr.css('td:nth-child(3)::text').extract()
            print(tr.css('td:nth-child(3)::text').extract())
            iloders.add_value("invest_username",names)
            iloders.add_value("invest_amount", amounts)
            iloders.add_value("invest_time", itime)
            iloders.add_value("target_urls",response.url)
            iloders.add_value("target_id", response.url)

            iloaders_item = iloders.load_item()
            yield iloaders_item

4、大戶人家的數據

此次的數據真的是大戶人家,很是漂亮,好比:ide

1.福金貸標的金額最高的是2000萬,沒錯,2000萬!並且不僅1筆,有3筆2000萬的借款。url

2.金額爲1000萬的標的有21條記錄,OMG!(果真是大戶人家)spa

3.福金貸的發標記錄總共有422條,最低金額的標是46萬.net

4.收益率最低是6%,最高11%code

5.投資人投資記錄有22677條,平均每一個標的產生投資筆數爲53筆。get

6.最豪投資人莫過於[13****],他的最高投資金額爲單筆230萬元,並且有19筆超過1百萬的投資記錄。selenium

7.福金貸的第一筆投資來自於用戶[xi****],他在[2015-03-20]號當天投資了19筆,OMG !

8.多個平臺[福金貸、海金匯、泛灣天域、小鵝網、寶籌貸、樂助貸]的投資人排行中,最高的也就是福金貸的投資用戶最爲土豪。

相關文章
相關標籤/搜索