與海金匯和小鵝網同樣,泛灣天域也沒有在技術上作防禦,直接爬數據就能夠了。這一波爬取廣西網貸平臺的數據,是想看看經過平臺的數據,來推測或者估算平臺的發展時期對應的運營行爲。css
抓取泛灣天域全站的標的數據和投資人記錄數據dom
這種網站,邏輯很是簡單,進去 爬爬爬,完了。scrapy
class FanwantianyuSpider(scrapy.Spider): name = 'fanwantianyu' allowed_domains = ['www.fanwantianyu.com'] start_urls = ['http://www.fanwantianyu.com/financing/sbtz/qylb/1'] def parse(self, response): """ 將當前列表頁的每條標的連接拿到 並傳給detail進行深刻爬取 已知頁碼能夠在url中循環 就不用翻頁了 """ total = response.css('.w250 span.w200 a') for i in total: title_urls = i.css('::attr(href)').extract_first("") yield Request(url=parse.urljoin(response.url,title_urls),callback=self.parse_detail) pass for x in range(1,62): next_pages = "http://www.fanwantianyu.com/financing/sbtz/qylb/%s" % (x) yield Request(url=next_pages,callback=self.parse) def parse_detail(self, response): """ """ f_loads = FanwanItemLoader(item=FanwanItem(), response=response) f_loads.add_css("title",".pub_title span::text") f_loads.add_value("target_urls", response.url) f_loads.add_value("target_urls_id", response.url) f_loads.add_css("amount", "div.ml30:nth-child(3) span:nth-child(2)::text") f_loads.add_css("profit", ".mr30 span.red.f24.mt10.mb10::text") f_loads.add_css("terms", ".mr30.ml30 span.f24.mt10.mb10::text") f_loads.add_css("protype", ".pub_title span::text") f_loads.add_css("status", ".plan_given_btn i::attr(class)") loaders = f_loads.load_item() yield loaders ilist_url = response.url.replace("bdxq","tbjl") yield Request(url=parse.urljoin(response.url,ilist_url),callback=self.parse_ilist) pass def parse_ilist(self, response): """ 投資記錄 """ total_tr = response.css('table.tc tr:not(:first-child)') for tr in total_tr: ilist_loader = FanwanListItemLoader(item=FanwanListItem(),response=response) ilist_loader.add_value("target_urls", response.url) ilist_loader.add_value("target_id", response.url) ilist_loader.add_value("invest_username",tr.css("td::text")[1].extract()) ilist_loader.add_value("invest_amount", tr.css("td::text")[2].extract()) ilist_loader.add_value("invest_time", tr.css("td::text")[3].extract()) ilist_item = ilist_loader.load_item() yield ilist_item
根據爬取的數據,作了個基礎的總結,發現了幾個有意思的數據ide
1.泛灣天域這幾年總共發了610個標,其中金額最大的是2017-01-19那天發出的,用於補充借款人企業流動資金的標的,金額是300萬,收益率也還能夠,15%。網站
2.最小金額的借款是借了3萬元url
3.總投資筆數爲10015條(截止數據抓取日期),這樣算下來,平均每一個標的產生的投資筆數爲16.4次。spa
4.單筆投資金額最大的用戶是[Quee***],所投資的金額爲100萬,也就是上面的那個300萬借款的那條。這個用戶的投資筆數很少,就5筆,[2.5萬,100萬,20萬,20萬,11萬]code
5.泛灣天域最先的一筆投資是發生在2015-05-28,那個美好的傍晚[W818***]投了第一筆1.3萬元的投資,開啓了泛灣天域的征途(第二筆也是他,7千,兩次投資相隔1分鐘)。這位用戶厲害了,總共在泛灣天域投資了227筆。最高單筆投資27萬、最低也有投100的時候(估計是自動投標或者參與平臺活動)ci