爬蟲綜合大做業

一.把爬取的內容保存取MySQL數據庫html

import pandas as pd import pymysql from sqlalchemy import create_engine conInfo = "mysql+pymysql://user:passwd@host:port/gzccnews?charset=utf8" engine = create_engine(conInfo,encoding='utf-8') df = pd.DataFrame(allnews) df.to_sql(name = ‘青年版', con = engine, if_exists = 'append', index = False)

 


 

二.爬蟲綜合大做業mysql

  1. 選擇一個熱點或者你感興趣的主題。
  2. 選擇爬取的對象與範圍。
  3. 瞭解爬取對象的限制與約束。
  4. 爬取相應內容。
  5. 作數據分析與文本分析。
  6. 造成一篇文章,有說明、技術要點、有數據、有數據分析圖形化展現與說明、文本分析圖形化展現與說明。
  7. 文章公開發布。

本次做業爬取得是我最喜歡的快看漫畫網站:https://www.kuaikanmanhua.com/web

 

 

快看漫畫是快看世界(北京)科技有限公司於2014年發行的一款移動端漫畫APP,向用戶提供高清全綵的國內外原創漫畫閱讀。sql

2017年12月1日,國內第一漫畫消費平臺快看漫畫宣佈完成D輪融資,由Coatue Management 領投、華人文化產業投資基金、襄禾資本等跟投,融資總金額爲1.77億美圓,光源資本擔任獨家財務顧問。數據庫

軟件特點app

一、正版資源。dom

二、漫畫分類齊全,每日編輯精選推薦!網站

三、條式排版顛覆傳統漫畫,配適手機的閱讀體驗!url

四、做者V社區,親密互動,一鍵關注,動態先知。 spa

五、新社區 

表明做品

表明做品: 《整容遊戲》、《復仇高中》、《復仇高中2016》、《快把我哥帶走》等  。

大事記

2014年12月,陳安妮發表漫畫文章《對不起,我只過1%的生活》,轉發近45萬次,閱讀量超過2.5億,評論接近10萬條。同期上線的快看漫畫App在上線2個月成功吸引了超過200萬次的下載,多次登上App Store免費總榜第一。

2014年12月  ,快看漫畫啓動「30萬元正版計劃。 

2015年1月 ,快看漫畫App安卓版得到小米金米獎。 

 2015年10月,快看漫畫獨家做品《我弟弟是外星人》以及《復仇高中》登錄韓國最大收費漫畫平臺BOMTOON。 

2015年10月,快看漫畫首本主題書首印12萬冊,首本單行本《快把我哥帶走》首印10萬冊,其中《關於我最喜歡的他》預售三天衝上亞馬遜預售榜總榜第 1、噹噹網新書熱賣第1、天貓博庫預售第1、天貓新華文軒第一以及登上亞洲好書榜第二;《關於我最喜歡的他》長期高居銷售排行榜前列。

2015年10月,快看漫畫做者團隊南下巡籤屢破記錄,主題書共計籤售出33000冊;破廣州購書中心籤售記錄,破東莞覔書店籤售記錄,破深圳中心書城籤售記錄。

2016年3月  ,快看漫畫的總用戶數突破3000萬。


 

本次做業分析的是(各大排行版塊):

具體分爲這幾個熱門板塊:

 

 

 上!代!碼!(以日韓版爲例子)

import requests import time import random from bs4 import BeautifulSoup import pandas as pd headers = { 'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36', } def anews(url): newsDetail = {} res=requests.get(url) res.encoding='utf-8' soup=BeautifulSoup(res.text,'html.parser') newsDetail['題目']= soup.select('.title')[0].text newsDetail['做者']= soup.select('.nickname')[0].text newsDetail['詳情']= soup.select('.detailsBox')[0].text.replace("\r\n"," ") for renqi in soup.select('.heat'): newsDetail['人氣']= renqi.text.split()[0] for dianzanshu in soup.select('.laud'): newsDetail['點贊數']= dianzanshu.text.split()[3] return newsDetail url = 'https://www.kuaikanmanhua.com/ranking/9' resourses = requests.get(url,headers=headers) resourses.encoding = 'UTF-8' soup = BeautifulSoup(resourses.text, 'html.parser') newsList = [] for tag in soup.find_all('div', class_='IdItems fl'): time.sleep(random.random()*3) url = 'https://www.kuaikanmanhua.com{}/'.format(tag.find('a').get('href')) print( anews(url)) newsList.append(anews(url)) newsdf = pd.DataFrame(newsList) newsdf.to_csv("日韓榜數據.csv",encoding="utf_8_sig");

分析代碼:

1.首先獲取a便籤的href鏈接,跳轉獲取每一個做品的詳細內容

 

2.獲取每一個做品的詳細信息

獲取數據後,分析數據(截取Top20分析):

少年榜

這個版塊通常是推薦給男生看(app有明顯的分男女版本,網頁沒有這個有點惋惜!),從Top20上來看,槍爺異聞錄,人類進化論,超能立方深受歡迎!人氣最高達到35+億!點贊值它們基本都是穩定在這個排名左右,好比人類進化論穩居第二!而槍爺異聞錄超能立方都是上升2名!這個榜單人生觀有點複雜,有時候得等做者出來講出來才弄懂~

圖1 少年榜T20人氣值

 圖1 少年榜T20點贊值

少女榜

這個版塊通常是推薦給小女生看(我最喜歡這個版塊~),從Top20上來看,怦然心動,甜美的咬痕,DOLO命運膠囊等(列表中這幾部我都有追!超甜!)人氣達到180+億!前五部都是穩居排名!從人氣值數據得知看快看漫畫女孩子居多,固然也不排除男孩子也有看,雖然我以爲它放在少女榜,我怎麼以爲男孩子也在看哈哈~

圖3 少女榜T20點贊值

圖4 少女榜T20人氣值

青年榜

從前任戰爭的詳情——愛情,是一場戰爭。沒有硝煙,卻容易讓人遍體鱗傷中能夠知道青年版講的比較可能是社會現象,不少撕逼的,狗血的社會現象,更多將現代青年人如何面對社會現象作出選擇,挺正能量的一個榜單!從Top20上來看,前任戰爭,貧窮少女,魔道祖先等人氣達到500+億!由於都是這個榜單是新榜單,因此都是新進黑馬!這個榜單強烈案例!三觀很正!

 圖5 青年榜T20人氣值

圖6 青年榜T20點贊值 

新做榜

 這個進的新做者的版單,不少奇奇古怪的世界觀,天馬行空,很適合想象力豐富的孩子,這是涌入新人才的好地方!從Top20上來看,拯救個人高一班,逆風之花,粉粹星辰等人氣達到6億(畢竟是新手,有名畫家就算不是快看漫畫的死忠粉也會爲了做家來這個網站看或者經過查詢觀看)!由於都是這個榜單都是新手,跌跌落落是常態,不大穩定!但願更多畫家勇者接受挑戰!

圖7 新做榜T20人氣值

圖8 新做榜T20點贊值

完結榜

 這個榜單收藏都是之前的很是有名的傑做!不想一集一集慢慢追的孩子能夠直接來看完結榜!從Top20上來看,撿只小狐狸,雪男,朝花夕拾等人氣達到9000+億!(畢竟時間也過了好久,這個數值是累計而來的)由於都是這個榜單都是完結,就沒有相對上週排名!列表中這些做品也是我之前很是追的,超級安利你們~

 

 圖9 完結榜T20點贊值

 圖10 完結榜T20人氣值

暢銷榜

 已經出書了基本都在這個榜單!可想這個讀者人數得多可怕哈哈~這個榜單的書在別的網站也能夠看到!有點像收集好做品同樣!從Top20上來看,某天成爲公主,閃婚總裁鍥約妻,斗羅大陸等人氣達到2500+億!(不過我感受這個數據貌似被清空一回)相對排名也是很穩定的!

  圖11 暢銷榜T20點贊值

   圖12 暢銷榜T20人氣值

總裁榜

 這個標題就顧明思議你們都懂的~只惋惜我沒看,我不大喜歡這個題材,因此就沒啥好推薦(劇情不是通常的狗血是至關的狗血,我以爲你們追的開心才重要,我是感受不能產生共鳴,固然做品仍是很不錯的~)T20閃婚總裁契約妻。權少,你的老婆跑了等在別的網站也很受歡迎~

  圖13 總裁榜T20點贊值

  圖14 總裁榜T20人氣值

日韓榜

 這個是從日本韓國買版權過來的,也都是精心挑選的~

   圖15 日韓榜T20點贊值

    圖16 日韓榜T20人氣值


 

總結 

(1)各大榜單排行T20閱讀量基本在億以上,說明這些做品深受別人歡迎

(2)按這個榜單排版可讓做者們之間產生競爭感,保證這些做品的優質性

(3)按這個榜單排版可讓讀者閱讀方便,同時這些做品確實有質量,能夠減輕麻木閱讀的概率

注:人氣值:閱讀量  點贊值:已登陸讀者若是以爲做品好會按點贊按鈕以示對做品有好感

結束語:期待更多做品流入~

相關文章
相關標籤/搜索