數據準備
數據庫
獲取近10年的新聞聯播文本有兩個方法,一是本身寫爬蟲,將CCTV網站的新聞聯播網頁爬取下來,二是經過Tushare SDK的API免費獲取數據。編程
若是是本身爬,好處是能夠鍛鍊本身的爬蟲編程能力,磨練本身被可能不統一的網頁格式虐心千百遍還不砸電腦的心態意志。微信
壞處是爬數據,清洗數據確實浪費時間,搞很差真有可能費電腦。echarts
固然若是直接經過Tushare SDK調取數據,只須要一行代碼便可獲取到格式統一的數據。工具
df = pro.cctv_news(date='20181222')
學習
推薦下我本身建立的Python學習交流羣960410445,這是Python學習交流的地方,無論你是小白仍是大牛,小編都歡迎,不按期分享乾貨,包括我整理的一份適合零基礎學習Python的資料和入門教程。
網站
數據格式效果以下:
人工智能
若是要獲取其餘新聞資訊,也很簡單:3d
df = pro.news(src='sina', start_date='20181223', end_date='20181224')
cdn
新聞源目前支持以下:
獲取獲取後,能夠存csv也能夠存Excel,或者存數據庫均可以,這樣就完成了原始數據準備。
分詞處理
藉助Python jieba分詞工具,咱們能夠快速的實現文本的分詞功能。同時能夠設置關鍵字黑名單和白名單,過濾不須要的,提取想要的關鍵詞。
按日期處理分詞以後,咱們能夠對詞頻進行統計,生成一個完整的詞頻csv文件。
爲了讓你們更好地完成本次實驗,咱們直接提供已經完成統計的csv文件供你們下載,請在文章末尾獲取下載方式。
詞頻統計分析
新聞詞雲統計
對於最具影響力的新聞節目,可能不少人第一想到的是哪些關鍵詞出現的次數最多?對於常見新聞詞語,必定逃不出你的預料之中,下面這個詞雲圖能夠驗證你的判斷。
實現詞雲很是方便,前提是你已經準備好了詞頻統計。幸運的是,咱們爲你提供了現成的詞雲統計csv文件,在下載的文件中能夠找到一個all.csv的文件。
正如你所看到的,咱們藉助了pyecharts這個工具來實現可視化。如下全部圖形效果都是藉助pyecharts來實現的,更多具體的使用能夠自行學習echarts和pyecharts的知識來增強圖形制做能力,這裏不作太多的介紹。
新聞分類統計
除了新聞聯播常見關鍵詞,咱們可能還想知道一些特定詞語出如今新聞聯播的次數,以便了解該類信息受關照程度,好比在過去10年當中,哪些省份和省會城市最受新聞聯播關注?
咱們將各省在新聞聯播出現的數據進行分年統計,而後經過柱狀圖的形式展現出來。
經過上圖咱們能夠知道,做爲首都的北京毫無疑問是關注最多的地方。而在每一年由於不一樣的政治、經濟或者文化事件,不一樣的省出現的頻次也呈現出一些差別。
好比2018年在政策上對海南的傾斜,對珠三角的關注等,而在2017年香港迴歸20年,河北雄安新區的提出等事件,讓這些地方備受關注。
一樣的方法,咱們也能夠對各省會城市出現的頻次進行按年份統計。
能夠清楚的看到,在2009年烏魯木齊因暴恐事件受到了極大的新聞關注,而海口在近兩年開放海南的大背景下也成了新聞聯播的常客。
若是柱狀圖看的不夠清晰,咱們能夠藉助地圖熱力方式來顯示各省收關注程度可能更清楚。
在熱力地圖上,顏色越深表示受關注越大,咱們看到北京最紅,而東部沿海比西部,東北要比內蒙受關注更多。
若是想要了解各地級市或者縣級在新聞聯播出現的次數,咱們一樣能夠藉助地圖效果來展現,經過散點效果能夠大體看出在新聞聯播出現的狀況。
新聞佔比統計
可能有些人很想了解哪些大學在新聞聯播出現的次數最多,就像北京被關注最多同樣,北京的清華北大應該也是關注最多的?
咱們來經過數據統計,根據排名前30位的佔比來分析一下。
咱們對清華、北大、人大等知名大學的排名可能並不會以爲奇怪,但在受關注度排名前30的大學中,發現了一所國外的大學,那就是莫斯科大學,在接近10年的歷史裏,總共提到了31次。
經過新聞內容咱們知道,國家領導人曾經在大學演講過,以及國家領導人勉勵在莫斯科大學留學的中國學子等活動得到了關注。
而在與世界各國的往來方面,咱們一樣能夠藉助上述的方法,統計出各國在新聞聯播出現的次數來獲得體現。
正如咱們所知,中國與美國的關係是中國外交關係最緊密的,而中俄,中日關係也是很是重要。但同時咱們也看到,諸如敘利亞、伊朗、朝鮮、伊拉克、巴基斯坦等戰亂和動盪的國家讓世界人民也讓中國人民操碎了心。
新聞分時統計
在國際關係方面,咱們從上面各國出如今新聞聯播的次數基本上獲得了體現,但從每一年的關注狀況方面,咱們能夠經過折線圖更加清楚的瞭解到一些細節。
在其餘新聞和經濟熱詞方面,咱們也進行了一些檢驗,好比人工智能、智能製造和5G等近年來愈來愈多的被提到,而在提到「金融風險」的次數也伴隨說起「金融」二字出現的愈來愈多。
另外,咱們也跟蹤了一帶一路、自貿區、雄安新區等熱詞的頻次,好比雄安新區,在2017年4月1日首次出現以後,也是常常出如今新聞聯播裏,一般快要到事件或概念提出的週年的時候,出現的頻次會更多。
總結
對於新聞等非結構化數據的統計分析,是一個頗有意思的過程,也許你會發現一些意外的驚喜。尤爲是結合互聯網社區的數據,好比微信微博等,能夠從中挖掘出頗有價值的信息。
本次實驗過程只是一個簡單的開始,還有不少更值得分析的角度和方法,只爲拋磚引玉,但願對你們有所助益。