上個禮拜權遊大結局,最終的結果「布蘭」登上了鐵王座。html
這個結果確實是你們沒有想到的。json
本來想着若是不是「龍媽」,那麼就該是「雪諾」。app
怎麼就輪到「布蘭」了呢。echarts
一個能夠隨時隨地監視別人的人坐上了鐵王座,細思極恐...ide
權遊從2011年4月17日開播直到最後一集5月19日,一共歷時九年,終於落下了帷幕。學習
也算是陪伴了一些人的青春,看看上圖裏的「小布蘭」和長大後的「布蘭」。spa
時光荏苒,歲月如梭,有那麼點點哈利波特的感受(一樣也是好多年)。3d
此次找到了一些權遊的數據集,針對這些數據來作一些分析。htm
主要有人物信息,字幕信息以及屏幕時間信息。blog
這些數據由「GitHub」上的一位大佬整理的,具體能夠點擊閱讀原文瞭解詳情。
/ 01 / 殺手榜
數據是JSON文件,都是別人已經整理好的。
以下是人物信息,包含姓名,家族,人物圖片,兄弟姐妹等。
這裏只看誰幹掉的人最多,其他大夥能夠自行探索。
讀取文件後,進行排序,代碼以下。
import json
# 讀取人物信息文件
with open("characters.json", 'r') as load_f:
load_dict = json.load(load_f)
characters = load_dict["characters"]
# 計算人物的殺人數
item = {}
for character in characters:
if 'killed' in character.keys():
item[character['characterName']] = len(character['killed'])
# 排序
top15 = sorted(item.items(), key=lambda x: x[1], reverse=True)[:15]
print(top15, '\n\n')
# 獲取殺手榜前15位,以及是哪位被領盒飯
for i in top15:
for character in characters:
if character['characterName'] == i[0]:
print(i[1], i[0], character['killed'], '\n\n')
結果以下。
看一下前四位狠人,「龍媽」「獵狗」「雪諾」「二丫」。
「獵狗」大叔看似人狠話很少,可是他的心裏仍是很正義的。
其中「二丫」殺了「夜王」,這一點也沒毛病。
就是「雪諾」殺「龍媽」就有點那個啥了,上一秒咱們仍是「朋友」,下一秒就GG了。
木有想到網上竟然還有神預測...
/ 02 / 發言榜
下面這個數據是每集的臺詞,概況以下。
經過遍歷字典信息,獲取人物發言頻次。
import json
# 讀取人物信息文件
with open("script-bag-of-words.json", 'r', errors='ignore') as load_f:
load_dict = json.load(load_f)
# 對人物人名進行統計
names = []
for i in load_dict:
for j in i['text']:
name = j['name']
if name not in names:
names.append(name)
# print(names)
# 獲取人物說話次數
item = {}
for name in names:
num = 0
for i in load_dict:
for j in i['text']:
if j['name'] == name:
num += 1
item[name] = num
# 排序
top15 = sorted(item.items(), key=lambda x: x[1], reverse=True)[:15]
for i in top15:
print(i[1], i[0])
結果以下。
「小惡魔」「雪諾」「龍媽」「瑟曦」「詹姆」排行前五。
「提利昂」曾經說過「大腦須要書才能變得敏銳,就像劍須要磨刀石同樣。」
果真做爲讀書多的,話也就多了。
否則就只能一句句「俺也同樣」了...
弒君者「詹姆」,「小惡魔」的哥哥。
雖然前期作了很多壞事,不過最後改邪歸正,真的實力圈粉。
/ 03 / 出場時間
對場景出現時間進行分析,數據概況以下。
對數據進行處理,代碼以下。
import json
from datetime import datetime
# 讀取每集的出場信息
with open("episodes.json", 'r') as load_f:
load_dict = json.load(load_f)
episodes = load_dict["episodes"]
for episode in episodes:
# 獲取每集的片斷信息
for scene in episode["scenes"]:
# 處理時間數據
start = datetime.strptime(scene['sceneStart'], "%H:%M:%S")
end = datetime.strptime(scene['sceneEnd'], "%H:%M:%S")
# 國家
with open('got_1.csv', 'a+') as f:
f.write(scene['location'] + ',' + str((end - start).seconds) + ',' + str(episode["seasonNum"]) + ',' + str(episode["episodeNum"]) + '\n')
# 城市
if 'subLocation' in scene.keys():
with open('got_2.csv', 'a+') as f:
f.write(scene['subLocation'] + ',' + str((end - start).seconds) + ',' + str(episode["seasonNum"]) + ',' + str(episode["episodeNum"]) + '\n')
# 人物
for people in scene['characters']:
with open('got_3.csv', 'a+') as f:
f.write(people['name'] + ',' + str((end - start).seconds) + ',' + str(episode["seasonNum"]) + ',' + str(episode["episodeNum"]) + '\n')
最後獲得三個文件,分別爲國家、城市及人物的出現時間。
這裏不對每一季進行分析,那樣內容太多了,有興趣的能夠本身試試。
import pandas as pd
from pyecharts import Bar
# 讀取數據
df = pd.read_csv('got_1.csv', header=None)
# df = pd.read_csv('got_2.csv', header=None)
# df = pd.read_csv('got_3.csv', header=None)
# 彙總名稱
names = []
for name in df[0]:
if name not in names:
names.append(name)
item = {}
for name in names:
nums = []
for num in df[df[0] == name][1]:
nums.append(num)
# 列表求和
s = sum(nums)
# 時間轉換
m, s = divmod(s, 60)
h, m = divmod(m, 60)
item[name] = "%02d:%02d:%02d" % (h, m, s)
# 出場時間前15位角色
top15 = sorted(item.items(), key=lambda x: x[1], reverse=True)[:15]
for i in top15:
print(i[1], i[0])
結果以下。
先看一下區域的時間分佈。
第一王領,第二北境。
下面是城市的屏幕時間狀況。
第一位「君臨城」——七大王國的首都。
第二位「臨冬城」——史塔克家族的城堡。
最後是人物出現的屏幕時間。
第一位是國王之手「小惡魔」。
第二位是什麼都不懂的「雪諾」。
第三位是白手起家最後又被騙的「龍媽」。
對每季的人物進行統計。
# 統計每季人物出場時間
for i in range(1, 9):
name_1 = []
nums_1 = []
df1 = df[df[2] == i]
for j in top15:
num_1 = []
for k in df1[df1[0] == j[0]][1]:
num_1.append(k)
name_1.append(j[0])
nums_1.append(sum(num_1))
print(i, name_1, nums_1)
def people_scenes():
"""
每季人物出現時間
"""
# 參數數據
attr = ['提利昂', '雪諾', '龍媽', '三傻', '瑟曦', '二丫', '詹姆', '莫爾蒙', '戴佛斯', '山姆', '瓦里斯', '席恩', '布蕾妮', '布蘭', '獵狗']
v1 = [4903, 5323, 4900, 3608, 4252, 3655, 2523, 3650, 0, 1918, 2949, 3270, 0, 3115, 2442]
v2 = [5257, 2658, 3037, 2455, 3021, 3373, 1363, 1694, 1879, 1225, 1594, 2908, 1869, 1387, 1445]
v3 = [4146, 2620, 2760, 2369, 2429, 2612, 2674, 2561, 1636, 2074, 1533, 1605, 2009, 1768, 1283]
v4 = [5480, 3818, 2490, 3130, 4694, 2510, 4269, 1634, 1021, 2273, 1332, 1190, 1536, 1427, 2328]
v5 = [4469, 5066, 3767, 2919, 3927, 2770, 1889, 2998, 1452, 2742, 876, 1635, 1163, 0, 0]
v6 = [2852, 5527, 2473, 3848, 2222, 2294, 2948, 827, 4101, 1268, 1424, 1626, 1749, 2107, 906]
v7 = [5849, 7840, 5773, 3436, 3426, 2744, 4074, 4549, 4417, 1747, 3072, 2553, 2313, 1246, 3657]
v8 = [8148, 7513, 6494, 3940, 1551, 4357, 3935, 1740, 3679, 2871, 3247, 888, 3817, 3296, 1827]
# 建立條形圖
bar = Bar("權遊人物出場時間分佈", title_pos='center', title_top='18', width=800, height=400)
bar.add("第一季", attr, v1, is_convert=True, xaxis_min=10, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=False, is_legend_show=True, label_pos='right', legend_orient='vertical', legend_pos='80%', legend_top='30%', is_yaxis_inverse=True, is_splitline_show=False, is_stack=True)
bar.add("第二季", attr, v2, is_convert=True, xaxis_min=10, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=False, is_legend_show=True, label_pos='right', legend_orient='vertical', legend_pos='80%', legend_top='30%', is_yaxis_inverse=True, is_splitline_show=False, is_stack=True)
bar.add("第三季", attr, v3, is_convert=True, xaxis_min=10, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=False, is_legend_show=True, label_pos='right', legend_orient='vertical', legend_pos='80%', legend_top='30%', is_yaxis_inverse=True, is_splitline_show=False, is_stack=True)
bar.add("第四季", attr, v4, is_convert=True, xaxis_min=10, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=False, is_legend_show=True, label_pos='right', legend_orient='vertical', legend_pos='80%', legend_top='30%', is_yaxis_inverse=True, is_splitline_show=False, is_stack=True)
bar.add("第五季", attr, v5, is_convert=True, xaxis_min=10, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=False, is_legend_show=True, label_pos='right', legend_orient='vertical', legend_pos='80%', legend_top='30%', is_yaxis_inverse=True, is_splitline_show=False, is_stack=True)
bar.add("第六季", attr, v6, is_convert=True, xaxis_min=10, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=False, is_legend_show=True, label_pos='right', legend_orient='vertical', legend_pos='80%', legend_top='30%', is_yaxis_inverse=True, is_splitline_show=False, is_stack=True)
bar.add("第七季", attr, v7, is_convert=True, xaxis_min=10, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=False, is_legend_show=True, label_pos='right', legend_orient='vertical', legend_pos='80%', legend_top='30%', is_yaxis_inverse=True, is_splitline_show=False, is_stack=True)
bar.add("第八季", attr, v8, is_convert=True, xaxis_min=10, yaxis_label_textsize=12, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=False, is_legend_show=True, label_pos='right', legend_orient='vertical', legend_pos='80%', legend_top='30%', is_yaxis_inverse=True, is_splitline_show=False, is_stack=True)
# 生成圖表
bar.render("權遊人物出場時間分佈.html")
people_scenes()
獲得結果以下。
最後來看一下第一季的數據。
def people_season(season, mes1, mes2):
"""
每季統計
"""
attr = mes1
v1 = mes2
bar = 'bar' + str(season)
bar = Bar('第' + str(season) + '季人物出場時間分佈', title_pos='center', title_top='18', width=800, height=400)
bar.add("", attr, v1, is_convert=True, xaxis_min=10, yaxis_label_textsize=8, is_yaxis_boundarygap=True, yaxis_interval=0, is_label_show=True, is_legend_show=False, label_pos='right', is_yaxis_inverse=True, is_splitline_show=False)
bar.render('第' + str(season) + '季人物出場時間分佈.html')
# 遍歷每一季
for season in range(1, 9):
df2 = df[df[2] == season]
for i in df2[0]:
if i not in names:
names.append(i)
item = {}
# 對人物出現時間進行統計
for j in names:
num_3 = []
for k in df2[df2[0] == j][1]:
num_3.append(k)
item[j] = sum(num_3)
# 排序
top15 = sorted(item.items(), key=lambda x: x[1], reverse=True)[:15]
print(top15)
name_2 = []
num_2 = []
# 對前15位進行數據彙總
for p in top15:
name_2.append(p[0])
num_2.append(p[1])
print(season, name_2, num_2)
people_season(season, name_2, num_2)
結果以下。
有一半都領盒飯了,固然也有堅持到最後的。
堅持下來的,狼家的居多。
/ 04 / 總結
數據已上傳百度網盤,回覆「權遊」便可獲取。
今年的權遊我只看到了第三集,也就是「二丫」幹掉「夜王」的那一集。
以後也就沒看了,一方面是看網上的口碑不是很好,因此就沒什麼興趣。
另外一方面也是時間少了,因而乎公衆號也斷更了...
不過接下來會慢慢開始更新了。
畢竟學習須要自討苦吃~
萬水千山老是情,點個「在看」行不行。
··· END ···