Python數據分析（jupyter notebook上實現）

時間 2020-12-25

標籤 spa code blog unicode pandas ast class import 欄目 Python 简体版

原文原文鏈接

import pandas as pd
import matplotlib.pyplot as plt


plt.rcParams['font.sans-serif'] = ['SimHei']  # 用來正常顯示中文標籤
plt.rcParams['axes.unicode_minus'] = False  # 用來正常顯示負號

data = pd.read_csv('movie.csv')
data.dropna(inplace=True)





# 1.電影時⻓與受歡迎程度的關係分析

x = data
x1 = x['duration']
x2 = x['cast_total_facebook_likes']
x2.head()
x3 = x['movie_facebook_likes']
plt.scatter(x1,x2)
plt.scatter(x1, x3)
plt.xlabel('電影時長')
plt.legend(('喜好人數', '點贊人數')) 








# 2.評分排名前20位的導演

x = data
x.sort_values(by='imdb_score', ascending=False).head(20)['director_name']

# 3.拍攝電影數量最多的前10位導演

x = data
res = x.groupby('director_name').count().sort_values(by='color', ascending=False).head(10)
res.index

# 4.票房排名前10位的導演

x = data
x.groupby('director_name').sum().sort_values(by='gross', ascending=False).head(10).index

# 5.票房排名前5位的男⼀號演員姓名

x = data
x.groupby('actor_1_name').sum().sort_values(by='gross', ascending=False).head(5).index

# 6.排名前10位最受歡迎的男⼀號演員

x = data
x.groupby('actor_1_name').sum().sort_values(by='actor_1_facebook_likes', ascending=False).head(10).index

# 7.電影票房的變化趨勢

x = data
x1 = data['gross']
x2 = data['title_year']
plt.scatter(x2, x1)
plt.xlabel('年份')
plt.ylabel('票房')

# 8.電影票房與電影時⻓的關係分析

x = data
x1 = data['gross']
x2 = data['duration']
plt.scatter(x2, x1)
plt.xlabel('電影時長')
plt.ylabel('票房')

# 9.電影評分與電影受歡迎程度分析

x = data
x1 = data['imdb_score']
x2 = data['cast_total_facebook_likes']
x3 = data['movie_facebook_likes']
plt.scatter(x1, x2)
plt.scatter(x1, x3)
plt.xlabel('電影評分')
plt.legend(('喜好人數', '點贊人數')) 

# 10.電影評分與票房有何關係

x = data
x1 = data['imdb_score']
x2 = data['gross']
plt.scatter(x1, x2)
plt.xlabel('電影評分')
plt.ylabel('票房')

# 11.電影出品量前10的排名橫向柱狀圖

x = data
res = x.groupby('director_name').count().sort_values(by='color',ascending=False).head(10)['color']
res.plot(kind='barh')

# 12.電影出品量變化趨勢

x = data
x.groupby('title_year').count()['color'].plot(kind='line')