打造數據科學做品集：用數據講故事

時間 2019-12-07

標籤打造數據科學故事简体版

原文原文鏈接

做者：Vik Paruchuri
譯者：Nick Tang
校對：EarlGrey
出品：PythonTG 翻譯組/編程派html

這是「如何打造數據科學做品集」系列教程的第一篇。若是以爲不錯，能夠訂閱咱們第一時間獲取最新更新。這個系列的文章都很長，建議先收藏再找時間詳細閱讀。若是你以爲譯文讀起來不舒服，能夠點此閱讀原文，並給咱們提些改建建議。python

數據科學公司在招聘時愈來愈看重我的做品集，緣由在於做品集是衡量實際能力最好的方式之一。好消息是，你徹底掌控着本身的做品集。若是付出一些努力，你就能夠打造一套令用人單位印象深入的高質量做品集。git

想要打造高質量做品集，第一步須要搞清楚應該在做品中展示什麼能力。公司但願數據科學傢俱有的能力（也就是他們但願做品集可以展現的能力）包括：github

溝通能力編程
與他人協做能力json
技術能力windows
數據推斷能力api
主觀能動性安全

一個好的做品集通常由多個項目構成，每個項目展現以上 1-2 個能力點。本文是教你怎樣打造一個全面的數據科學做品系列的第一篇。咱們將介紹怎樣打造做品集中的第一個項目，怎樣使用數據講述一個有效的故事。本篇結束時，你將擁有一個展現溝通能力和數據推斷能力的數據科學項目。app

用數據講故事

數據科學的本質是溝通。你經過數據獲得了一些洞察，而後採用有效的方式將其傳播給他人，並向其推銷你的解決方案。可見使用數據來說述一個有效的故事，是數據科學家最重要的技能之一。一個有效的故事可使你的洞察更有說服力，同時能幫助他人理解你的觀點。

數據科學中的故事須要圍繞着你發現了什麼，怎麼發現的，意味着什麼進行講述。舉個例子，你發現公司利潤去年降低了25%。僅僅闡述這個事實是不夠的，你必須說明爲何利潤會降低，能夠經過什麼方式來解決。

用數據講故事的要點以下：

搞清楚而且設置故事的上下文
從多個角度進行探索
有說服力的形象化展現
使用多種數據源
敘述的一致性

這裏最有效的工具是 Jupyter notebook。若是你對此不是很熟悉，請參考這個教程。Jupyter notebook 容許你交互式的探索數據，支持將結果分享到多個網站，包括 Github 。經過分享，他人能夠很好的與你協做，並擴充你的成果。

咱們會在文中使用 Jupyter notebook 以及一些 Python 數據科學庫，如 Pandas 和 matplotlib。

選擇項目主題

建立項目的第一步是決定主題。你須要選擇感興趣且有動力去研究的題目。咱們都知道爲了作項目而作，仍是真的感興趣去作，這之間有巨大區別。所以這一步值得多花點功夫，確保可以找到真正感興趣的東西。

尋找題目的一個好辦法是瀏覽不一樣的數據集，看看有什麼有趣的東西。這裏推薦一些好的站點：

Data.gov – 包含政府信息。
/r/datasets – 一個reddit的子集擁有很是多的有趣數據集。
Awesome datasets – Github上的一些數據集。
rs.io – 一個很棒的Blog，發佈了不少有趣的數據。

通常現實中，你拿到的常常不是一個完美的單個數據集。一般須要聚合不一樣的數據源，或者作大量的數據清理工做。當選題對你來講真的很是有意思，多花點時間去處理數據是很是值得的，同時在這個過程當中你也能夠炫耀一下技能。

本文咱們使用紐約市公立學校的數據，你能夠在這裏獲得它們。

選定題目

可以從一而終的完成項目是很是重要的。所以，限制項目的範圍很是關鍵，這可讓咱們清楚地知道咱們能夠完成它。

本文中，咱們着眼於美國高中生的SAT 成績以及其餘統計數據來作數據分析。SAT(Scholastic Aptitude Test) 是美國高中生申請大學前參加的一項考試。大學在做出是否入取決定時會參考考試成績。這個考試分爲三個部分，每部分 800 分，總分 2400 (雖然總分曾改來改去不少次，但在這個數據集裏還是2400)。各高中常常以 SAT 的平均成績進行排名，SAT 成績高表明着這個學區的高品質。

有人提出 SAT 對美國的某些種族人羣不公平，所以對紐約市的數據進行分析能夠幫組咱們進一步搞清楚 SAT 考試的公平性。

從這裏得到SAT數據及各高中數據。這將是項目的基礎，可是咱們還須要更多的信息來確保有說服力的分析。

補充數據

一旦找到了好題目，接下來去多找一些有助於這個題目或者能使你更進一步深刻研究的數據集。最好提早準備，以便在開始創建項目前擁有儘量多的數據。一般過少的數據意味着過早的放棄項目。

在這個項目裏，某個網站上就有多個相關數據集，包括了生源統計信息以及測試分數等。

這裏是全部將使用數據集的連接：

按學校排列的 SAT 成績 – 紐約市每所高中的 SAT 成績。
學校招生狀況 – 紐約市每所學校的招生數據。
數學考試成績 – 紐約市每所學校的數學測試成績。
班級大小 – 紐約市每所學校班級規模數據。
AP 考試成績 – AP（Advanced Placement）考試成績，經過 AP 考試能夠得到大學學分。
畢業數據 – 畢業學生比例，以及其餘信息。
生源信息 – 每所學校的生源統計信息。
學校調查 – 每所學校的父母，老師，學生的調查報告。
學區地圖 – 包含學區的地理分佈信息，此數據幫助咱們繪圖。

全部的這些數據集是相互關聯的，咱們能夠在分析前先組合他們。

獲取背景信息

在深刻分析數據以前，調查一些背景信息很是有用。本例中，咱們已知一些很是有用的信息：

紐約市有五個區，各自是獨立的區域。
全部學校分佈在各個學區裏，每一個區包含數十個學校。
數據集裏的學校並不是都是高中，所以咱們須要作一些數據清理工做。
每全部學校都有一個DBN (District Borough Number)惟一編號。
經過聚合每一個區的數據，咱們能夠繪製出各個區域之間的差別。

理解數據

爲了可以真正理解這些數據的上下文，你要花點時間去探索數據。上面每一個連接都有一些關於數據及相關列的描述。咱們手裏有高中生的 SAT 成績，以及生源信息等其餘數據集。

咱們能夠執行代碼來讀取數據。使用 Jupyter notebook 來探索這些數據，下面的代碼將：

遍歷每一個下載的數據文件
把文件數據讀入到Pandas DataFrame
將 DataFrame 統一放入一個Python字典

import pandas
import numpy as np

files = ["ap_2010.csv", "class_size.csv", "demographics.csv", "graduation.csv", "hs_directory.csv", "math_test_results.csv", "sat_results.csv"]

data = {}
for f in files:
    d = pandas.read_csv("schools/{0}".format(f))
    data[f.replace(".csv", "")] = d

數據讀入後，咱們能夠在 DataFrames 上使用 head 方法打印前 5 行數據：

for k,v in data.items():
    print("\n" + k + "\n")
    print(v.head())

能夠發現數據集中的一些明顯特徵：

大多數數據集包含 DBN 列。
一些字段對繪圖有用，特別是 Location 1，其中包含了座標信息。
一些數據集彷佛包含一個學校的多條信息(重複的 DBN )，這意味着咱們必須作一些預處理。

統一數據

爲了更容易的處理數據，咱們須要將全部的單個數據集集中到一個數據集裏。這樣可讓咱們更快的比較數據集之間的列。爲了作到這一點，第一步咱們須要找到一個統一的公共列。從上面的輸出結果來看，你會發現 DBN 出如今大多數的數據集裏，看起來能夠用做公共列。

若是咱們谷歌一下 DBN New York City Schools，會找到這個頁面，解釋了 DBN 是每個學校的惟一編號。當咱們探索數據集，特別是政府數據集時，爲了搞清楚每個列的意思，作一些調查工做是必不可少的。

如今有個問題，class_size 和 hs_directory 數據集沒有發現 DBN 字段。hs_directory 數據集只有 dbn 字段，咱們能夠經過重命名這個列或者把它拷貝到一個DBN 的新列來解決。而對 class_size 數據集，咱們須要採用其餘辦法來處理。

DBN 列看起來像這樣：

data["demographics"]["DBN"].head()

0    01M015
1    01M015
2    01M015
3    01M015
4    01M015
Name: DBN, dtype: object

咱們再看一眼 class_size 的前 5 行數據:

data["class_size"].head()

如上圖所見，看起來 DBN 其實是由CSD、 BOROUGH 和 SCHOOL CODE 組合而成。DBN 全稱爲 District Borough Number 。csd 字段表示 District，BOROUGH 字段表示 borough，再與 SCHOOL CODE 字段一塊兒最終組成DBN。

想洞察數據之間的這種關係並無什麼系統化的方法，只能通過探索和嘗試來找到答案。

如今咱們知道怎樣構建 DBN 了，能夠把它添加到 class_size 和 hs_directory 數據集裏：

data["class_size"]["DBN"] = data["class_size"].apply(lambda x: "{0:02d}{1}".format(x["CSD"], x["SCHOOL CODE"]), axis=1)
data["hs_directory"]["DBN"] = data["hs_directory"]["dbn"]

添加調查數據

最有趣的數據集之一，應該是學生、父母、老師的問卷調查數據，囊括了對每一個學校的安全程度、學術水平等等反饋數據。在組合數據集以前，讓咱們添加這些調查數據。現實工做中，分析數據的途中你常常會碰到你想要加入的有趣數據。使用Jupyter notebook 這樣靈活的工具，可讓你快速添加額外代碼，而且從新運行你的分析。

咱們將要添加調查數據到咱們的 data 字典裏，而後再組合全部的數據集。調查數據包含兩個文件，一個針對全部學習，一個是針對 75 區的學校。咱們須要寫一些代碼來組合。在下面的代碼中，咱們將

使用 windows-1252 編碼讀入全部學校的數據。
使用 windows-1252 編碼讀入 75 區學校的數據。
添加一個 flag 來數據來自哪一個區。
使用 DataFrames 的 concat 方法來合併以上數據。

survey1 = pandas.read_csv("schools/survey_all.txt", delimiter="\t", encoding='windows-1252')
survey2 = pandas.read_csv("schools/survey_d75.txt", delimiter="\t", encoding='windows-1252')
survey1["d75"] = False
survey2["d75"] = True
survey = pandas.concat([survey1, survey2], axis=0)

一旦咱們完成調查數據的合併，還有一個複雜的事情要處理。爲了方便進行比較和找出列直接關聯，咱們須要減小數據集中的列數。不幸的是，調查數據裏包含太多對咱們沒有用的列：

survey.head()

咱們能夠經過查看與調查數據一塊兒下載下來的數據字典文件，來找出咱們須要的重要字段去簡化列：

這樣咱們就能夠刪除 survey 中多餘的列：

survey["DBN"] = survey["dbn"]
survey_fields = ["DBN", "rr_s", "rr_t", "rr_p", "N_s", "N_t", "N_p", "saf_p_11", "com_p_11", "eng_p_11", "aca_p_11", "saf_t_11", "com_t_11", "eng_t_10", "aca_t_11", "saf_s_11", "com_s_11", "eng_s_11", "aca_s_11", "saf_tot_11", "com_tot_11", "eng_tot_11", "aca_tot_11",]
survey = survey.loc[:,survey_fields]
data["survey"] = survey
survey.shape

(1702, 23)

確保你可以理解每一個數據集包含什麼，相關列是什麼，能夠爲往後分析節省不少的時間和精力。

壓縮數據集

再次看一下數據集，咱們立刻發現一個新的問題：

data["class_size"].head()

class_size 中對應一個高中存在多行數據(及重複的 DBN 和 SCHOOL NAME )。然而 sat_results 裏每一個高中只有一條數據：

data["sat_results"].head()

爲了可以聯合數據集，咱們須要找到一種方式來保證一個高中對應一行數據。若是不這樣作，咱們將沒法比較 SAT 成績與班級大小。首先咱們須要更好地理解數據，而後作一些聚合。在 class_size 數據集裏，GRADE 和 PROGRAM TYPE 字段對於一個學校存在多個值。經過限制一個字段只有一個值，咱們能夠過濾掉大部分的重複行。在下面的代碼中，咱們將：

僅僅保留 class_size 中GRADE 字段是 09-12 的值。
僅僅保留 class_size 中 PROGRAM TYPE 是 GEN ED 的值。
按 DBN 進行group，計算每一個列的平均值，獲得每所學校平均的 class_size 值。
重置索引，將 DBN 做爲列從新加回。

class_size = data["class_size"]
class_size = class_size[class_size["GRADE "] == "09-12"]
class_size = class_size[class_size["PROGRAM TYPE"] == "GEN ED"]
class_size = class_size.groupby("DBN").agg(np.mean)
class_size.reset_index(inplace=True)
data["class_size"] = class_size

壓縮其餘數據集

一樣，咱們須要壓縮 demographics 數據集。這個數據集收集了同一個學校多年的數據，所以存在重複數據。咱們將僅僅挑選出 schoolyear 字段裏爲最近年份的，來去除重複的數據：

demographics = data["demographics"]
demographics = demographics[demographics["schoolyear"] == 20112012]
data["demographics"] = demographics

還須要壓縮 math_test_results 數據集。這個數據集按 Grade 和 Year 進行分割。咱們能夠只保留某一年中某個年級的數據：

data["math_test_results"] = data["math_test_results"][data["math_test_results"]["Year"] == 2011]
data["math_test_results"] = data["math_test_results"][data["math_test_results"]["Grade"] == '8']

最後，壓縮 graduation 數據集：

data["graduation"] = data["graduation"][data["graduation"]["Cohort"] == "2006"]
data["graduation"] = data["graduation"][data["graduation"]["Demographic"] == "Total Cohort"]

在真正開始項目工做以前，數據的清理和探索是相當重要。擁有一個良好的、一致的數據集會大大加快後續分析工做。

計算變量值

計算變量值對加快分析過程有兩個好處，讓往後進行比較更快，可以比較本來不能比較的字段。目前咱們要作的第一件事情是從 SAT Math Avg. Score、SAT Critical Reading Avg. Score、and SAT Writing Avg. Score 列來計算 SAT 總分。下面的代碼：

把每一個 SAT 成績中的列從字符串轉爲數字。
合計全部列到 sat_score 列，表明 SAT 總分。

cols = ['SAT Math Avg. Score', 'SAT Critical Reading Avg. Score', 'SAT Writing Avg. Score']
for c in cols:
    data["sat_results"][c] = pandas.to_numeric(data["sat_results"][c], errors='coerce')

data['sat_results']['sat_score'] = data['sat_results'][cols[0]] + data['sat_results'][cols[1]] + data['sat_results'][cols[2]]

接下里，咱們來解析每一個學校的座標位置，這個可讓咱們繪製每所學校的位置。下面的代碼：

從 Location 1 列解析出經緯度。
轉換經緯度爲數字。

data["hs_directory"]['lat'] = data["hs_directory"]['Location 1'].apply(lambda x: x.split("\n")[-1].replace("(", "").replace(")", "").split(", ")[0])
data["hs_directory"]['lon'] = data["hs_directory"]['Location 1'].apply(lambda x: x.split("\n")[-1].replace("(", "").replace(")", "").split(", ")[1])

for c in ['lat', 'lon']:
    data["hs_directory"][c] = pandas.to_numeric(data["hs_directory"][c], errors='coerce')

如今，咱們能夠從新打印每個數據集來看看：

for k,v in data.items():
    print(k)
    print(v.head())

合併數據集

如今咱們完成了全部的準備工做，可使用 DBN 列來將數據集合並在一塊兒了。合併後咱們將得到一個有着數百個列的數據集。合併時注意一些數據集存在缺失部分高中的數據。爲了避免丟失這部分數據，咱們須要使用 outer join 來合併數據集。在現實世界裏，數據缺失是很常見的。有能力推理和處理缺失數據是做品集中重要的展現部分。

你能夠從這裏瞭解不一樣類型的 join 。

下面的代碼中，咱們將：

遍歷 data 字典裏的每一項。
打印非惟一 DBN 的數量。
決定 join 的策略，inner 仍是 outer。
以 DBN 來 join 全部的數據集，存於 DataFrame full。

flat_data_names = [k for k,v in data.items()]
flat_data = [data[k] for k in flat_data_names]
full = flat_data[0]
for i, f in enumerate(flat_data[1:]):
    name = flat_data_names[i+1]
    print(name)
    print(len(f["DBN"]) - len(f["DBN"].unique()))
    join_type = "inner"
    if name in ["sat_results", "ap_2010", "graduation"]:
        join_type = "outer"
    if name not in ["math_test_results"]:
        full = full.merge(f, on="DBN", how=join_type)

full.shape

sat_results
0
demographics
0
graduation
0
hs_directory
0
ap_2010
1
survey
0
class_size
0

(396, 174)

添加值

如今咱們有了 DataFrame full，幾乎包含全部咱們須要信息的。可是，仍然有部分字段的數據是缺失的。例如咱們想將 AP 考試的結果與 SAT 成績關聯到一塊兒的話，咱們須要將列轉化爲數字，而後填入全部缺失的數值：

cols = ['AP Test Takers ', 'Total Exams Taken', 'Number of Exams with scores 3 4 or 5']

for col in cols:
    full[col] = pandas.to_numeric(full[col], errors='coerce')

full[cols] = full[cols].fillna(value=0)

接着，咱們計算 school_dist 列，獲得學校的區號。以後咱們將使用這個數據按區去匹配學區，繪製學校的的統計數據。

full["school_dist"] = full["DBN"].apply(lambda x: x[:2])

最後咱們用全部列的平均值，來填寫 full 中其餘的缺失值：

full = full.fillna(full.mean())

計算關聯性

計算列之間的關聯性，是探索數據集和檢查列相關度的好方法。這個方法能夠告訴你哪一個列與你感興趣的列有緊密關係。咱們可使用 Pandas DataFrames 提供的 corr 方法來計算得分。得分越接近 0，表示越沒有相關性。越接近 1，則正相關性越強，越接近 -1，則負相關性越強：

full.corr()['sat_score']

從上面的數據咱們洞察到一些須要進一步研究的東西：

總錄取人數與 sat_score 有很強的相關性。這有點令咱們驚訝，在咱們的認知中，越小的學校，應該越注重於學生教育，分數應該更高才對。
女性百分比（female_per）與 SAT 成績成正比，男性比例(male_per) 則相反。
調查反饋數據與 SAT 成績沒有什麼相關性。
SAT 成績中有顯著的種族不平等性(white_per, asian_per, black_per, hispanic_per)。
ell_percent 與 SAT 成績有強烈的負相關性。

以上每一項都是一個潛在的探索方向，均可以使用數據來敘述一個故事。

設定上下文

在咱們深刻數據以前，要爲本身以及讀者設定一個上下文。使用可探索的圖表或者地圖是一個好的方式。在本例中，咱們按學校位置繪製出地圖，這能夠幫組咱們理解即將探索的問題。

下面的代碼：

設立地圖中心爲紐約市
爲每所學校添加一個標記
顯示地圖

import folium
from folium import plugins

schools_map = folium.Map(location=[full['lat'].mean(), full['lon'].mean()], zoom_start=10)
marker_cluster = folium.MarkerCluster().add_to(schools_map)
for name, row in full.iterrows():
    folium.Marker([row["lat"], row["lon"]], popup="{0}: {1}".format(row["DBN"], row["school_name"])).add_to(marker_cluster)
schools_map.save('schools.html')
schools_map

這幅地圖頗有幫助，但很難看出哪一個地區的學校最多。所以，咱們製做一副熱力圖：

schools_heatmap = folium.Map(location=[full['lat'].mean(), full['lon'].mean()], zoom_start=10)
schools_heatmap.add_children(plugins.HeatMap([[row["lat"], row["lon"]] for name, row in full.iterrows()]))
schools_heatmap.save("heatmap.html")
schools_heatmap

學區地圖繪製

熱力圖對於繪製梯度差別很方便，可是咱們但願使用更加結構化的方式，來繪製城市中不一樣學校 SAT 成績的區別。學區是一個很好的可視化選擇，由於每一個學期的管理各異。紐約市有數十個學期，每一個學區就是一個小的地理範圍。

咱們能夠根據學期計算 SAT 成績，而後將其繪製到地圖上。在下面的代碼中，咱們將：

根據學區對 full 進行分組
計算每一個學區的行均值
刪除 school_dist 字段中的前導 0 ，方便與地理區域數據進行匹配

district_data = full.groupby("school_dist").agg(np.mean)
district_data.reset_index(inplace=True)
district_data["school_dist"] = district_data["school_dist"].apply(lambda x: str(int(x)))

如今咱們能夠繪製每一個學區的平均 SAT 成績了。爲此，咱們讀取 GeoJSON 格式的數據，獲取每一個學區的形狀，而後經過 school_dist 列將 SAT 成績與學區形狀關聯在一塊兒，最後繪製出想要的圖形：

def show_district_map(col):
    geo_path = 'schools/districts.geojson'
    districts = folium.Map(location=[full['lat'].mean(), full['lon'].mean()], zoom_start=10)
    districts.geo_json(
        geo_path=geo_path,
        data=district_data,
        columns=['school_dist', col],
        key_on='feature.properties.school_dist',
        fill_color='YlGn',
        fill_opacity=0.7,
        line_opacity=0.2,
    )
    districts.save("districts.html")
    return districts

show_district_map("sat_score")

入學率與 SAT 成績

繪製完每一個學員的位置，並按學區繪製出 SAT 成績以後，咱們就設定了分析的上下文。閱讀咱們分析報告的人將能更好地理解數據集背後的上下文。接來下，咱們進行此前提到的分析。第一個是學校的學生數量與 SAT 成績之間的關係。

可使用散點圖，來比較學校的入學率和 SAT 成績。

%matplotlib inline

full.plot.scatter(x='total_enrollment', y='sat_score')

咱們發現，左下方有大量的數據點彙集，表示低入學率低 SAT 成績。除此以外，SAT 成績和總入學率之間彷佛只有一點正相關。將相關性繪製出來能夠發現意想不到的規律。

咱們能夠獲取低入學率、低 SAT 成績的學校名稱，進行進一步的探索。

full[(full["total_enrollment"] < 1000) & (full["sat_score"] < 1000)]["School Name"]

谷歌搜索結果顯示，這些學校中大多數是針對正在學習英語的學生，所以入學率也低。這一結果告訴咱們，並非說總入學率與 SAT 成績相關，而是學校中的學生是否以英語爲第二外語。

英語學生與 SAT 成績

既然咱們知道了一個學習中英語學生的比例與較低的 SAT 成績相關，能夠進一步做探索。ell_percent 列是每一個學校中英語學生的比例。咱們繪製一副散點圖來分析兩者之間的關係。

full.plot.scatter(x='ell_percent', y='sat_score')

看上去有一些學校的英語學生比例很高，同時平均 SAT 成績卻很低。咱們能夠從學區層面對此進行調查，弄清每一個學區中英語學生的比例，而後檢查是否與根據學區繪製的 SAT 成績圖相匹配。

show_district_map("ell_percent")

從中能夠看出，英語學生比例低的學區，SAT 成績通常比較高，反之亦然。

調查分數與 SAT 成績

咱們能夠合理地假設，學生、家長和老師調查的結果與 SAT 成績與較大的相關性。成績預期高的學校通常 SAT 成績也高。爲了驗證該假設，咱們結合 SAT 成績和各類調查結果進行繪圖：

full.corr()["sat_score"][["rr_s", "rr_t", "rr_p", "N_s", "N_t", "N_p", "saf_tot_11", "com_tot_11", "aca_tot_11", "eng_tot_11"]].plot.bar()

使人意外的是，相關性最高的兩個因素是 N_p 和 N_s，即參與調查的家長和學生的數量。兩者與總入學率之間均呈強相關性，所以可能會受到 ell_learners 的影響。相關性強的其餘指標是 saf_t_11 。這是學生、家長和老師對學校安全性的評價。一所學校越安全，學生更容易安心在其中學習。可是溝通、成績預期等其餘因素與 SAT 成績之間沒有任何相關性。這或許說明紐約市在調查時的問題設計不妥，或者是調查因子就不正確（若是他們的目標是提升 SAT 成績的話）。

種族和 SAT 成績

還有一個分析角度，就是種族和 SAT 成績。兩者之間有很大的相關性，可視化後將有助於理解背後的緣由：

full.corr()["sat_score"][["white_per", "asian_per", "black_per", "hispanic_per"]].plot.bar()

結果顯示，白人和亞洲學生的比例越高，SAT 成績就越高，而黑人和拉美裔學生比例越高，SAT 成績就越低。對於拉美裔學生來講，緣由多是近來移民的數量較大，其中多爲英語學生。咱們能夠按地區繪製拉美裔的比例，來驗證相關性。

show_district_map("hispanic_per")

拉美裔比例彷佛和英語學生比例之間有必定相關性，可是要肯定的話則須要作深刻的分析和研究。

性別差異與 SAT 成績

最後一個分析角度是性別與SAT 成績。咱們注意到女性比例更高的學校有更高的 SAT 成績。咱們能夠用一個柱狀圖來呈現：

full.corr()["sat_score"][["male_per", "female_per"]].plot.bar()

爲了挖掘更多信息，咱們以 female_per 和 sat_score 列爲軸繪製散點圖：

full.plot.scatter(x='female_per', y='sat_score')

在圖中，咱們發現了一些擁有高比例女性和高 SAT 分數的學校。能夠這樣獲取這些學校的名字：

full[(full["female_per"] > 65) & (full["sat_score"] > 1400)]["School Name"]

谷歌搜索顯示，這些學校屬於表演藝術的精英學校。因此能夠同時解釋這些學校有較高的女性佔比以及較高的 SAT 分數。

AP 成績

目前爲止，咱們已經考慮了生源方面的分析角度。另外一個方向是研究學生參加 AP 考試與SAT 成績的關係。兩者之間應該是相關的，學習成績好的學生，SAT 成績也應更高。

full["ap_avg"] = full["AP Test Takers "] / full["total_enrollment"]

full.plot.scatter(x='ap_avg', y='sat_score')

看起來兩者之間確實是正相關。右上方的學校頗有趣，他們的 SAT 成績很高，學生參加 AP 考試的比例也很高。

full[(full["ap_avg"] > .3) & (full["sat_score"] > 1700)]["School Name"]

谷歌搜索顯示，它們大多數屬於須要考試才能入學的名牌學校。因此這些學校有高的 AP 考試比例也是理所固然的。

故事總結

數據科學的世界裏，故事毫不會徹底結束。把你的分析分享給其餘人，別人能夠就職何感興趣的方向進一步擴充和塑造你的分析。好比本文中就有不少你能夠繼續進行挖掘的方向。

入門用數據來說故事最好的方式，就是嘗試擴充或者複製其餘人的分析。若是你決定這麼作，很是歡迎你擴展本文的分析，來看看你還會有什麼發現。若是你這麼作了，請在下面留言。

下一步

若是你已經學到這裏了，表明你已經理解如何用數據講故事和怎樣打造你的數據科學做品集。一旦你完成了你的數據科學項目，請將它傳到 Github，這樣別人就能夠與你協做了。

本文首發於編程派公衆號及網站。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。