十分鐘帶你看遍世界大學排

時間 2020-03-31

標籤十分 10分世界大學欄目悠閒生活简体版

原文原文鏈接

大學，一直都是神聖的學習知識的殿堂，各個世界級名校都不斷地爲社會輸送着人才，今天咱們就來盤一盤世界大學的排名狀況。html

數據獲取

咱們這裏選取的就是上海交通大學的 ARWU 網站web

http://www.shanghairanking.com/ARWU2019.htmlapp

該網站包含了歷年的大學分數以及排名狀況。函數

經過分析頁面能夠發現，經過 pandas 的 read_html 函數來獲取相關信息是最爲方便的學習

table = pd.read_html(url)
college = table[0]
複製代碼

同時咱們還發現，大學所對應的國家數據是圖片，因此須要特殊處理下網站

def get_country_name(html):
    soup = BeautifulSoup(html,'lxml')
    countries = soup.select('td > a > img')
    lst = []
    for i in countries:
        src = i['src']
        pattern = re.compile('flag.*/(.*?).png')
        country = re.findall(pattern,src)[0]
        lst.append(country)
    return lst
複製代碼

最後咱們把獲得的數據進行下處理，去除掉不須要的字段，再增長年份字段等url

for i in range(2005, 2020):
    print('year', i)
    url = 'http://www.shanghairanking.com/ARWU%s.html' % i
    html = requests.get(url).content
    table = pd.read_html(url)
    college = table[0]
    college.columns = ['world rank','university', 2,3, 'score', 5]
    college.drop([2,3,5],axis = 1,inplace = True)
    college['year'] = i
    college['index_rank'] = college.index
    college['index_rank'] = college['index_rank'].astype(int) + 1
    college['country'] = get_country(html)
    college.to_csv(r'College.csv', mode='a', encoding='utf_8_sig', header=True, index=0)
複製代碼