盤一盤十年數據庫流行度，哪款是你的最愛

時間 2019-12-16

標籤一盤數據庫流行最愛欄目 SQL 简体版

原文原文鏈接

準備寫一個系列，在年終歲尾之際，盤一盤你們或者是本人比較關心的一些數據。文章內容會包括數據獲取的過程和數據可視化結果。今天先來看看各大數據庫在過去一年的表現吧！html

數據獲取

全部的數據都來源自網站：db-engines.com/redis

一個數據庫流行趨勢統計網站。數據庫

Method 1

咱們先來看獲取數據方法一首先咱們能夠在下面地址中看到一個包含全部數據庫信息的表格bash

db-engines.com/en/rankingsession

而後能夠進入到每一個數據庫詳情頁面中，該數據庫歷年流行度數據都會在頁面加載以後包含在 JavaScript 的變量中

db-engines.com/en/ranking_…app

因此咱們能夠經過解析該 JavaScript 代碼來獲取每一個數據庫的歷年數據，同時爲了加快抓取速度，使用了異步請求

先抓取全部數據庫名稱信息，經過 pandas 的 read_html 方法能夠方便的讀取 html 中的 table 數據異步

import pandas as pd


mystr = ' Detailed vendor-provided information available'


def set_column3(column3):
    if mystr in column3:
        column3 = column3.split(mystr)[0]
    return column3


url = 'https://db-engines.com/en/ranking'
tb = pd.read_html(url)
db_tb = tb[3].drop(index=[0, 1, 2])[[0, 1, 2, 3, 4, 5, 6, 7]]

# 處理數據
db_tb[3] = db_tb[3].apply(set_column3)

# 保存數據
db_tb.to_csv('db_tb.csv')
複製代碼

異步抓取數據庫詳細信息async

async def fetch(session, url):
    async with session.get(url) as response:

        return await response.text()


async def get_db_data(db_name):
    url = 'https://db-engines.com/en/ranking_trend/system/%s' % db_name

    async with aiohttp.ClientSession() as session:
        res = await fetch(session, url)
        content = BeautifulSoup(res, "html.parser")
        content.find_all("script")
        db_data = content.find_all("script")[2].string
        src_text = js2xml.parse(db_data)
        src_tree = js2xml.pretty_print(src_text)
        data_tree = BeautifulSoup(src_tree, 'html.parser')
        data_tree.find_all('number')
        data = []
        for i in data_tree.find_all('number'):
            data.append(i['value'])

        date_list = gen_time('%s-%s' % (data[0], str(int(data[1]) + 1)))
        date_value = list(zip(date_list, data[3:]))
        d_data = zip([db_name for i in range(len(date_value))], date_value)

        await save_data(d_data)


def gen_time(datestart, dateend=None):
    if dateend is None:
        dateend = time.strftime('%Y-%m', time.localtime(time.time()))
    datestart=datetime.datetime.strptime(datestart, '%Y-%m')
    dateend=datetime.datetime.strptime(dateend, '%Y-%m')
    date_list = list(OrderedDict(((datestart + timedelta(_)).strftime(r"%Y-%m"), None) for _ in range((dateend - datestart).days)).keys())
    date_list.append('2019-12')
    return date_list


if __name__ == '__main__':
    db_tb = pd.read_csv('db_tb.csv')
    db_name = db_tb['3'].values.tolist()
    loop = asyncio.get_event_loop()
    tasks = [get_db_data(name) for name in db_name]
    loop.run_until_complete(asyncio.wait(tasks))
    loop.close()
複製代碼

Method 2

下面再來介紹第二種方法，方法更簡單，可是抓取時須要處理的地方更多些ide

咱們能夠直接訪問下面的地址，一樣的，在頁面加載完成後，會返回全部數據庫的歷年數據信息oop

db-engines.com/en/ranking_…

那麼咱們就能夠直接解析此處的 JavaScript 信息，獲取對應數據庫的數據便可

不過因爲有些數據庫的歷史數據有缺失，因此須要作特殊處理

for i in data_tree.find_all('object'):
        date_list = gen_time('%s-%s' % (year_list[0], str(int(year_list[1]) + 1)))
        data = []
        tmp_list = []
        db_name = i.find('string')
        if i.find('null'):
            null_num = len(i.find_all('null'))
            tmp_list = list(zip(date_list[:null_num], ['0' for i in range(null_num + 1)]))
            date_list = date_list[null_num:]
        for j in i.find_all('number'):
            data.append(j['value'])
複製代碼