分享一個開源的古詩詞數據庫(約7w+古詩詞/3k+詩人)

項目的Github地址:poetrygit

古詩詞數據庫

這個古詩詞數據庫是2017年從古詩文網爬取下來的,目前的數據總量雖不及古詩文網,但其詩詞數據進行了必定的清洗整理和格式化,方便給須要的人作研究或者作些創意。這個古詩詞數據庫目前主要有73281首古詩詞和3156個詩人的詳細數據,而且已經應用在兩個應用上:詩鯨Android客戶端和詩鯨微信小程序github

image

數聽說明

1.gushiwen 文件夾

這個文件夾下面是爬蟲爬取的原始內容,其中 view 文件夾裏面是一首首古詩,author 文件夾裏面是一個個詩人,ju 文件夾裏面是一些詩詞名句。數據庫

2.image 文件夾

這個文件夾下面是是人的頭像圖片,image_xxx.jpg表示這是編號爲xxx的詩人的頭像URL地址。小程序

3.data 文件夾

這個文件夾是目前最新的整理數據,其中子目錄 poetry 裏面是一首首古詩,poet 裏面是一個個詩人,aio (all in one) 存放的文件是將詩人和詩詞數據整理到一個文件的結果。微信小程序

4.其餘文件夾

其餘文件夾中的內容是爲了應用向下兼容而保留的舊版本的整理數據,能夠不用關注。bash

數據結構

1.詩詞數據

id是詩詞在古詩文網上的索引(最近古詩文網改版了,已經不是用id了),name是詩詞的名稱,content是詩詞的內容,dynasty是詩詞的朝代,star是數據爬取時這首詩詞的點贊人數,poet是詩人的信息,fanyi是詩詞的註釋和釋義等數據,shangxi是詩詞的賞析,about是關於這首詩詞的其餘內容,例如詩人的創做背景等,在古詩文網凡不是詩詞釋義和詩詞賞析的內容都會歸總到關於詩詞的內容中。微信

{
  "about": "創做背景\n\n  唐玄宗天寶初年,李白xxx",
  "content": "君不見,黃河之水天上來,奔流到海不復回。xxx",
  "dynasty": "唐代",
  "fanyi": "譯文\n你難道看不見那黃河之水從天上奔騰而來,波濤翻滾直奔東海,從再也不往回流。xxx",
  "id": 7722,
  "name": "將進酒",
  "poet": {
    "desc": "李白(701年-762年),字太白,號青蓮居士,唐朝浪漫主義詩人,被後人譽爲「詩仙」。xxx",
    "id": 247,
    "image": "https://raw.githubusercontent.com/hujiaweibujidao/poetry/master/image/image_247.jpg",
    "name": "李白",
    "star": 0
  },
  "shangxi": "鑑賞\n\n  將進酒,唐代之前樂府歌曲的一個題目,內容大多詠唱飲酒放歌之事。xxx",
  "star": 32615,
  "tags": [
    "樂府",
    "唐詩三百首",
    "詠物",
    "抒情",
    "哲理",
    "宴飲"
  ]
}
複製代碼

2.詩人數據

id是詩人在古詩文網上的索引(最近古詩文網改版了,已經不是用id了),name是詩人的姓名,desc是詩人的簡介,content是詩人的詳細介紹,dynasty是詩人的朝代,star是數據爬取時這個詩人的點贊人數。數據結構

{
  "content": "軼事典故\n\n姓名由來\nxxx",
  "desc": "李白(701年-762年),字太白,號青蓮居士,唐朝浪漫主義詩人,被後人譽爲「詩仙」。xxx",
  "dynasty": "唐代",
  "id": 247,
  "image": "https://raw.githubusercontent.com/hujiaweibujidao/poetry/master/image/image_247.jpg",
  "name": "李白",
  "star": 4895
}
複製代碼

LICENSE

GNU General Public License version 3post

Copyright (c) 2018 Javayhu. All rights reserved.spa

相關文章
相關標籤/搜索