在[知識路書]項目中,咱們但願可以根據用戶感興趣的領域爲用戶推動該領域的最新文章。用戶能夠在瀏覽這些文章摘要的過程當中,將感興趣的文章加入到閱讀列表中。html
咱們要作的主要有兩個步驟:python
獲取Arxiv.org上某個領域的最新論文(因爲arxiv的國內訪問速度很慢,咱們使用一個腳本天天凌晨得到最新論文並存儲在本地數據庫中);數據庫
將文章的標題進行機翻;json
arixv提供了獲取文章的接口api,咱們直接根據感興趣的領域調用便可,不一樣領域的代碼能夠在這裏得到(如cs.AI, cs.OS)。api
獲取某領域最新的文章,並對結果進行解析:url
query_str = 'cat:' + field query = 'search_query=%s&sortBy=lastUpdatedDate&start=%i&max_results=%i' % (query_str,0,results_per_iteration) with urllib.request.urlopen(base_url + query) as url: response = url.read() parse = feedparser.parse(response)
以後咱們便能得到某篇文章的一些基本信息了:翻譯
如文章標題:code
paper_title = parse.entries[0]['title']
文章摘要:htm
paper_summary = parse.entries[0]['summary_detail']['value']
這裏咱們調用有道的api對文章的標題進行機翻,方便用戶的閱讀:blog
有道翻譯api的url爲
http://fanyi.youdao.com/translate?&doctype=json&type=&i=
爲了實現英文->中文轉換,type
處應爲EN2ZH_CN
,咱們將要翻譯的信息放在i
處便可;
返回信息爲
{ "type": "EN2ZH_CN", "errorCode": 0, "elapsedTime": 1, "translateResult": [ [ { "src": "Knowledge Roadmap", "tgt": "知識的路線圖" } ] ] }