【技術博客】Arxiv的新Paper獲取和機翻

目標

在[知識路書]項目中,咱們但願可以根據用戶感興趣的領域爲用戶推動該領域的最新文章。用戶能夠在瀏覽這些文章摘要的過程當中,將感興趣的文章加入到閱讀列表中。html

咱們要作的主要有兩個步驟:python

  1. 獲取Arxiv.org上某個領域的最新論文(因爲arxiv的國內訪問速度很慢,咱們使用一個腳本天天凌晨得到最新論文並存儲在本地數據庫中);數據庫

  2. 將文章的標題進行機翻;json

實現

獲取最新文章

arixv提供了獲取文章的接口api,咱們直接根據感興趣的領域調用便可,不一樣領域的代碼能夠在這裏得到(如cs.AI, cs.OS)。api

獲取某領域最新的文章,並對結果進行解析:url

query_str = 'cat:' + field
query = 'search_query=%s&sortBy=lastUpdatedDate&start=%i&max_results=%i' % (query_str,0,results_per_iteration)
with urllib.request.urlopen(base_url + query) as url:
	response = url.read()
parse = feedparser.parse(response)

以後咱們便能得到某篇文章的一些基本信息了:翻譯

如文章標題:code

paper_title = parse.entries[0]['title']

文章摘要:htm

paper_summary = parse.entries[0]['summary_detail']['value']

調用有道Api機翻

這裏咱們調用有道的api對文章的標題進行機翻,方便用戶的閱讀:blog

有道翻譯api的url爲

http://fanyi.youdao.com/translate?&doctype=json&type=&i=

爲了實現英文->中文轉換,type處應爲EN2ZH_CN ,咱們將要翻譯的信息放在i處便可;

返回信息爲

{
    "type": "EN2ZH_CN",
    "errorCode": 0,
    "elapsedTime": 1,
    "translateResult": [
        [
            {
                "src": "Knowledge Roadmap",
                "tgt": "知識的路線圖"
            }
        ]
    ]
}

參考

http://www.arxiv-sanity.com/

http://www.javashuo.com/article/p-rzzlyrzo-nm.html

相關文章
相關標籤/搜索