數據預處理——數據集分析

關於數據集 最初的ACM論文數據集中,包含的數據有論文的ID、標題、摘要、關鍵字、引用關係、CCS分類,以及論文摘要中句子級別的子空間標記(研究背景、研究問題、貢獻、方法、實驗)。但是沒有論文的year,venue屬性,即論文發表的年份和發表的期刊或會議信息,所以需要再去爬取或者直接蒐集數據。 第一個想法是直接蒐集論文數據集,然後找到兩個數據集之間的論文匹配關係。我們選擇添加鏈接描述作爲數據來源。
相關文章
相關標籤/搜索