機器學習從蛋白序列預測蛋白分類(一)

一,背景與目標: 隨着測序技術的快速發展,GenBank等數據庫中存儲了大量基因、蛋白序列信息,其中大部分尚無標註,如何充分利用GenBank等數據庫現有數據資源,挖掘數據信息,爲精準醫療、藥物研發等生物大健康領域提供有價值的信息具有重要意義。目前這方面已有BLAST等生物信息技術可用,這裏希望嘗試機器學習技術在這方面的應用。 二,數據清洗與處理 數據來源於Kaggle競賽(https://www
相關文章
相關標籤/搜索