字符串(如DNA序列,蛋白質序列)的編碼和用於機器學習和神經網絡

在處理dna序列或這蛋白質序列時,經常須要把序列轉化爲數字,這樣才能造成矩陣輸入模型訓練,通常而言,有三種方法用於序列編碼:順序編碼,獨熱編碼,kmer編碼。python 1. 順序編碼 第一種順序編碼即便把atcg四種鹼基編碼成具體數據,如把atct編碼成[0.25, 0.5, 0.75, 1.0],其餘的如n能夠編碼爲0。web 首先處理序列,造成字符串strsvg # function to
相關文章
相關標籤/搜索