(轉)如何成爲頂級生物信息學家?

每過一段時間就要讀一遍,看看本身如今到底在哪一個等級了。php

前幾天去南京參加兩年一度的全國大會CCBSB2014,今年是第六屆,見到許多熟識的前輩和老朋友,也結識了很多新朋友。相比於兩年前在哈爾濱開的第五屆大會,參會人數又多了100多。連大會特邀報告算上,總共76位學者作口頭報告,其中30位學者我以前並不認識,這個比例正好是40%。領域裏的大會小會,不管什麼時候、何地,總有約40~50%的學者我不認識,這個比例近年來恆定不變,咱生信領域發展速度之快,因而可知一斑。70多位學者的報告所涉及的研究方向,大概至少有60多個,兩位或者多位學者從事一個小的研究方向的現象,很是少見。昨晚和有11年交情的好友一塊兒吃飯,你們回憶十年前國內生信開大會的場景,想了半天慶華來一句:那會兒你們好像沒啥能夠作的,哪像如今這麼多問題啊!因此咱生信領域如今真實的場景是:火打着,油門踩到底,檔掛到頂,無邊無際的荒原,使勁的狂奔,勇往直前;有條件的開法拉利,沒條件的開樂馳,實在沒條件的蹬個三輪兒也行,反正地盤兒有的是,誰搶着算誰的。兄弟我對這一現象總結:圈地運動。講這兒估計有人不高興了:大家生信咋作的這麼散呢?這個不是咱生信想作的散:問題實在太多,又不缺數據,本身感興趣的問題都沒解決,哪有時間管人家的東西啊?使勁兒的衝就得了。至於即將畢業,或者剛畢業的同行兄弟們,也別以爲沒肉吃了,你們就算這麼裸奔,也遠沒有涵蓋生信全部的方向,而且通常一個小領域往少了說能容納10位學者不算擠,那咱這領域的規模擴大10倍也照樣容得下。因此咱在這兒說一句:歡迎加入圈地運動(要不改爲「生信歡迎您」?)。html

***************************************************************************算法

講完廢話講正事。話說八號晚上參會的學者們開了一個「青年沙龍」,形式很活潑,討論了各類問題,其中忘記誰提了個問題,大體就是怎麼評價生物信息學者的水平。你們七嘴八舌說了半天,最後Shirley作總結,衆人一聽,有道理。因此回來以後Shirley就寫了篇博文《Levelsof Bioinformatics Research》,建議同行兄弟們讀讀,推薦指數五星。由於咱生信算是比較新的研究領域,又是交叉學科,通常來講正統搞計算的以爲你在方法上沒貢獻,搞生物的又以爲你其實也就是個修電腦的。話說到這,電話鈴兒響了,二樓打電話讓過去看一下電腦咋黑屏了。好嘛,蹬蹬蹬跑下樓,圍着電腦琢磨了半天,明白了:插頭沒插緊。擺平,回辦公室。所以交叉學科評價這是個問題,哪邊兒都不討好,給個醬油級的評價那已經算是給面子了。因此同行評議才合理,好在咱生信如今人也很多,創建同行評議的機制並不困難。兄弟我寫博客屬於踩西瓜皮式的寫法,滑哪兒寫哪兒,這篇咱儘可能忠於Shirley的原文,不改主要的觀點。數據庫

如何成爲頂級的生物信息學家?看你的研究。因此Shirley將生物信息學研究(注意,不是生物信息學者本人)的水平劃分紅五個層次。此外,Shirley不區分生物信息學(Bioinformatics)和計算生物學(Computational biology),所以這兩個概念不作區分。在這裏咱再重複一遍,生物信息學和計算生物學的區別,就是西紅柿炒蛋和蛋炒西紅柿的區別,您要以爲有區別,那看我嘴型:呵呵。工具

0級 (Level 0):爲建模、而建模(modeling for modeling’s sake。簡稱:渣級。Shirley在博客裏提到說「若是你記得功夫熊貓」,問題是我沒記得這個,腦子裏想的是《憨豆的黃金週》裏那段nothing, nothing, nothing… 原博舉的例子是,以前有人問:如今數據這麼多,能建模的東西一大把,那咱們該乾點啥呢?Shirley就問:你想解決啥問題?答:建模的問題。這就像我坐電梯看見認識的研究生,說小夥最近忙啥呢?答:作水稻呢。繼續問:具體研究的啥?不高興了,詫異:研究水稻啊!而後給我解釋了半天中國要研究水稻的必要性。我…兄弟我天天吃米飯還固定要研究水稻三遍呢。原文解釋,這個回答是OK的,若是科學家僅僅將本身當成數學家、統計學家、計算機科學家、物理學家,或者像我這樣用嘴巴研究水稻的吃貨,由於在這些學者各自的領域裏,確實有許多好的理論建模問題。但若是這些學者是認真對待生物信息學的研究,這個回答不OK。許多0級生物信息學家們歷來不讀或者不發表生物學期刊上的論文,也不參加生物學的會議,所以這個級別屬於「未入門級」。根據人以類聚,物以羣分的原則,0級生物信息學家們一般只閱讀本身或者其餘0級生物信息學家的論文,而且,而且引用也是自引或者被同級別的學者引用。所以這類研究就是浪費資源。學習

1級(Level 1):給數據、能分析。簡稱:菜鳥級。這類研究通常是分析本身或者合做者實驗室裏未發表的數據,並試圖得到新的生物學發現。相比與0級,這已經有很大的進步,而且是訓練生物信息學者最好的途徑之一。能夠練習將已有的生物信息學技術來作出真正生物學發現的技巧,學習更多的生信技術和生物學知識,能夠啓發、衍生出2級和3級的好課題。評價1級科研的功底和水平要看數據有多複雜, 是否須要生信人員寫一些程序和算法(而不是隻用他人的工具),生信分析在整個研究中的有重要性 (最重要的假設發現是否是由生物信息分析出來的,文章中生信圖表的個數),實驗與計算的結合程度 (實驗與計算 環環相扣,而不是高通量實驗數據得到完跟個生信分析就拉倒),以及研究中生物學的發現是否是真的有意思,等等。所以兄弟個人見解是,1級雖然是「入門級」,但很是很是重要,全部生信專業研究生的必經之路,非生信領域的學者或學生,能達到1級中已可算是高手,進階到1級上那就是百裏挑一了。大數據

2級(Level 2):想新招、玩數據。簡稱:肉鳥級。具備2級水準的生信研究有:1) 設計方法解決生物醫學相關大數據分析中普適、定量的問題。好比咱生信課本里經典的用於雙序列比對的Smith-Waterman算法等等;2) 設計算法來分析新的高通量技術所得到的數據,例如華大基因設計的用於二代測序短讀段 (read) 映射到基因組上的SOAP系列工具,這就是典型的2級工做;3) 從各類公共數據中經過整合創建數據庫或數據資源。這個太多了,生信領域各類專業、精心註釋的數據庫,都屬於2級的研究。2級比1級高的地方,在於1級只能幫助一個實驗室或者固定的、極有限的合做者,而2級的工做則能夠幫助數百甚至數千的生物學家。2級的工做沒必要須發表在頂級的期刊上,時間會證實一切,好比分子進化領域的經典軟件MEGA,每一年幾千的引用跟玩兒同樣。這些方法並不見得必需要很是新,利用已有的統計或者計算方法來解決新的生物學問題已經足夠保證其新穎性,但必須儘量保證用戶的友好性。開發者通常在發表以後還須要作很是很是多的工做,好比維護、升級,即便不在發表後續的論文。評價2級的生信研究工做不能數影響因子,但作的好卻比較容易被領域承認(例如,華大基因發表NCS對咱搞生信的來講未必承認,但人家的SOAP系列作的確定是專業水準的)。此外,2級的研究要作的好,生物信息學者通常須要專一於本身特定的方向,從而可以較好地瞭解領域內相關的、新的計算方法和實驗技術。整體來講,國內生信專業的博士畢業,通常起碼要作出2級下水平的工做,總得有點兒新玩意兒,否則想畢業幾乎是不可能的。而對於非生信領域的學者,從1級進階到2級幾乎是不可能的,咱生信人的飯碗,不是想砸就能砸的了的。因此對於業餘票友們來講,與其花精力試圖進階2級,還不如找專業學者合做更划算。ui

3級(Level 3):玩數據、做發現。簡稱:頂級。3級的生信研究通常是整合公共的高通量數據,利用至關精緻的方法來作出生物學發現。所以這樣的工做通常是從數據開始,實驗驗證結束。這就須要生物信息學傢俱備很是紮實的生物學知識,而且可以本身提出有意思的生物學問題。生物信息學家能夠領導一個生物學的項目,而且實驗學的合做者可以相信預測的正確性以及意義,並樂意開展實驗驗證。這個級別的研究通常都須要實驗驗證,否則頂級的期刊不收。對這類工做的評價,主要是看生物學的問題是否有意思,數據整合和分析是否有足夠的技巧和合理性,而且也能夠根據雜誌發表期刊的檔次(影響因子)來判斷。例如我在《環形RNA分子:論開掛在生命科學研究中的重要性》提到的工做,這是典型的3級研究。從2級進階到3級很困難,兄弟我目前正在努力中。spa

X級(Level X):玩科學、講政治。簡稱:神級。在這個級別,生物信息學家要在巨型項目產生的海量數據的整合和模擬中發揮關鍵做用。作這個級別工做的生物信息學家通常具備良好的1級和2級的研究記錄,而且在團隊研究中要具備非凡的領導才能。這些工做通常都發表在頂級的期刊,而且引用極好,在研究過程當中要注意協調方方面面。儘管有時生信對於這些論文的發表是重要的,但每每數據自己可能比方法更重要。例如期刊判斷論文要依據其數據量的大小以及潛在的引用,而不是生信。此外,這類工做更多的是反映第一做者老闆們的領導力以及在領域裏的地位,而不是第一做者的技術能力和創造力。因此X級論文的第一做者們每每並不會獲得足夠的承認。所以,這些工做中的一做在獨立研究以後,每每是必須創建科學的聲譽,而且與以前X級工做無關。學者參加一些X級的生信研究無可厚非,由於這些項目的成員通常在各自領域都是頂級學者。但若是學者只開展或者只發表X級的工做,那就代表該學者在政治方面的關注已經超過科學了。兄弟我舉例:典型的X級生信研究工做如艾瑞克•蘭德 (Eric Lander) 領銜的人類基因組草圖的公佈《Initialsequencing and analysis of the human genome》。艾瑞克是第一做者也是共同通信做者,由於這篇論文主要是他寫的,因此數據也天然主要是他分析的。這篇論文影響深遠,最重要的就是基本肯定了基因組學這類超級項目的研究範式以及論文的書寫格式,例如這類論文通常不帶後續的實驗驗證,因此也是有爭議。這也就是爲何國內總是講華大在灌水的緣由,第一,華大顯然是在灌水;第二,這個灌水模式是老外發明的;第三,那你很容易就能明白,其實老外灌的更狠;第四,你老外本身定的遊戲規則,你還玩不過華大,那你得懂「願賭服輸」這個道理。設計

Shirley總結,對於生物信息學者來講,通常從1級的研究開始,學習基本的生信技術;等到計算和生物學知識掌握差很少以後,能夠嘗試想2級和3級進階,而且有可能也參與X級的研究。若是條件容許的話,通常有成就的生物信息學家的研究會從1級作到X級,不會專一某一個級別(因此搞生信研究不能挑食)。也有許多生信學者包括Shirley本人也在開始作實驗而且產生實驗數據,這樣實驗的內容要拿去跟實驗學家的工做去比,而計算部分則可按照上述五個類別來評價。所以,當您再讀基因組和生信的論文,能夠帶着「這是什麼水平的生信工做」這個問題來閱讀。嘗試客觀的評價生信工做,而不是數論文發表期刊的影響因子。

   注:本篇博文的觀點不表明本人觀點,但兄弟我對這些觀點表示無比的贊同。從1級到2級,對於生信專業的研究生和教師們來講不難,但2級到3級卻極其困難,對於和我年齡至關的同行朋友來講,要跨越這一步幾乎是難比登天。以及邁這個坎的,恭喜;如我般還在苦苦修煉的,也沒必要心急,武功練到境界了,破關也就是水到渠成的事情。同勉。

轉載本文請聯繫原做者獲取受權,同時請註明本文來自薛宇科學網博客。
連接地址:http://blog.sciencenet.cn/blog-404304-834869.html

相關文章
相關標籤/搜索