醫學語義庫創建對醫學人工智能的重要性

前幾天經朋友介紹與一搞醫療人工智能的哥們聊天,對方大談了一番人工智能在醫療方面的應用,言語間充斥着各類人工智能相關的術語,尤爲是醫學文本的天然語言處理,包括電子病歷後結構化的處理等,可是對醫療專業方面言之甚少。我聽了半天后忍不住問了一句「大家的醫學語義庫是怎麼創建和組織的?」那哥們兒愣了一下說「咱們按照ICD10創建的,但這不重要,最重要的是咱們的人工智能技術和架構」。我頓時無語了,很快結束了談話。 算法

人工智能技術脫離了醫療本質就不能稱之爲醫療人工智能。作醫學文本天然語言處理,不搞好醫學語義庫建設,等於學了半天英語可是不背英語單詞同樣,況且醫學的語義還不是外行人看到的那麼簡單,今天在機場空着,正好說說個人見解。 架構

首先,醫學語義庫的創建在於醫學語義的理解,在外行看來醫學語義庫只須要把臨牀上用到的各類術語進行窮舉並創建列表後就能夠了。可是在我看來不是這麼回事,窮舉醫學術語不是不能夠,只是要考慮到術語窮舉後並不表明了對術語所表達的含義進了理解。醫學術語是創建在對醫學概念的理解基礎上而造成的,每一個概念能夠有1~n個術語,每一個術語包含1~n個關鍵詞,關鍵詞又分爲了包含關鍵詞和排除關鍵詞,每一個關鍵詞又分爲顯性含義和隱性含義2類。其邏輯關係以下:併發

 

舉個簡單例子,臨牀上的一個診斷——急性闌尾炎,在概念上涵蓋了幾個意思:首先是闌尾炎症,包括瞭解剖部位和病理病變類型,其次,是急性的,不是慢性,最後還包含了一個隱性含義,即該闌尾炎是單純性的,沒有發生化膿和穿孔,更沒有腹膜炎等併發症。這個概念在術語上包括急性闌尾炎、闌尾炎急性發做、單純性急性闌尾炎等術語,而且與急性化膿性闌尾炎等概念有明確差別。相同概念下多個術語能夠包含相同或相近的關鍵詞,且關鍵詞必須區分包含關鍵詞和排除關鍵詞,而排除關鍵詞每每又是隱含關鍵詞,好比對急性闌尾炎必須包含的排除關鍵詞有穿孔、化膿、腹膜炎等以示區別。 編碼

其次是須要在醫學語義庫基礎上創建不一樣應用領域的知識體系,好比常見的ICD編碼知識體系和臨牀診斷知識體系。國內目前有一些作醫學人工智能的團隊在作臨牀診斷對ICD編碼轉換,每每直接採用臨牀診斷術語與疾病名稱術語進行匹配的方式進行處理,不是不能夠,在部分狀況下是合適的,可是會存在一些錯誤和困難很難解決。由於臨牀診斷和ICD編碼是2套不一樣的知識體系,要作好轉碼工做,不能簡單採用匹配等方式解決。要完全解決就必須從本質上下手,首先要意識到ICD和臨牀診斷兩者是2個不一樣概念,不能採用匹配等算法直接處理,其次須要根據ICD的編碼原則創建知識體系,即創建基於語義基礎上的組織規則。最後要創建ICD疾病概念與臨牀診斷概念之間的邏輯關係和規則,從醫學概念上去創建兩者的關聯關係,而不是單純從文字上去創建。 人工智能

可能有人要說:有必要這麼複雜地去處理嗎?(包括前面那哥們也這麼問)個人回答是確定的,絕對有必要。爲何醫學要學5年,而普通工科只學4年,爲何醫學生畢業後能夠轉行,包括幹信息化,但歷來沒有據說過搞信息化的最後能改行搞醫學。這是爲何?緣由很簡單,醫學須要大量的專業基礎知識來構建醫學概念和知識體系,而且醫學與其餘行業有着不一樣的思惟方式,因此信息專業的人很容易用非醫學的思惟方式考慮和理解醫學的內容,再加上對醫學概念的理解困難甚至錯誤,出現誤差就是意料之中的了。 blog

有人可能又要說,咱們如今這樣作不是也挺好的嘛,臨牀上也能用啊。我只能說可用不表明方法正確。不正確的方法限制了將來的深化和發展。如今能用不表明將來不被淘汰,只要有意識到這點的企業或團隊,按照正確的途徑走下去,在初期可能有很多困難,可是一旦越過這個坎後面就是一片坦途,而不正確的的方法,早晚是一個死衚衕。基礎

相關文章
相關標籤/搜索