醫學圖像數據的質量一直是個老大難題。難以清理的數據制約着許多深度學習的應用。app
而實際上,深度學習自己就是清洗醫療數據的好幫手。機器學習
今天,咱們就來說一個案例,展現如何用深度學習迅速清洗一個雜亂的醫療圖像數據集。學習
案例的主角是胸部X光圖像。blog
因爲設備製造商的不一樣,胸部X光的圖像有多是水平的,也多是垂直翻轉的。他們可能會倒置像素值,也可能會旋轉。問題在於,當你處理一個龐大的數據集(好比說50到100萬張圖像)的時候,如何在沒有醫生查看的狀況下發現畸變?圖片
你能夠試圖編寫一些看似優雅高效的解決方案,例如:深度學習
在許多胸部X射線圖像的兩側有黑色邊框(由於大多數圖像的高度大於寬度),因此若是當底部有超過50個黑色像素行的時候,這幅圖像可能被旋轉了90度。可視化
這個規則看起來很是靠譜,但在實際運用中卻常常犯錯。原理
上面三幅圖中,只有中間的圖像存在「黑色邊框在兩側」的狀況,於是上面這一方案並不實用。方法
這些人爲制定的規則並不能解決咱們的問題。im
那麼,咱們是否是能夠利用機器學習來構建咱們沒法手寫代碼的解決方案呢?實際上,找出像圖片旋轉之類問題對機器來講是其實很是簡單的。像人類同樣,機器能夠很容易、而且幾乎完美地解決這些問題。
因此,使用深度學習來修復咱們的數據集是顯而易見的解決方案。
下面,我將向你展現這些技術的工做原理,以及如何用最少的時間和精力完成這些工做,並介紹一些正在使用的方法實例。
在這個案例中,我將使用CXR14數據集,這個數據集通過很是精心的策劃管理,但仍然包含了一些「壞圖」。因此我還會給你新的包括430種標籤的數據集,這樣你就不用擔憂其中暗藏的異常圖像了!
數據集連接:
https://nihcc.app.box.com/v/ChestXray-NIHCC
機器學習真的能解決這個問題麼?
開始以前,讓咱們先想想,這個問題對於機器學習來講真的很簡單麼?
考慮到大多數圖片都是正常的,你須要很是高的精度來防止排除過多正常的圖片。咱們的目標準確率是99.9%。
這難不難處理呢?咱們不妨問問本身:你可否想出一個簡單的可視化規則來解決這一問題?
顯然,區分貓狗這個問題就很難用一個簡單的可視化規則處理,這也是爲何咱們須要ImageNet數據集了。因爲圖像之間的區別可能很是大,區分貓狗的問題有太多複雜的因素須要考慮。