基於數據空間的電子病歷數據融合與應用平臺web
包小源1,2, 張凱3, 金夢1,2, 謝雙蓮3, 宋鍇3數據庫
1 北京大學醫學信息學中心,北京 100191安全
2 國家醫療服務數據中心,北京 100191服務器
3 北京大學醫學部,北京 100191網絡
摘要:爲了創建高效可擴展且易於管理的數據融合與應用平臺,利用數據空間技術,按照數據敏感性將電子病歷數據按照原始數據空間、匿名數據空間、模型數據空間的框架進行集成、融合,對匿名數據進行二次分析與挖掘,並針對各數據空間設計實現了不一樣的存儲、安全保護、數據訪問機制。平臺已在國家醫療服務分析以及北京大學附屬醫院醫療能力、質量、效率的分析中獲得應用。數據結構
關鍵詞: 電子病歷 ; 數據平臺 ; 數據空間 ; 數據質量 ; 數據脫敏架構
論文引用格式:app
包小源, 張凱, 金夢, 謝雙蓮, 宋鍇.基於數據空間的電子病歷數據融合與應用平臺. 大數據[J], 2019, 5(6):47-61框架
BAO X Y, ZHANG K, JIN M, XIE S L, SONG K.A data-space based platform for the integration and application of electronic health records[J], 2019, 5(6):47-61機器學習
1 引言
我國電子病歷的應用愈來愈普遍,使用電子病歷數據進行臨牀研究、醫院管理以及數據共享利用的研究愈來愈常見。作到數據收集、數據質量控制、數據分析處理、分析模型發佈的「兼容差別、深刻利用」,是承擔國家醫療數據中心數據平臺建設任務的基本要求。其中「兼容差別」規則是指在數據輸入端,能夠讀入目前主流應用生成的數據文件格式,能夠識別語義相容的數據內容,不一樣版本不一樣標準的數據(如疾病編碼標準、手術編碼標準、病歷編碼標準)均可以向一個版本進行映射與轉換等;在輸出端,則能夠按照需求定製輸出接口與輸出格式,包括變量的定製、值的自定義等。「兼容差別」的規則主要用於應對我國因爲各類實際系統建設、應用差別所致使的數據差別,最大限度地兼容各個醫院的數據,並使之能在一個基準線上進行分析。同時,要對差別不大的數據(如病案首頁)、差別較大的數據(如電子病歷文檔以及病例系統數據)進行區分處理,最大限度地提升處理效率。「深刻利用」規則既要求設計可以集成、融合全部數據進行各個維度、各個層面的分析建模的平臺,又須要平臺的結構可以保護敏感數據,同時面向特定需求發佈匿名數據,進而利用各類優質資源進行數據挖掘分析、二次利用,並將分析結果、模型也做爲數據進行存儲、管理。
2 國家醫療數據中心繫統架構
國家醫療數據中心所得到的數據主要來自醫院的不一樣數據源,包括病歷系統、影像系統(PACS)、檢驗系統(LIS)等,數據類型也包括了文本、圖像、視頻等多種形式。對於同一家醫院,數據可能經歷屢次迭代,期間可能有錯誤數據的替換、缺失數據的補充等數據層面的操做。爲了管理分散、異構的數據,國家醫療數據中心創建了以數據空間技術爲基礎的三層結構,在層次內部,針對數據模式固定的數據採用數據倉庫進行管理。
數據空間是與主體相關的數據及其關係的集合,主體、數據集、服務是數據空間的3個要素。在數據模型上,內部的數據不依賴嚴格的數據模式,能夠以一種鬆散的數據模式來組織。在構建方式上,數據空間不須要提早提出全部可能的需求以設計合適的數據庫模式,而是在演化過程當中,根據新增的需求創建主體、數據集和服務三者之間的關係和邏輯,同時能夠根據不斷改變的需求,以較低的成本從新創建新的關係。數據空間包含圍繞數據集提供的服務,能夠對業務過程進行很好的分層和組織。
數據倉庫是一系列具備繼承性、主體性和持久性的數據集合,與數據空間不一樣,數據倉庫須要有固定的數據模式,對於數據的查詢效率有很好的提高,但對於數據變化的適應比較遲鈍,所以國家醫療數據中心僅對一些有固定數據模式的數據(如病案首頁)採用基於數據倉庫的管理。
目前國家醫療數據中心主要提供數據集成、匿名化處理及數據查詢與分析服務。爲保證敏感數據的安全,從數據存儲結構和結構內部脫敏操做兩個層面進行了處理。根據涉及的數據的敏感性,經過物理隔離的3層數據空間進行數據管理,即原始數據空間、匿名數據空間、模型數據空間。
原始數據空間的數據集爲直接從安全通道獲取的原始數據,這部分數據未通過任何脫敏操做,所以全部數據都以加密形式存儲,而且有物理隔離和嚴格控制的訪問策略。在這一層次主要進行數據清洗以及基本的數據有效性的校驗,所以在這一層次的數據迭代次數是最多的。符合數據有效性檢驗的數據均視爲合格數據,進行脫敏處理後,下發至匿名數據空間,使得數據迭代的成本降至最低。
匿名數據空間主要進行匿名數據的管理。首先去除相應字段,再使用訓練好的機器學習模型識別自由文本中的敏感信息,予以去除。將通過脫敏的匿名化數據輸入匿名數據空間,創建匿名數據庫;提取的敏感數據被存儲在與匿名數據空間有物理隔離的模型數據空間的敏感信息數據庫中。在匿名數據空間中,部分數據(如病案首頁)有較固定的數據模式,還需進行部分關鍵信息的抽取和加載,並存入數據倉庫。
模型數據空間的數據集爲下發的模型數據,根據用戶的需求,將所需的數據下發至用戶的虛擬空間,進行模型計算。模型數據空間整合用戶的需求,同時,這些需求也進一步完善了各數據空間的數據組織和管理。
各層次的數據存儲均使用多級存儲機制,採用Hadoop開發團隊開發的開源Hadoop分佈式文件系統(Hadoop distributed file system,HDFS)。在不一樣的物理磁盤上保存至少3份數據的備份,以保證數據的可靠性。
整體而言,因爲醫療數據格式多樣,國家醫療數據中心主要採用數據空間技術進行數據管理,對於其中數據模式較爲固定的部分,在層次內以數據倉庫的方式進行管理,提高查詢效率。
3層數據空間的功能如圖1所示。
圖1 3層數據空間的功能
3 基於數據空間結構和空間內功能的敏感信息保護
醫療數據涉及病人隱私,信息內容複雜,從安全通道得到的原始數據從自動清洗到數據分析與發佈,涉及多個數據處理環節,每一環節所需的數據結構均不一樣,涉及的敏感數據也不一樣,須要不一樣的數據安全級別。所以本文提出基於數據空間的數據管理,不一樣數據空間存在物理隔離,數據空間之間的數據流動也有詳盡的安全控制和日誌記錄。
對於敏感信息的保護,本文在兩個層面上進行實現。一是從數據存儲和管理結構上,根據數據的敏感程度,定義了3層數據空間:原始數據空間、匿名數據空間和模型數據空間;二是在數據空間中設置了多層次的脫敏處理及敏感信息的嚴格管理。除此以外,記錄全部操做生成的數據世系也可對每步操做進行回溯。
3.1 基於3層數據空間結構的敏感信息保護
3.1.1 原始數據空間
原始數據空間處理和存儲的數據集爲直接從安全通道得到的原始數據經自動清洗和標準化轉換後的結果數據集。這一數據空間中的輸入數據包含了可識別身份的敏感數據,所以安全級別最高。在這一數據空間中,主要進行敏感信息的檢測、提取,存儲以及數據匿名化處理,輸出匿名數據到匿名數據空間。本層數據空間存在物理隔離的數據層和應用層,這是因爲在抽取敏感信息的過程當中,國家醫療數據中心須要針對敏感信息進行必要的數據統計,統計結果存儲於統計數據庫中,並向部分通過嚴格安全審計的用戶開放統計數據的查詢功能,這一過程納入應用層的範圍。
3.1.2 匿名數據空間
匿名數據空間包含匿名化處理、匿名化數據存儲及匿名化數據下發過程,分爲數據層及應用層。數據層主要執行匿名化數據存儲和管理,應用層主要提供數據需求的審覈及定製數據的下發。
3.1.3 模型數據空間
模型數據空間主要處理數據請求、下發數據至用戶虛擬機以及對下發數據進行數據存儲。不一樣數據請求單獨創建數據庫文件,經過安全通道下發至我的工做區,同時在數據備份存儲空間備份。
3.2 數據空間的存儲、安全與訪問機制
3.2.1 存儲機制
數據空間包含如下數據。
(1)各醫院提交的原始數據
因爲各醫院病案室採用的文件歸檔系統不一樣(如DBase系統的DBF文件、Excel格式文件和CSV格式文件等),這部分數據通過自動清洗並生成元數據後,主要以文本文件形式進行存儲。
(2)各數據層中的數據
這部分文件已經通過清洗,造成了完整的數據結構,所以主要以數據庫形式進行存儲,常見的格式有MySQL、SQL Server數據庫文件格式。
(3)用戶使用過程當中生成的數據
這部分數據是用戶對我的數據庫操做產生的,主要以文件(如CSV)和數據庫(如MySQL、SQL Server)形式存儲。
在數據的存儲模式上,首先根據各數據空間中數據的敏感程度進行物理隔離的數據分區,將3層數據空間的數據嚴格存儲在不一樣的服務器集羣中,設立不一樣的安全機制。在各數據空間內部,主要採用分區、分片的分佈式存儲方式。
在數據的分區上,對數據量大、集成度要求高而數據查詢和分析又較爲頻繁的匿名數據空間的分區機制進行了較爲詳細的探索。在數據庫層面,最頻繁的查詢有2種:第一種是按醫院的多列數據查詢與提取,用於DRG計算、秩序列、TOPSIS等模型的計算;第二種是按主要疾病分區的數據查詢與提取,因爲主要疾病頻數的差別較大,所以在分區時須要考慮將頻數在前10位(或100位)的疾病按照歷史數據統計結果進行分區策略的動態調整。
基於這2種查詢模式,一般以醫院和主診斷來進行分區,其中醫院節點數目相對小,而主診斷的節點數目較大。在分配主分區鍵和次分區鍵時,常見的方法有2種:第一種是以醫院爲主分區鍵,以主診斷爲次分區鍵;第二種方法是以主診斷爲主分區鍵,以醫院爲次分區鍵。從並行計算的角度考慮,越分散查詢效率越高,但網絡開銷也會相應增大,此時要根據具體的需求平衡網絡開銷和查詢效率,例如提取某個醫院的某個疾病時,在集羣中可能只會集中在一臺機器上,可能會致使查詢效率降低;而在模型計算時,通常的查詢會分佈在多家醫院,所以查詢會被分發到不一樣節點上去。2種方法在網絡開銷和查詢效率上各有優劣,應注意其中的平衡點。主診斷數目相對節點數目龐大得多,須要專門配置映射文件,對分區進行映射轉換後進入數據庫。
3.2.2 安全機制
因爲3層數據空間自己是根據數據的敏感性劃分的,所以對於各層數據空間,本文設立了不一樣的安全機制,其中原始數據空間的安全級別最高,模型數據空間的安全級別最低,各層數據空間之間保持物理隔離。
在原始數據空間中,網絡層面運行在與其餘空間物理隔離的計算機集羣上,用戶認證等方面則從嚴格的審計機制、操做日誌記錄機制等多角度實現對原始數據的徹底隔離。查詢、處理等均侷限於數據庫,而文件則通過加密壓縮後,密碼文件獨立存放,非特殊權限或特殊緣由再也不打開或提取。
在模型數據空間中的安全保障機制方面,本文爲每一個用戶分配相互隔離的虛擬機,用戶以虛擬桌面的方式登陸,以實現我的數據的獨立、安全。針對每一個用戶提供不一樣的數據,在我的虛擬機上實現不一樣的應用,以解決整個平臺上多用戶的不一樣需求。
3.2.3 訪問機制
在訪問內容上,本文只提供對數據庫的訪問,各醫院上傳的原始數據文件均不開放對外訪問權限,數據庫訪問主要以B/S結構查詢。傳統關係查詢可使用Oracle BI等平臺型工具,將原始數據做爲後臺數據模型,直接將一些能夠維度化的列創建爲維度,在此模型下,直接用OBIEE客戶端對相關數據進行查詢、展示便可。元數據查詢也會提供B/S查詢接口,但只開放基本的統計數據,目前包含醫院上傳數據的問題、反饋次數、修改問題而帶入的新問題等。關鍵字查詢的接口依然是B/S結構,但其查詢結果以表關聯的方式返回,在該表上能夠查詢對應的數據條目。
模型數據空間中的訪問接口與其餘兩個數據空間沒有很大的區別,只是在用戶的數據權限(列、行、導出、計算、數據總量)方面,須要在大數據虛擬語言環境模型(model in virtual language environment of big data,MVLB)中進行監控,並記錄實際操做序列等數據。因爲訪問方式在接口方面區別不大,本文在MVLB環境中的入口訪問集羣框架設計方面,採用了相同架構、面向不一樣需求的定製化配置部署方式。
3.3 數據空間多結構數據集成與敏感信息保護
3.3.1 多結構數據集成
國家醫療數 據中心獲取的數據類型多樣,囊括了關係數據、半結構化數據以及非結構化數據(基於openEHR修正模型的集成邏輯框架),而在原始數據空間中,最重要的技術是對多結構的數據進行集成。
數據集成的方法主要有2種:全局視圖方式和局部視圖方式。考慮到病案首頁的格式是中華人民共和國衛生部規定的標準格式,雖然各地區對具體內容會有所調整,但其數據結構具備相對穩定性。本文采用了全局視圖的方式(即各醫院病案首頁數據模式向全局數據模式映射的方式),其步驟包括目標模式肯定、數據收集、源包裝器構造、並行集成執行及結果數據集的合併等。
數據空間具備數據組織鬆散的特徵,使用索引和映射查詢數據較爲低效。多數據集成針對數據空間中結構化較好、查詢頻繁的數據創建數據倉庫,利用數據倉庫查詢速度快的特色,提高數據查詢效率,實現高效、準確的數據查詢。對於數據空間中存儲的電子病歷文本數據,本文采用關係數據庫(SQL server)存儲並創建全文索引,以實現對病歷文本的檢索。
3.3.2 敏感數據提取和匿名化處理
首先參照敏感信息條目和國家電子病歷數據接口標準,提取原始數據中涉及我的信息的數據,將這一部分數據定義爲敏感數據,用於後續的操做。敏感信息條目的制定參考了美國HIPAA法案、國家標準GB/T 35273-2017《信息安全技術我的信息安全規範》以及相關文獻說起的敏感數據條目,並人工複覈了醫院上報的數據,最終肯定了包含我的信息(如姓名、年齡、聯繫電話、詳細地址等)、病歷識別號(如醫保卡號、病歷號、影像號等)、就診詳細日期(如入院日期、手術日期、出院日期)、就診過程隱私數據(如牀號、主治醫師姓名、手術醫師姓名等)在內的多項數據。而後對上交的包含自由文本的字段進行脫敏處理,在這一步,本文使用已有的機器學習方法,對數據進行兩遍掃描,第一遍進行元素值的特徵計算,第二遍將數據分爲敏感信息和非敏感信息,並去除敏感信息。
匿名化數據還要進行從新識別風險的評估。每次有新的數據源加入後,都進行一次全面的評估。在平常使用時,按期隨機抽取數據,以評估從新識別的風險,根據從新識別患者所須要結合的字段數來評估數據的安全性。
3.3.3 敏感數據關聯機制
將匿名數據空間中提取的敏感信息存入敏感信息數據庫後,會返回與存入信息對應的惟一ID,將此ID做爲識別碼與提取的敏感信息一併存入匿名數據庫,創建匿名數據庫與敏感數據庫的關聯。識別碼不做爲可下發字段,僅在有特殊需求時,做爲與敏感信息數據庫關聯的方式。在評估特殊需求時,要根據計算結果是否返回敏感信息進行嚴格的評估和審覈。
3.4 數據世系的生成與查詢
在數據世系信息的生成、查詢及管理方面,目前比較關心的是每個處理步驟都抽取了哪些數據、有多少許以及結果存儲在哪裏,所以針對每一箇中間結果集,都要記錄其查詢語句並進行反向計算,以便追蹤到起點或其前驅處理節點的信息。目前採用查詢語句與查詢結果一一關聯映射的方式實現數據世系的管理。爲實現數據世系的自動生成,須要在Perl或其餘高級語言的基礎上加一層命令解析器,這樣,每一次查詢及其結果都會被寫到日誌中,以後的數據世系信息均以專門的解析器抽取日誌文件的方式造成。每一個處理模塊完成任務處理後,都須要運行自動的日誌信息處理語句,其目的是識別原始程序中的查詢語句、查詢輸出目標、查詢輸入、當時運行該數據處理的程序自己等,而後在原始程序的特定位置,增長輸出到日誌文件的語句,這樣作的優勢是數據處理自己會專一於業務處理,而日誌輸出等常規、廣泛性要求都會經過系統來自動完成。
在原始數據空間中,只提取匿名數據進入匿名數據空間的過程也須要將查詢處理和處理結果的對應關係記錄下來,整個過程參照數據世系模型、數據集成指令(包括選項)的類型,進行業務數據世系的內容生成。
在模型數據空間中,經過基於環境支撐層對處理工具中嵌入處理日誌的強制記錄方式來實現我的空間的數據世系信息生成。另外,模型空間的處理定製化需求很是明顯,而處理方式很是複雜,所以目前在MVLB中,將數據世系的記錄方式簡化爲輸入數據、處理程序源碼(或指令序列)、輸出數據。
3.5 數據流動過程及處理流程
經過安全通道得到的原始數據在原始數據空間中進行數據清洗、入庫,造成關係數據,並下發至匿名數據空間,在匿名數據空間中進行匿名化處理,提取敏感信息,並保存匿名化數據。通過審計的用戶提出數據需求後,被提取的匿名數據下發至模型數據空間。若是用戶得到了隨訪數據查詢的許可,必要的敏感數據也將從敏感數據庫下發至模型數據空間。
數據在數據空間中的全部操做日誌都被記錄在以數據空間爲主鍵的日誌數據庫中,便於生成直觀的數據世系信息。總體系統框架及處理流程如圖2所示。
在原始數據空間中,經過安全渠道獲取的數據通過定製的數據包裝器框架,將文本、電子表格、數據庫文件、XML等格式的文件轉化爲可識別和導入的數據格式,以文本形式插入輸入數據庫。這一步須要驗證數據的完整性,對於缺失必填項的文件,則只存入元數據存儲空間備份,而不作導入操做,待相關醫院從新上傳補充缺失項的文件後,再導入數據庫。完整的數據文件導入輸入數據庫後,原始文件通過強密碼加密,存入元數據存儲空間。
進入輸入數據庫的數據將通過進一步的數據清洗,首先根據國家醫療數據中心發佈的數據接口標準對數據列定義進行數據類型的驗證和轉換,對於不符合定義數據格式的數據,必要時要求相關醫院進行自查和從新上傳。通過數據格式轉換的數據,將根據數據接口中對各部分數據的定義,創建關係數據表,造成多維度的數據,保存於原始數據關係數據庫,並進一步進行數據匿名化處理。除根據數據列定義去除涉及我的信息的數據列外,還對包含天然語言的文本使用深度學習識別姓名、地名等信息,並進行脫敏處理。將敏感信息存入敏感信息數據庫,生成惟一對應的ID,並將此ID與非敏感信息下發至匿名數據空間。
圖2 總體系統框架及處理流程
有關原始數據的一些必要的統計信息被存入統計數據庫,供有權限的用戶經過查詢系統進行查詢。原始數據空間框架及處理流程如圖3所示。
3.5.2 匿名數據空間框架及處理流程
匿名數據空間主要進行匿名數據的存儲與管理,將原始數據空間下發的脫敏數據存入匿名數據庫,並在此層進行模式固定的數據的集成。同時,能夠經過敏感數據ID在模型數據空間中查詢原始數據。
圖3 原始數據空間框架及處理流程
用戶經過模型數據空間向匿名數據空間發出的數據下發請求,此請求在應用層獲得處理。在查詢需求經過審覈後,按照申請的新數據字段,生成須要下發字段名和數據列列表,根據此列表,從匿名數據庫中提取相應的數據,記錄日誌並生成新版本號,將以版本號命名的數據做爲模型數據空間的輸入數據。匿名數據空間框架及處理流程如圖4所示。
3.5.3 模型數據空間框架及處理流程
在模型數據空間中,用戶我的提出數據申請後,會在初步審覈後生成包含所需字段名的請求,並提交給匿名數據空間處理。在模型數據空間進行的初步審覈主要審覈用戶是否具備獲取該字段的權限。當匿名數據空間經過審覈,肯定能夠提供相關數據列,並下發數據後,數據首先存入模型數據庫,並備份至數據備份存儲空間,隨後下發到用戶的虛擬機上。
用戶能夠在虛擬機上從請求的數據庫中提取須要的數據,並存入虛擬機的我的數據庫進行處理。其中,提取的數據也記錄操做日誌,以實現數據世系的追蹤。模型數據空間框架及處理流程如圖5所示。
圖4 匿名數據空間框架及處理流程
4 系統運行狀況
國家醫療數據中心利用3層數據結構已經平穩運行6年,3層結構業務及產出如圖6所示。原始數據層已經擁有成熟的數據接口工具,而對於未標註使用接口標準的數據,也已有了用於判斷數據接口標準的模型,國家醫療數據中心共收集並整合了全國總計500餘家醫院的數據。在匿名數據空間脫敏的過程當中,造成了用於數據脫敏的匿名語料庫和匿名知識庫。
對外發布的數據包括根據匿名數據空間及原始數據空間計算的數據質量報告以及模型數據空間用戶訓練的模型。自2013年以來,已經完成1 600餘份質量報告的發佈。經過模型數據空間提取和處理的數據,已經提供給了DRG模型、臨牀分層評價模型進行計算。
圖6 3層結構業務及產出
本文使用數據世系結構來表示數據產生和數據演變的過程,追溯模型數據空間計算結果的原始數據。數據世系做爲表示數據演變的技術,被普遍應用於互聯網及物聯網大量的數據管理中,用於追蹤數據的演變過程。根據用戶使用數據庫的版本號,首先能夠在數據備份存儲空間中找到原始數據,若是發現數據有問題,能夠從數據世系中找到匿名數據庫下發數據的時間、內容及版本號,判斷在下發時間點後有無數據更新,還能夠進一步經過匿名數據版本號,對應到原始數據空間中的數據。若是確認數據有誤,可反饋給相應醫院進行數據的迭代更新。
5 系統結構的設計思路
在架構選擇方面,國家醫療數據中心主要採用了基於數據空間的數據結構。當前有一些開源的醫療數據存儲解決方案,如應用比較普遍的架構openEHR,該架構是由國際openEHR組織於1999年提出的開放式電子健康檔案規範,它採用由參考模型和原型模型組成的兩層結構,以實現醫療領域知識和實際臨牀信息的分離,使信息模型具備高可擴展性。
國家醫療數據中心收集的數據是各醫院提交的臨牀數據,其關鍵不在於創建內容的邏輯關係,而在於如何存儲管理已有數據,進行進一步處理、分析及發佈。因爲openEHR更關注內容邏輯,對於數據的內容敏感度沒有嚴格的劃分,使得數據匿名化和發佈面臨較大困難,所以,本文並無選擇以openEHR架構爲基本框架,而採用了可以更好地體現數據敏感度的基於數據空間的3層結構,以較好地區別管理原始數據和匿名數據。
從傳統數據集成的角度考慮,傳統的數據庫管理模式通常須要在總體設計、全面標準化的基礎上,從數據源到目標平臺進行完整的設計,包括數據抽取、清洗、加載,並存放於標準的數據倉庫中。而數據空間管理與傳統的數據管理有如下4個區別:一是數據空間須要支持全部類型的數據;二是數據空間提供數據更新的能力,所以不像傳統數據庫對數據有徹底的控制能力;三是對於數據查詢的需求,數據空間只能根據數據的狀況返回最好的結果,而不必定都能返回準確的結果;四是數據空間須要有數據集成的能力,數據空間還能夠將用戶反饋加入數據管理的過程當中,使得數據空間能夠不斷演化,知足更多的需求。
在業務相對成熟的行業,使用傳統數據管理模式是很是有效的。可是,就醫療行業自己而言,其收集的數據不只包含大量的數據類型,已收集的數據也可能有部分數據列缺失的狀況(但此時非缺失的數據已經能夠用於分析),並且隨着學科發展而新出現的診療會呈現出新的數據內容、數據格式等(譬如近年來興起的基於基因技術的精準醫療就產生了大量的基因數據),加之對數據的需求也更加具體和複雜,在建設大數據平臺時須要聽從pay-asyou-go的方式進行,即邊建設、邊應用、邊改進、邊融合,進行漸進的、螺旋式的數據平臺建設。所以,在醫療行業使用數據空間管理,是更加符合實際狀況的。
在設計系統結構時,本文主要考慮數據敏感性。因爲我的的醫療數據具備獨特性,在匿名化過程當中不只須要考慮去除明確的涉及患者隱私的數據列,還要考慮從新識別的風險,即便用者經過結合多個數據列識別出患者的風險。例如根據患者在既往史和現病史中披露的就診醫院、時間和所作手術就能較準確地識別出患者。所以在系統設計上,應該考慮控制匿名化數據從新識別的風險。參考文獻討論了評估系統從新識別風險的3個方面:數據接收方的數據安全性、數據泄露對病人隱私侵犯的程度以及數據使用方從新識別患者的收益。而對於醫療數據,顯然數據泄露對病人隱私侵犯程度是極高的,所以設計系統架構時須要嚴格控制接收方數據的安全性,經過提升從新識別的成原本下降從新識別的收益。本文使用3層數據空間的結構,針對接收方數據的安全性,使用模型數據空間來管理用戶及用戶數據,以實現對用戶數據安全性的徹底掌控;針對提升從新識別的成本,則採用對匿名數據空間進行匿名化和按需下發數據來解決。
使用數據空間來管理數據也呈現出了一些問題。因爲在數據檢索和計算時不必定能返回準確的結果,數據空間具備必定的不肯定性,同時查詢效率也不如傳統數據管理模式高。針對這一問題,本文將部分數據模式固定的數據集成在匿名數據空間的數據倉庫中,解決了部分經常使用數據的查詢效率問題。另外,因爲數據空間具備數據優先、淡化模式的特色,數據質量也有所降低。本文在模型數據空間進行了基本的數據質量控制,可是有些數據問題在模型計算時才顯現,筆者仍然將這部分數據視爲合格數據,將反饋後更新的數據視爲這些數據的新版本進行管理。總之,使用數據空間做爲醫療數據管理的主要技術是符合實際狀況的,由於數據空間在保護了敏感數據的前提下,提供了更多二次利用的可能。它提供的pay-as-you-go的模式,能夠容納因爲學科進步、信息化水平提升而產生的新的數據。對於部分紅熟的數據模式,還能夠在數據空間內用數據倉庫進行優化,可以最大化地從數據中獲取信息。
6 結束語
從國際、國內大數據應用的趨勢考察,筆者發現大集成和大融合是臨牀數據管理的基本模式,而專項、細分的定製化分析與挖掘則是數據利用的基本方式。本文基於數據空間所構建的數據平臺正是順應了這一基本趨勢。大集成和大融合在原始數據空間、匿名數據空間完成,而定製化分析則在模型數據空間中實現個性化支撐。下一步將對智能數據管理方法作進一步探索,實現平臺對數據質量控制、數據集成融合、數據脫敏、基本數據分析的智能賦能,創建基於分類自治的索引框架,支持高效查詢,進一步提升平臺管理的效率,實現我的數據空間的易用性。