導讀
元數據管理為健康醫療大數據資源的共享與應用提供標準化的數據基礎。
◆◆◆
背景
據說,英語中元數據meta一詞最早出現于1968年,其是對希臘語前綴"meta-"的粗略翻譯,用于表明更抽象層次的事物。盡管元數據一詞只有幾十年的歷史,然而幾千年的圖書館管理員們一直在工作中使用著元數據存儲系統元數據圖譜化,只不過我們先所謂的“元數據”是歷史上被稱為"圖書館目錄信息"。圖書目錄中的信息解決了一個十分關鍵的問題,就是如何幫助用戶在圖書館快速地、準確地找到想要的資料。
圖書目錄中依然延續至今的信息片段:書名、作者或整理、主題、簡介和篇幅。但如今其含有更多的信息,如出版社、出版時間、定價、條形碼和上架建議等等。
如今的圖書目錄采用更多的信息片段。每本著作都有唯一的編碼號碼(圖書館的書一般帶有手寫或機打標簽),根據某種編碼方案(如杜威十進制分類法等)設計的純數字或字母數字混編字符串,來幫助圖書館用戶在書架上準確地快速地找到著作。
試想幾種場景,一個藏有幾千萬冊的圖書館沒有分類編碼存儲;著作沒有著作名稱、作者、簡介等;著作封面簡介與內容不符;著作沒有目錄等等。就會出現這樣的結果:
同樣道理,若企業沒有做好元數據管理,那么數據消費者或數據分析師會面臨上述讀者的同類困境:找不到數據、找到沒有上下文無法理解數據、理解了數據因數據格式無法使用、內容有誤導致結果錯誤、查詢性能低、數據加工好已經錯過時效等等問題。解決上述困境或管好這些對事物的描述信息都屬于元數據管理的概念范疇。
如果沒有元數據管理,數據無法被有效地組織起來、被準確地理解、被合理地使用和產出預期的結果,那么數據價值無法發揮出來,于是數據變成了數據負債;如果沒有元數據,那么數據的內容和真實性就難以估量,繼而可能造成數據價值和可用性的降低。元數據是發揮數據價值的前提,是數據治理的基石。
◆◆◆
何為元數據
“元數據是關于數據的數據”。從數據、信息、知識和智慧人類認知領域的層次結構來講,數據是通過工具或機器搜集的原始資料。確切地說,數據是原始、未經處理的資料或潛在信息。信息就是經過某種處理并供人使用的數據。知識指的是你知道的事情,也就是經過內化的信息,而智慧則是指了解如何運用知識。元數據是對潛在信息的信息,是關于數據的更高層次抽象,是對數據的描述。
準確的元數據是必不可少的,也是迅速有效地對數據去粗取精的關鍵。沒有元數據,數據就毫無意義,只不過是一堆數字或文字而已。建立元數據標準是有效描述信息資源、實現信息資源高效交流的基礎。
元數據只是發揮數據價值的充分條件,“酒香也怕巷子深”,如制定了合理并嚴格執行數據標準,通用的易用的模型設計數倉底座,極高的良性循環的數據質量,安全的順滑的數據訪問和數據共享機制和合理的高效的管理流程等,就亟須統一標準的、合理的、易用理解的、易用使用的元數據管理系統,不能把“好酒”(數據)埋沒掉,要把數據宣傳出去,讓更多用戶知曉、理解和高效使用,并使數據價值得最大發揮。
同時也應避免言過其實的“金玉其外存儲系統元數據圖譜化,敗絮其中”,即數據不標準、數據質量較差、數據存在異常和形散而神散、重復建設及計算的數倉等等,即使有個華麗的元數據可視化展示,只會換來業務用戶更多抱怨。
總之,名副其實是最好的,數據與元數據同步持續良性迭代優化。
元數據應用領域較廣,種類甚多,按照不同應用領域或功能,元數據分類有很多種方法或種類,元數據一般大致可為三類:業務元數據、技術元數據和操作元數據。各自包含內容如下:
業務元數據:
技術元數據:
操作元數據:
◆◆◆
元數據架構
元數據戰略是關于企業元數據管理目標的說明,也是開發團隊的參考框架。元數據戰略決定了企業元數據架構。元數據架構可分為三類:集中式元數據架構、分布式元數據架構和混合元數據架構。
集中式架構包括一個集中的元數據存儲,在這里保存了來自各個元數據來源的元數據最新副本。保證了其獨立于源系統的元數據高可用性;加強了元數據存儲的統一性和一致性;通過結構化、標準化元數據及其附件的元數據信息,提升了元數據數據質量。集中式元數據架構有利于元數據標準化統一管理與應用。
分布式架構包括一個完整的分布式系統架構只維護一個單一訪問點,元數據獲取引擎響應用戶的需求,從元數據來源系統實時獲取元數據,而不存在統一集中元數據存儲。雖然此架構保證了元數據始終是最新且有效的,但是源系統的元數據沒有經過標準化或附加元數據的整合,且查詢能力直接受限于相關元數據來源系統的可用性。
這是一種折中的架構方案,元數據依然從元數據來源系統進入存儲庫。但是存儲庫的設計只考慮用戶增加的元數據、高度標準化的元數據以及手工獲取的元數據。這三類各有千秋,但為了更好發揮數據價值,就需要對元數據標準化、集中整合化、統一化管理。如果企業做功能較為完善的數據資產管理平臺可采用集中式元數據架構。
◆◆◆
醫療元數據
健康大數據是指在一定的時間范圍內通過利用某些軟件工具進行收集、管理并處理的與民生健康相關數據的總集,需要新的處理模式才能使用,是具有更強大的決策力、敏銳的洞察發現力和完整流程優化能力的多樣化高通量的信息。健康醫療大數據應用是推進“ 健 康 中 國 ”建 設 、提 高 群 眾 獲 得 感 的 必 然 要 求 ,是深化醫改完善衛生與健康治理模式的重要支撐,而 健康醫療大數據標準體系構建是推進健康醫療大數據應用的基礎性工程。對來源廣泛的數據項進行標準化,通過建立概念數據模型和數據規范,明確數據的應用語境,保證信息的準確性和一致性 ,是實現語義互操作的基礎。
元數據是一種結構化的數據,是對信息資源的結構化描述,用來描述信息資源或數據本身特征和屬性,是一種用來規范數字化信息組織的數據結構標準。具有描述信息資源或數據本身的特征和屬性,具有定位、發現、評估、選擇等功能。作為數據結構標準,在海量的半結構化和非結構化健康醫療數據標準的構建中,元數據不僅具備傳統的“著錄”功能,使健康醫療數據維護者能有效管理和利用資源,讓使用者能迅速了解辨別資源,提高健康醫療數據共享率與利用率。因此,對元數據進行深度剖析與研討對健康大數據標準研究具有重要的現實意義。
◆◆◆
HiTA元數據服務
OMAHA聯盟提供的HiTA元數據服務是在遵從國際和國家標準的基礎上,基于我國健康醫療領域中已發布的元數據相關標準體系,提供電子化、結構化、完整的元數據規范,呈現統一的數據元、數據集、值域、衛生統計指標等內容。
旨在幫助健康醫療從業者理解、應用與實施相關元數據標準,幫助實現健康醫療數據在元數據層面的統一管理。
目前HiTA元數據已收錄5663項數據元、643項值域、108項數據集以及537項統計指標。HiTA元數據模塊提供元數據資源檢索與下載,支持自定義元數據,并可以基于醫療業務場景自定義模版、創建行業模版等,更多詳細內容可通過HiTA服務平臺()進行了解。
元數據資源一覽
使用方法:
1、登錄HiTA服務平臺(若無賬號,請先注冊)。
2、登錄后可下載樣例數據體驗,購買服務后可下載全部元數據資源。
為提供更優質、更全面的會員服務,OMAHA服務體系將進行升級更新,新版服務體系將于2021年1月1日正式上線。屆時,HiTA個人用戶將升級為個人版,閱讀《》了解體系升級詳情!