2021-04-24 勿忘初心
篇首語:本文由小常識網()小編為大家整理,主要介紹了數據倉庫中的元數據管理系統相關的知識,希望對你有一定的參考價值。
一、元數據的定義
按照傳統的定義,元數據()是關于數據的數據。在數據倉庫系統中,元數據可以幫助數據倉庫管理員和數據倉庫的開發人員非常方便地找到他們所關心的數據;元數據是描述數據倉庫內數據的結構和建立方法的數據,可將其按用途的不同分為兩類:技術元數據( )和業務元數據( )。
技術元數據是存儲關于數據倉庫系統技術細節的數據,是用于開發和管理數據倉庫使用的數據,它主要包括以下信息:
業務元數據從業務角度描述了數據倉庫中的數據,它提供了介于使用者和實際系統之間的語義層,使得不懂計算機技術的業務人員也能夠“讀懂”數據倉庫中的數據。業務元數據主要包括以下信息:使用者的業務術語所表達的數據模型、對象名和屬性名;訪問數據的原則和數據的來源;系統所提供的分析方法以及公式和報表的信息;具體包括以下信息:
二、元數據的作用
與其說數據倉庫是軟件開發項目,還不如說是系統集成項目,因為它的主要工作是把所需的數據倉庫工具集成在一起,完成數據的抽取、轉換和加載,OLAP分析和數據挖掘等。如下圖所示,它的典型結構由操作環境層、數據倉庫層和業務層等組成。
其中,第一層(操作環境層)是指整個企業內有關業務的OLTP系統和一些外部數據源;第二層是通過把第一層的相關數據抽取到一個中心區而組成的數據倉庫層;第三層是為了完成對業務數據的分析而由各種工具組成的業務層。圖中左邊的部分是元數據管理,它起到了承上啟下的作用,具體體現在以下幾個方面:
1.元數據是進行數據集成所必需的
數據倉庫最大的特點就是它的集成性。這一特點不僅體現在它所包含的數據上,還體現在實施數據倉庫項目的過程當中。一方面,從各個數據源中抽取的數據要按照一定的模式存入數據倉庫中,這些數據源與數據倉庫中數據的對應關系及轉換規則都要存儲在元數據知識庫中;另一方面,在數據倉庫項目實施過程中,直接建立數據倉庫往往費時、費力,因此在實踐當中,人們可能會按照統一的數據模型,首先建設數據集市,然后在各個數據集市的基礎上再建設數據倉庫。不過元數據管理工具 hadoop,當數據集市數量增多時很容易形成“蜘蛛網”現象,而元數據管理是解決“蜘蛛網”的關鍵。如果在建立數據集市的過程中,注意了元數據管理,在集成到數據倉庫中時就會比較順利;相反,如果在建設數據集市的過程中忽視了元數據管理,那么最后的集成過程就會很困難,甚至不可能實現。
2.元數據定義的語義層可以幫助用戶理解數據倉庫中的數據
最終用戶不可能象數據倉庫系統管理員或開發人員那樣熟悉數據庫技術,因此迫切需要有一個“翻譯”,能夠使他們清晰地理解數據倉庫中數據的含意。元數據可以實現業務模型與數據模型之間的映射,因而可以把數據以用戶需要的方式“翻譯”出來,從而幫助最終用戶理解和使用數據。
3.元數據是保證數據質量的關鍵
數據倉庫或數據集市建立好以后,使用者在使用的時候,常常會產生對數據的懷疑。這些懷疑往往是由于底層的數據對于用戶來說是不“透明”的,使用者很自然地對結果產生懷疑。而借助元數據管理系統,最終的使用者對各個數據的來龍去脈以及數據抽取和轉換的規則都會很方便地得到元數據管理工具 hadoop,這樣他們自然會對數據具有信心;當然也可便捷地發現數據所存在的質量問題。甚至國外有學者還在元數據模型的基礎上引入質量維,從更高的角度上來解決這一問題。
4.元數據可以支持需求變化
隨著信息技術的發展和企業職能的變化,企業的需求也在不斷地改變。如何構造一個隨著需求改變而平滑變化的軟件系統,是軟件工程領域中的一個重要問題。傳統的信息系統往往是通過文檔來適應需求變化,但是僅僅依靠文檔還是遠遠不夠的。成功的元數據管理系統可以把整個業務的工作流、數據流和信息流有效地管理起來,使得系統不依賴特定的開發人員,從而提高系統的可擴展性。
三、元數據管理現狀
由以上幾節我們了解到元數據幾乎可以被稱為是數據倉庫乃至商業智能(BI)系統的“靈魂”,正是由于元數據在整個數據倉庫生命周期中有著重要的地位,各個廠商的數據倉庫解決方案都提到了關于對元數據的管理。但遺憾的是對于元數據的管理,各個解決方案都沒有明確提出一個完整的管理模式;它們提供的僅僅是對特定的局部元數據的管理。當前市場上與元數據有關的主要工具見下圖:
如圖所示,與元數據相關的數據倉庫工具大致可分為四類:
1. 數據抽取工具;
把業務系統中的數據抽取、轉換、集成到數據倉庫中,如的、的開源ETL產品、ETI的等。這些工具僅提供了技術元數據,幾乎沒有提供對業務元數據的支持。
2. 前端展現工具:
包括OLAP分析、報表和商業智能工具等,如的、 的BO,以及國內廠商帆軟的/等。它們通過把關系表映射成與業務相關的事實和維來支持多維業務視圖,進而對數據倉庫中的數據進行多維分析。這些工具都提供了業務元數據與技術元數據相對應的語義層。
3. 建模工具:
為非技術人員準備的業務建模工具,這些工具可以提供更高層的與特定業務相關的語義。如CA的ERwin、的以及的Rose等。
4. 元數據存儲工具:
元數據通常存儲在專用的數據庫中,該數據庫就如同一個“黑盒子”,外部無法知道這些工具所用到和產生的元數據是如何存儲的。還有一類被稱為元數據知識庫( )的工具,它們獨立于其它工具,為元數據提供一個集中的存儲空間。這些工具包括微軟的,的和的WCC等。
5.元數據管理工具:
目前國內的元數據管理工具大概有三類。一是像IBM、CA等公司都提供的專門工具,比如IBM收購得到的,CA的都是如此;二是像DAG的,開源產品 ,它們不依托于某項BI產品,是一種第三方的元數據管理工具;三是像普元、石竹這樣的集成商也有自己的元數據管理工具:普元、新炬網絡元數據管理系統、石竹等。
專門的元數據管理工具,對自家產品兼容較好,一旦涉及跨系統管理,就不盡如人意了。從國內的實際應用來看,DAG的這一工具使用最多,目前所看到的在電信、金融領域建設的元數據管理項目基本上都是應用了這一產品。
我從互聯網上搜索了幾乎所有的元數據廠家:開源的產品,支持源碼下載試用,可以進行集成開發;普元下載后,配置麻煩,目前為止還沒有調通;其他公司產品均不提供下載試用。
四、元數據管理標準
沒有規矩不成方圓。元數據管理之所以困難,一個很重要的原因就是缺乏統一的標準。在這種情況下,各公司的元數據管理解決方案各不相同。近幾年,隨著元數據聯盟MDC(Meta Data )的開放信息模型OIM(Open Model)和OMG組織的公共倉庫模型CWM( Model)標準的逐漸完善,以及MDC和OMG組織的合并,為數據倉庫廠商提供了統一的標準,從而為元數據管理鋪平了道路。
從元數據的發展歷史不難看出,元數據管理主要有兩種方法:
目前OMG家的CWM( )標準已成為元數據管理界的統一標準:
OMG是一個擁有500多會員的國際標準化組織,著名的CORBA標準即出自該組織。公共倉庫元模型( )的主要目的是在異構環境下,幫助不同的數據倉庫工具、平臺和元數據知識庫進行元數據交換。2001年3月,OMG頒布了CWM 1.0標準。CWM模型既包括元數據存儲,也包括元數據交換,它是基于以下三個工業標準制定的:
以上是關于數據倉庫中的元數據管理系統的主要內容,如果未能解決你的問題,請參考以下文章
數據陽光原創:淺談數據倉庫中的元數據管理
數據陽光原創:淺談數據倉庫中的元數據管理
數據必備知識:數據倉庫之數據存儲
數據必備知識:數據倉庫之數據存儲
數據倉庫的元數據管理
數據倉庫的元數據管理
2021年大數據:HDFS的元數據輔助管理
2021年大數據:HDFS的元數據輔助管理
4. 數據倉庫架構分層(重點)
4. 數據倉庫架構分層(重點)