一、定義
數(shù)據(jù)倉(cāng)庫(kù)之父Bill Inmon在1991年出版的“ the Data ”一本中所提出的定義被廣泛接受:數(shù)據(jù)倉(cāng)庫(kù)(Data )是一個(gè)面向主題( )、集成的()、相對(duì)穩(wěn)定的()、反映歷史變化(Time )的數(shù)據(jù)集合,用于支持管理決策( )。
二、特點(diǎn)
操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是一個(gè)抽象的概念,是指用戶使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常包含多個(gè)操作型信息系統(tǒng)。
面向事務(wù)處理的操作型數(shù)據(jù)庫(kù)通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫(kù)之間相互獨(dú)立,并且往往是異構(gòu)的。而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是在對(duì)原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過(guò)系統(tǒng)加工、匯總和整理得到的,必須消除元數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息關(guān)于整個(gè)企業(yè)的一致的全局信息。
操作型數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)很殘酷以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
操作型數(shù)據(jù)庫(kù)主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過(guò)去某一個(gè)時(shí)點(diǎn)(如開(kāi)始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過(guò)這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。
三、數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)
包括元數(shù)據(jù),粒度數(shù)據(jù)、當(dāng)前詳細(xì)數(shù)據(jù),歷史數(shù)據(jù)、檔案數(shù)據(jù)。
最重要的部分,關(guān)于數(shù)據(jù)的數(shù)據(jù)。也成為數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu),是所有數(shù)據(jù)集成體現(xiàn)。倉(cāng)庫(kù)開(kāi)發(fā)者使用元素來(lái)管理和控制倉(cāng)庫(kù)的建立和維護(hù)。
定義為呼叫倉(cāng)庫(kù)所保存的信息的概要程度。不同粒度表示為不同級(jí)別的匯總數(shù)據(jù)。匯總數(shù)據(jù)是信息倉(cāng)庫(kù)的特點(diǎn),所有的企業(yè)數(shù)據(jù)分類(按部門、地區(qū)、功能等)需要的信息都不同,同時(shí)有效的信息倉(cāng)庫(kù)是未不同風(fēng)格提供的,輕量級(jí)匯總數(shù)據(jù)是企業(yè)自行的主要依據(jù),它來(lái)自根據(jù)企業(yè)組成部分的輕量級(jí)匯總數(shù)據(jù)或來(lái)自當(dāng)前詳細(xì)數(shù)據(jù)。這一層的數(shù)據(jù)容量比其他任何一個(gè)都少,代表一個(gè)折衷的積累,用來(lái)支撐廣泛的各式的需要和興趣。通過(guò)高度匯總,執(zhí)行者能夠使用“鉆取”到達(dá)逐步增加的詳細(xì)層。
是信息倉(cāng)庫(kù)的核心,存放大量數(shù)據(jù)。數(shù)據(jù)來(lái)自業(yè)務(wù)操作數(shù)據(jù)庫(kù),通過(guò)主題來(lái)組織,不是代表特定應(yīng)用,而是代表整個(gè)企業(yè)。在倉(cāng)庫(kù)中數(shù)據(jù)粒度最低,當(dāng)數(shù)據(jù)精確化時(shí),其中的每一個(gè)數(shù)據(jù)實(shí)體都是一個(gè)塊照、一個(gè)時(shí)刻,表示一個(gè)瞬間。一旦需要經(jīng)常支持企業(yè)需求,數(shù)據(jù)隨即進(jìn)行更新。
以前的有意義數(shù)據(jù)(一般兩年以上),給企業(yè)帶來(lái)延續(xù)的利益和價(jià)值。包含巨大的數(shù)據(jù)量,可以用來(lái)預(yù)測(cè)和趨勢(shì)分析。包括:舊數(shù)據(jù)(原始或匯總形式)、描述舊數(shù)據(jù)特征的元數(shù)據(jù)。
四、數(shù)據(jù)倉(cāng)庫(kù)的基本架構(gòu)
數(shù)據(jù)倉(cāng)庫(kù)的目的是構(gòu)建面向分析的繼承化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持( )。其實(shí)數(shù)據(jù)倉(cāng)庫(kù)本身并不“生產(chǎn)”然后數(shù)據(jù),同時(shí)自身也不需要“消費(fèi)”任何數(shù)據(jù),數(shù)據(jù)來(lái)源于外部,并且開(kāi)放給外部應(yīng)用,這也是為什么叫“倉(cāng)庫(kù)”,而不叫“工廠”的原因。因此數(shù)據(jù)倉(cāng)庫(kù)的基本架構(gòu)主要包含的數(shù)據(jù)流入流出的過(guò)程,可以分為三層--原始層(元數(shù)據(jù))、倉(cāng)庫(kù)層(數(shù)據(jù)倉(cāng)庫(kù))、應(yīng)用層(數(shù)據(jù)應(yīng)用):
從圖中可以看出數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)源于不同的源數(shù)據(jù),并提供多樣得到數(shù)據(jù)應(yīng)用,數(shù)據(jù)自下而上流入數(shù)據(jù)倉(cāng)庫(kù)后向上層開(kāi)放應(yīng)用,而數(shù)據(jù)倉(cāng)庫(kù)只是中間集成化數(shù)據(jù)管理的一個(gè)平臺(tái)。
也可以分為四層:
是接口數(shù)據(jù)的臨時(shí)存儲(chǔ)區(qū)域,為后一步的數(shù)據(jù)處理做準(zhǔn)備。一般來(lái)說(shuō)ODS層的數(shù)據(jù)和源系統(tǒng)的數(shù)據(jù)是同構(gòu)的,主要目的是簡(jiǎn)化后續(xù)數(shù)據(jù)加工處理的工作。從數(shù)據(jù)粒度上說(shuō)ODS成的數(shù)據(jù)粒度是最細(xì)的。ODS層的表通常包括兩類,一個(gè)用于存儲(chǔ)當(dāng)前需要加載的數(shù)據(jù),一個(gè)用于存儲(chǔ)處理完后的歷史數(shù)據(jù)。歷史數(shù)據(jù)一般保存3-6個(gè)月后需要清除,以節(jié)省空間。但不同的項(xiàng)目要區(qū)別對(duì)待,如果源系統(tǒng)的數(shù)據(jù)量不大,可以保留更長(zhǎng)的數(shù)據(jù),甚至全量保存。
PDW層得到數(shù)據(jù)應(yīng)該是一致的、準(zhǔn)確的、干凈的數(shù)據(jù),即對(duì)源系統(tǒng)數(shù)據(jù)進(jìn)行了清洗(去除了雜質(zhì))后的數(shù)據(jù)。這一層的數(shù)據(jù)一般是遵循數(shù)據(jù)庫(kù)第三范式的,其數(shù)據(jù)粒度通常和ODS的粒度相同。在PDW層會(huì)保存BI系統(tǒng)中所有的歷史數(shù)據(jù),例如保存10年的數(shù)據(jù)。
這層數(shù)據(jù)是面向主題來(lái)組織數(shù)據(jù)的,通常是星形和雪花結(jié)構(gòu)的數(shù)據(jù)。從數(shù)據(jù)粒度來(lái)說(shuō),這層的數(shù)據(jù)是輕度匯總級(jí)的數(shù)據(jù),已經(jīng)不存在明細(xì)數(shù)據(jù)了,已經(jīng)不存在明細(xì)數(shù)據(jù)了。從數(shù)據(jù)的時(shí)間跨度來(lái)說(shuō),通常是PDW層的一部分,主要的目的是為了滿足用戶分析的需求,而從分析的角度來(lái)說(shuō),用戶通常只需要分析近幾年(如近三年的數(shù)據(jù))的即可。從數(shù)據(jù)的廣度來(lái)說(shuō),仍然覆蓋了所有業(yè)務(wù)數(shù)據(jù)。
這層數(shù)據(jù)是完全為了滿足具體的分析需求而構(gòu)建的數(shù)據(jù),也是星形或雪花結(jié)構(gòu)的數(shù)據(jù)。從數(shù)據(jù)粒度來(lái)說(shuō)是高度匯總的數(shù)據(jù)。從某種意義上來(lái)說(shuō)是DM層數(shù)據(jù)的一個(gè)重復(fù)。從極端情況來(lái)說(shuō),可以為每一張報(bào)表在APP層構(gòu)建一個(gè)模型來(lái)支持,達(dá)到以空間換時(shí)間的目的數(shù)據(jù)倉(cāng)庫(kù)的標(biāo)準(zhǔn)分層只是一個(gè)建議性質(zhì)的標(biāo)準(zhǔn),實(shí)際實(shí)施時(shí)需要根據(jù)實(shí)際情況確定數(shù)據(jù)倉(cāng)庫(kù)的分層,不同分層方法。
五、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)源
數(shù)據(jù)倉(cāng)庫(kù)從各數(shù)據(jù)源獲取數(shù)據(jù)及在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的數(shù)據(jù)轉(zhuǎn)換和流動(dòng)都可以認(rèn)為是ETL(抽取Extra,轉(zhuǎn)化,轉(zhuǎn)載Load)的過(guò)程,ETL是數(shù)據(jù)倉(cāng)庫(kù)的流水線,也可以認(rèn)為是數(shù)據(jù)倉(cāng)庫(kù)的血液,它維系著數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的新陳代謝,而數(shù)據(jù)倉(cāng)庫(kù)日常的管理和維護(hù)工作的大部分精力就是保持ETL的正常和穩(wěn)定。
六、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)
數(shù)據(jù)倉(cāng)庫(kù)并不需要儲(chǔ)存所有的原始數(shù)據(jù),同時(shí)數(shù)據(jù)倉(cāng)庫(kù)需要儲(chǔ)存部分細(xì)節(jié)數(shù)據(jù)。簡(jiǎn)單地解釋下:
主要包括三個(gè)方面:
這里的聚合數(shù)據(jù)指的是基于特定需求的簡(jiǎn)單聚合(基于多維數(shù)據(jù)的聚合在多維數(shù)據(jù)模型中),簡(jiǎn)單聚合可以是網(wǎng)站的總、、 等匯總數(shù)據(jù),也可以是Avg.time on page、Avg.time on site等平均數(shù)據(jù),這些數(shù)據(jù)可以直接地展示于報(bào)表上。
多維數(shù)據(jù)模型提供了多角度多層次的分析應(yīng)用,比如基于時(shí)間維、地域維等構(gòu)建的銷售星形模型、雪花模型,可以實(shí)現(xiàn)在各時(shí)間維度和地域維度的交叉查詢,以及基于時(shí)間維和地域維的細(xì)分。所以數(shù)據(jù)倉(cāng)庫(kù)面向特定群體的數(shù)據(jù)集市讀書(shū)基于多維數(shù)據(jù)模型進(jìn)行構(gòu)建的。
這里的業(yè)務(wù)模型指的是基于某些數(shù)據(jù)分析和決策支持而建立起來(lái)的數(shù)據(jù)模型,比如我之前介紹過(guò)的用戶評(píng)價(jià)模型、關(guān)聯(lián)推薦模型、RFM分析模型等,或者是決策支持的線性規(guī)劃模型、庫(kù)存模型等;同時(shí),數(shù)據(jù)挖掘中前期數(shù)據(jù)的處理也可以在這里完成。
七、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的區(qū)別
八、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)應(yīng)用
數(shù)據(jù)分析、數(shù)據(jù)挖掘、人工智能、機(jī)器學(xué)習(xí)、風(fēng)險(xiǎn)控制、無(wú)人駕駛。數(shù)據(jù)化運(yùn)營(yíng)、精準(zhǔn)運(yùn)營(yíng)。廣告精準(zhǔn)、智能投放。
九、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)
1、OLTP和OLAP
OLTP的全稱是 ,OLTP主要用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)來(lái)進(jìn)行事務(wù)處理。OLTP最核心的需求是單條記錄的高效快速處理,索引技術(shù)、分庫(kù)分表等最基本的訴求就是解決此問(wèn)題。
OLAP的全稱是 ,OLAP很夠處理和統(tǒng)計(jì)大量的數(shù)據(jù),不像OLTP數(shù)據(jù)庫(kù)需要考慮數(shù)據(jù)的增刪改查和并發(fā)控制等,OLAP數(shù)據(jù)一般只需要處理數(shù)據(jù)查詢請(qǐng)求,數(shù)據(jù)導(dǎo)入批量導(dǎo)入的,因此通過(guò)列存儲(chǔ),列壓縮和位圖索引等技術(shù)可以大大加快響應(yīng)請(qǐng)求的速度。
2、OLTP和OLAP數(shù)據(jù)的簡(jiǎn)單對(duì)比
3、數(shù)據(jù)倉(cāng)庫(kù)邏輯架構(gòu)設(shè)計(jì)
離線數(shù)據(jù)倉(cāng)庫(kù)基于維度建模理論來(lái)構(gòu)建,離線數(shù)據(jù)倉(cāng)庫(kù)通常從邏輯上進(jìn)行分層,分詞主要出于以下考慮:
1、隔離性:
用戶使用的應(yīng)該是數(shù)據(jù)團(tuán)隊(duì)精心加工后的數(shù)據(jù),而不是來(lái)自于業(yè)務(wù)系統(tǒng)的原始數(shù)據(jù),這樣做的好處一是,用戶使用的精心準(zhǔn)備過(guò)的、規(guī)范的、干凈的、從業(yè)務(wù)視角的數(shù)據(jù)。非常容易理解和使用。二是如果上游業(yè)務(wù)系統(tǒng)發(fā)生變革甚至重構(gòu)(比如表結(jié)構(gòu)、字段、業(yè)務(wù)含義等),數(shù)據(jù)團(tuán)隊(duì)會(huì)負(fù)責(zé)處理所有這些變化,最小化對(duì)下游用戶的影響。
2、性能和可為維護(hù)性:
專業(yè)的人做專業(yè)的事,數(shù)據(jù)分層使得數(shù)據(jù)的加工基本都在數(shù)據(jù)團(tuán)隊(duì),從而相同的業(yè)務(wù)邏輯不用重復(fù)執(zhí)行,節(jié)省了相應(yīng)的存儲(chǔ)和計(jì)算開(kāi)銷。此外數(shù)據(jù)分層也使得數(shù)據(jù)倉(cāng)庫(kù)的維護(hù)變得清晰和便捷,每層只負(fù)責(zé)各自的任務(wù),某層的數(shù)據(jù)加工出現(xiàn)問(wèn)題,只需要修改該層即可。
3、規(guī)范性:
對(duì)于一個(gè)公司和組織來(lái)說(shuō),數(shù)據(jù)的口徑非常重要,大家談?wù)撘粋€(gè)指標(biāo)的時(shí)候,必須基于一個(gè)明確的、公認(rèn)的口徑,此外表、字段以及指標(biāo)必須進(jìn)行規(guī)范。
十、數(shù)據(jù)倉(cāng)庫(kù)多維數(shù)據(jù)模型的基本概念
1、主題():
主題就是指我們所要分析的具體方面。例如:某年某月某地區(qū)某機(jī)型某款A(yù)PP的安裝情況。主題有兩個(gè)元素:
一是各個(gè)分析角度(維度),如時(shí)間位置;
二是要分析的具體量度,該量度一般通過(guò)數(shù)值體現(xiàn),如APP安裝量。
2、維():
維是用于從不同角度描述事物特征的,一般維都會(huì)有多層(Level:級(jí)別),每個(gè)Level都會(huì)包含一些共有的或特有的屬性()。
以時(shí)間維為例:時(shí)間維一般會(huì)包含年、季、月、日這幾個(gè)Level,每個(gè)Level一般都會(huì)有ID、NAME、這幾個(gè)公共屬性,這幾個(gè)公共屬性不僅適用于時(shí)間維,也同樣表現(xiàn)在其他各種不同類型的維。
3、分層():
OLAP需要基于有層級(jí)的自上而下的鉆取,或者自下而上地聚合。所以我們一般會(huì)在維的基礎(chǔ)上再次進(jìn)行分層,維、分層、層級(jí)的關(guān)系如下圖:
每一級(jí)之間可以有附屬關(guān)系(如市屬于省、省屬于國(guó)家)構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)的方式有,也可能是順序關(guān)系(如天周年)。
4、量度:
量度就是我們要分析的具體的技術(shù)指標(biāo),諸如年銷售額之類。它們一般為數(shù)值型數(shù)據(jù)。我們或者將該數(shù)據(jù)匯總,或者將該數(shù)據(jù)取次數(shù)、獨(dú)立次數(shù)或取最大最小值等,這樣的數(shù)據(jù)成為量度。
5、粒度:
數(shù)據(jù)的細(xì)分層度,例如按天分按小時(shí)分。
6、事實(shí)表和維表:
事實(shí)表是用來(lái)記錄分析的內(nèi)容的分量信息的,包含了每個(gè)事件的具體要素,以及具體發(fā)生的事情。事實(shí)表中存儲(chǔ)數(shù)字型ID以及度量信息。
維表則是對(duì)事實(shí)表中事件的要素的描述信息,就是你觀察該事務(wù)的角度,是從哪個(gè)角度去觀察這個(gè)內(nèi)容的。
事實(shí)表和維表通過(guò)ID相關(guān)聯(lián),如圖所示:
7、企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)集市:
企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù):突出大而全,不論是細(xì)致數(shù)據(jù)和聚合數(shù)據(jù)它全都有,設(shè)計(jì)時(shí)使用事實(shí)星座模式。
數(shù)據(jù)集市:可以看做是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,它是針對(duì)某一方面的數(shù)據(jù)設(shè)計(jì)的數(shù)據(jù)倉(cāng)庫(kù),例如為公司的支付業(yè)務(wù)設(shè)計(jì)一個(gè)單獨(dú)的數(shù)據(jù)集市。由于數(shù)據(jù)集市沒(méi)有進(jìn)行企業(yè)級(jí)的設(shè)計(jì)和規(guī)劃,所所以長(zhǎng)期來(lái)看,它本身的集成將會(huì)極其復(fù)雜。其數(shù)據(jù)來(lái)源有兩種,一種直接從原生數(shù)據(jù)源得到構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)的方式有,另一種是從企業(yè)數(shù)據(jù)倉(cāng)庫(kù)得到。
十一、元數(shù)據(jù)
1、元數(shù)據(jù)的概念
傳統(tǒng)定義上,元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)(data about data),在數(shù)倉(cāng)中,元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)以及建立方法的數(shù)據(jù),按其用途分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。
元數(shù)據(jù)指明了數(shù)據(jù)倉(cāng)庫(kù)中信息的內(nèi)容和位置,刻畫(huà)了數(shù)據(jù)的抽取和轉(zhuǎn)換規(guī)則,存儲(chǔ)了與數(shù)據(jù)倉(cāng)庫(kù)主題有關(guān)的各種商業(yè)信息,而且整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行都是基于元數(shù)據(jù)的,如修改跟蹤數(shù)據(jù)、抽取調(diào)度數(shù)據(jù)、同步捕獲歷史數(shù)據(jù)等。
元數(shù)據(jù)描述了數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)和環(huán)境。
一類是管理元數(shù)據(jù)( ),它是對(duì)源數(shù)據(jù)及其內(nèi)容、數(shù)據(jù)倉(cāng)庫(kù)主題、數(shù)據(jù)轉(zhuǎn)換及各種操作信息的描述。
另一類是用戶元數(shù)據(jù)(),它幫助用戶查詢信息、理解結(jié)果、了解數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)和組織。
2、元數(shù)據(jù)的功能
2.1、數(shù)據(jù)倉(cāng)庫(kù)內(nèi)容的描述
微軟能夠描述數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)以及數(shù)據(jù)間的各種復(fù)雜關(guān)系,元數(shù)據(jù)定義了DW的一系列內(nèi)容。元數(shù)據(jù)描述了數(shù)據(jù)倉(cāng)庫(kù)中有什么數(shù)據(jù)及數(shù)據(jù)間的關(guān)系,它們是用戶使用和系統(tǒng)管理數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)。
2.2、定義抽取和轉(zhuǎn)化
元數(shù)據(jù)可以用來(lái)生成源代碼以完成數(shù)據(jù)的轉(zhuǎn)換工作,即完成由操作型數(shù)據(jù)轉(zhuǎn)生成以特殊形式存放的、面向主題的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)。
元數(shù)據(jù)中的表映射和抽取域映射定義了進(jìn)行實(shí)際抽取轉(zhuǎn)換工作的工程。
數(shù)據(jù)倉(cāng)庫(kù)管理核心是:利用該組元數(shù)據(jù)所定義的抽取過(guò)程生成某種語(yǔ)言的源代碼,然后編譯成可執(zhí)行的程序以完成數(shù)據(jù)的抽取工作。其核心也可直接以解釋的方式從元數(shù)據(jù)存儲(chǔ)中讀出每個(gè)抽取步處理過(guò)程,從而進(jìn)行數(shù)據(jù)轉(zhuǎn)換。
2.3、基于商業(yè)事件的抽取調(diào)度
抽取調(diào)度是指什么時(shí)候進(jìn)行從源數(shù)據(jù)到DW的抽取工作,元數(shù)據(jù)必須對(duì)數(shù)據(jù)的抽取安全加以說(shuō)明。
2.4、數(shù)據(jù)質(zhì)量保證
元數(shù)據(jù)必須提供一個(gè)機(jī)制,即針對(duì)特定應(yīng)用并根據(jù)用戶確立的數(shù)據(jù)容忍度來(lái)提醒用戶是否采用該數(shù)據(jù)進(jìn)行決策。
十二、數(shù)據(jù)集市
數(shù)據(jù)集市(Data Mart),也叫數(shù)據(jù)市場(chǎng),數(shù)據(jù)集市就是滿足特定的部門或者用戶的需求,按照多維的方式進(jìn)行存儲(chǔ),包括定義維度、需要計(jì)算的指標(biāo)、維度的層次等,生成面向決策分析需求的數(shù)據(jù)立方體。
從范圍上來(lái)說(shuō),數(shù)據(jù)是從企業(yè)范圍的數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù),或者是更加專業(yè)的數(shù)據(jù)倉(cāng)庫(kù)中抽取出來(lái)的。數(shù)據(jù)中心的重點(diǎn)就在于它迎合了專業(yè)用戶群體的特殊需求,在分析、內(nèi)容、表現(xiàn),以及易用方面。數(shù)據(jù)中心的用戶希望數(shù)據(jù)是由他們熟悉的術(shù)語(yǔ)表現(xiàn)的。