操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    層存儲(chǔ)可以降低數(shù)據(jù)存儲(chǔ)成本,提高效率,并具有重用舊設(shè)備的能力。

    分層存儲(chǔ)是一種存儲(chǔ)方法,它涉及將數(shù)據(jù)存儲(chǔ)在具有不同特性(例如性能、成本和容量)的一系列不同存儲(chǔ)介質(zhì)上。

    不同的存儲(chǔ)介質(zhì)按層次結(jié)構(gòu)進(jìn)行組織,其中性能最高的存儲(chǔ)介質(zhì)被認(rèn)為是Tier 0或Tier 1,其次是Tier 2,Tier 3,依此類推。

    Tier 0或Tier 1通常由閃存或基于3D XPoint的固態(tài)硬盤組成,而連續(xù)的分層存儲(chǔ)級(jí)別可能涉及高性能光纖通道或SAS驅(qū)動(dòng)器(或包含它們的RAID陣列),性能較低的SATA驅(qū)動(dòng)器、光盤、磁帶存儲(chǔ)系統(tǒng)以及基于云計(jì)算的近線或脫機(jī)存儲(chǔ)系統(tǒng)。

    在SSD硬盤和云存儲(chǔ)變得司空見慣之前,使用磁盤和磁帶提供Tier 1層、Tier 2層和Tier 3層存儲(chǔ)的三層存儲(chǔ)模型可能是最受歡迎的層存儲(chǔ)模型。

    但現(xiàn)在使用包含五個(gè)或更多分層存儲(chǔ)級(jí)別的分層存儲(chǔ)模型并不罕見。每一個(gè)都有微妙的差別,以產(chǎn)生三個(gè)關(guān)鍵存儲(chǔ)屬性的不同組合:成本、性能、容量。

    分層存儲(chǔ)的目標(biāo)

    如果不考慮費(fèi)用,企業(yè)將使用SSD硬盤滿足其所有存儲(chǔ)需求,因?yàn)樗鼈兲峁┝朔浅8叩男阅芎涂煽啃浴?/p>

    但是在現(xiàn)實(shí)世界中,存儲(chǔ)成本非常重要,因?yàn)镮T部門尋求在其預(yù)算內(nèi)和組織中作為一個(gè)整體來尋求最小化成本和最大化效率。不幸的是,與機(jī)械硬盤相比,SSD硬盤存儲(chǔ)成本昂貴,并且比磁帶存儲(chǔ)昂貴得多。

    這意味著需要謹(jǐn)慎使用SSD硬盤,并且僅用于存儲(chǔ)需要非常高性能的系統(tǒng)使用的數(shù)據(jù)。不太重要的數(shù)據(jù)可以存儲(chǔ)在成本較低、性能較低的系統(tǒng)(如機(jī)械硬盤)上,而很少訪問的數(shù)據(jù)或僅出于合規(guī)性目的保留的數(shù)據(jù)可以降級(jí)存儲(chǔ)到成本非常低的離線存儲(chǔ)系統(tǒng)。

    因此,分層存儲(chǔ)不是由IT部門出于運(yùn)營(yíng)原因的需求驅(qū)動(dòng)的,而是純粹出于財(cái)務(wù)原因。然后,分層存儲(chǔ)系統(tǒng)的目標(biāo)是通過使用成本最低的存儲(chǔ)選項(xiàng)(提供所需的最低性能)將存儲(chǔ)成本降至最低。

    分層存儲(chǔ)是如何工作的?

    只有兩個(gè)存儲(chǔ)層的分層存儲(chǔ)系統(tǒng)為存儲(chǔ)管理人員提供了一個(gè)非常有限的選擇,而不是一個(gè)給定的數(shù)據(jù)應(yīng)該存儲(chǔ)在哪里。如果該數(shù)據(jù)需要一定級(jí)別的存儲(chǔ)性能,則將在滿足要求的性能級(jí)別的情況下將其存儲(chǔ)在Tier 2層中,否則將存儲(chǔ)在更昂貴的Tier 1層中。

    具有三個(gè)存儲(chǔ)層的分層存儲(chǔ)系統(tǒng)可能更高效,因?yàn)槿绻鸗ier 3層提供了所需的性能級(jí)別,則可以將同一數(shù)據(jù)存儲(chǔ)在Tier 3層中。如果沒有,則可以將其存儲(chǔ)在Tier 2層中(如果可以提供)達(dá)到所需的性能水平,并且只有在Tier 2層和Tier 3層都無法提供所需的性能水平時(shí),才需要將其存儲(chǔ)在最昂貴的Tier 1層存儲(chǔ)中。

    事實(shí)上,可用的存儲(chǔ)層越多,數(shù)據(jù)塊就可以越有效地存儲(chǔ)在滿足其性能需求的適當(dāng)存儲(chǔ)層中,而不是以不必要的高成本提供不必要的高性能的存儲(chǔ)層中。使用創(chuàng)建RAID陣列或短行程硬盤等技術(shù),可以從一組不同的存儲(chǔ)介質(zhì)類型中創(chuàng)建新的層。例如,這兩種技術(shù)都以較低的存儲(chǔ)效率為代價(jià)(從而最終導(dǎo)致較高的財(cái)務(wù)成本)創(chuàng)建了更高的性能存儲(chǔ)。

    分層存儲(chǔ)系統(tǒng)面臨的最大挑戰(zhàn)是將數(shù)據(jù)分類為多個(gè)類別,確定最適合給定數(shù)據(jù)類別的存儲(chǔ)層,并隨著數(shù)據(jù)的老化定期對(duì)數(shù)據(jù)進(jìn)行重新分類。

    這里的關(guān)鍵點(diǎn)是,任何給定數(shù)據(jù)的存儲(chǔ)需求都可能隨著時(shí)間的推移而變化,因此,只要數(shù)據(jù)不再需要它當(dāng)前發(fā)現(xiàn)的存儲(chǔ)層的性能,就必須對(duì)其進(jìn)行監(jiān)視并將其移動(dòng)到較低(且成本更低)的存儲(chǔ)層,而不是將數(shù)據(jù)存儲(chǔ)在分層存儲(chǔ)系統(tǒng)中而忘記它。

    分層存儲(chǔ)的典型數(shù)據(jù)類包括:

    ?關(guān)鍵任務(wù)數(shù)據(jù)。此類數(shù)據(jù)始終需要存儲(chǔ)在最高級(jí)別的分層存儲(chǔ)中,因?yàn)樗枰С指咚賾?yīng)用程序,可能支持客戶交易。訪問數(shù)據(jù)的延遲將導(dǎo)致組織失去業(yè)務(wù)或?qū)κ找媛十a(chǎn)生負(fù)面影響。性能至關(guān)重要。

    ?熱門數(shù)據(jù)。此類數(shù)據(jù)需要較高級(jí)別的分層存儲(chǔ),因?yàn)樗谥T如客戶關(guān)系管理(CRM)、企業(yè)資源計(jì)劃(ERP)甚至電子郵件之類的應(yīng)用程序中不斷使用,并且在企業(yè)的日常運(yùn)營(yíng)中是必需的。在這一層的分層存儲(chǔ)中,性能很重要,但成本也是一個(gè)考慮因素。

    ?暖數(shù)據(jù)。這個(gè)類包括一些較舊的數(shù)據(jù),如超過幾天的電子郵件,或已完成交易的數(shù)據(jù)。這類數(shù)據(jù)的訪問頻率相對(duì)較低,但在需要時(shí)仍需要易于訪問。在分層存儲(chǔ)的這一層,最重要的考慮因素是成本,但必須遵循最低性能閾值。

    ?冷數(shù)據(jù)。此類數(shù)據(jù)可能永遠(yuǎn)不會(huì)再次訪問,但需要進(jìn)行歸檔和保留以符合法規(guī)或其他法律要求,或者僅僅是因?yàn)樗趯淼哪硞€(gè)未確定時(shí)間可能具有某些價(jià)值,也許用于大數(shù)據(jù)分析。冷數(shù)據(jù)非常適合分層存儲(chǔ)的最低層,在該層中可以接受幾分鐘或幾小時(shí)的訪問時(shí)間,而低成本是首要考慮因素。

    除了規(guī)模最小的業(yè)務(wù)外,很明顯,人工進(jìn)行存儲(chǔ)分層的方法可能會(huì)非常耗時(shí)且麻煩,無法成功。因此,大多數(shù)分層存儲(chǔ)系統(tǒng)都依賴于使用分層管理系統(tǒng)的自動(dòng)存儲(chǔ)分層,該分層管理系統(tǒng)會(huì)在整個(gè)生命周期內(nèi)監(jiān)視數(shù)據(jù),并在數(shù)據(jù)冷卻時(shí)自動(dòng)將其移動(dòng)到存儲(chǔ)層中。

    該軟件可以隨同一個(gè)存儲(chǔ)系統(tǒng)一起提供并在其上運(yùn)行,也可以是一個(gè)獨(dú)立的解決方案,它可以在整個(gè)組織的存儲(chǔ)基礎(chǔ)設(shè)施中正常工作,在某些情況下還可以通過云存儲(chǔ)網(wǎng)關(guān)進(jìn)入云中。

    分層存儲(chǔ)類型

    Tier 1層是什么意思?

    在一些使用存儲(chǔ)分層的組織中,已經(jīng)出現(xiàn)了比其現(xiàn)有Tier 1層中使用的更快的新存儲(chǔ)技術(shù)。因此,該技術(shù)被用作“Tier 0層”存儲(chǔ)。但出于本文的目的,將假定Tier 1層表示最高性能的存儲(chǔ)層。

    Tier 1層

    此存儲(chǔ)層旨在存儲(chǔ)高度易變且對(duì)時(shí)間敏感的數(shù)據(jù),并且需要在盡可能短的時(shí)間內(nèi)可用。通常用在金融交易環(huán)境或其他業(yè)務(wù)領(lǐng)域中,這些業(yè)務(wù)在短短幾分之一秒之內(nèi)就可以產(chǎn)生重大損失,而只有最快的存儲(chǔ)就足夠了。因此,Tier 1層存儲(chǔ)通常需要非常快的固態(tài)存儲(chǔ)硬盤介質(zhì),無論其整體存儲(chǔ)效率如何,都應(yīng)配置為具有盡可能高的性能。

    Tier 2層

    該存儲(chǔ)層用于存儲(chǔ)事務(wù)數(shù)據(jù),以支持高性能應(yīng)用程序,面向客戶的系統(tǒng)(例如零售應(yīng)用程序)以及其他無法接受非常短的延遲的系統(tǒng)。由于所需的性能水平不如Tier 1層那么高,因此通常使用較低成本和更高存儲(chǔ)效率的固態(tài)硬盤存儲(chǔ)系統(tǒng)來提供Tier 2存儲(chǔ)解決方案。

    Tier 3層

    第三個(gè)存儲(chǔ)層用于存儲(chǔ)“熱”數(shù)據(jù),例如客戶關(guān)系管理(CRM)和企業(yè)資源計(jì)劃(ERP)數(shù)據(jù),甚至是最近的電子郵件,這些數(shù)據(jù)需要經(jīng)常訪問而不會(huì)造成不必要的延遲。這意味著它需要存儲(chǔ)在介質(zhì)(如中等到高性能硬盤驅(qū)動(dòng)器)上,與固態(tài)硬盤存儲(chǔ)介質(zhì)相比,它們的成本相對(duì)較低。在許多組織中,與Tier 2層或Tier 1層相比,Tier 3層數(shù)據(jù)要多得多,因此,每千兆字節(jié)存儲(chǔ)成本較低的大容量機(jī)械硬盤提供了理想的解決方案。

    Tier 4層

    該存儲(chǔ)層用于“熱”數(shù)據(jù),例如來自最近完成的事務(wù)的數(shù)據(jù),已使用了幾天的電子郵件以及不經(jīng)常訪問的其他數(shù)據(jù)。它還可以用于存儲(chǔ)可用于業(yè)務(wù)信息和數(shù)據(jù)可視化系統(tǒng)的數(shù)據(jù),或用于創(chuàng)建月度、季度或年度報(bào)告所需的財(cái)務(wù)數(shù)據(jù)。但無論何時(shí)需要,都需要相對(duì)快速地訪問。Tier 4層存儲(chǔ)需求可能非常大,并且由于成本是主要考慮因素,因此Tier 4層存儲(chǔ)的典型解決方案是大容量機(jī)構(gòu)硬盤存儲(chǔ)。Tier 4層存儲(chǔ)更可能使用低成本、性能相對(duì)較低的SATA硬盤驅(qū)動(dòng)器,而不是配置高性能SAS硬盤或RAID陣列。

    Tier 5層

    最低的存儲(chǔ)層通常用于存檔“冷”數(shù)據(jù),這些數(shù)據(jù)可能永遠(yuǎn)不會(huì)再次訪問,但仍保留一些價(jià)值(也許將來用于數(shù)據(jù)挖掘),因此值得保留。它也用于存儲(chǔ)必須保留用于合規(guī)性目的的數(shù)據(jù),這些數(shù)據(jù)僅需要在幾天或幾周內(nèi)即可訪問,而不是幾分鐘或幾秒鐘。

    通常以該存儲(chǔ)層為單位使用光介質(zhì)或磁帶存儲(chǔ)系統(tǒng),該系統(tǒng)以非常低的每千兆字節(jié)成本提供存儲(chǔ),但是性能卻非常低。在過去的幾年中,基于云計(jì)算的存儲(chǔ)(例如Amazon的Glacier存儲(chǔ)服務(wù))已變得越來越受歡迎,這些公司希望將大量數(shù)據(jù)分流用于低成本存儲(chǔ),并且有可能或在幾個(gè)小時(shí)內(nèi)相對(duì)容易地對(duì)其進(jìn)行檢索(如果需要的話)。

    分層存儲(chǔ)的主要優(yōu)勢(shì)

    分層存儲(chǔ)帶來許多好處,其中最重要的是:

    ?降低的存儲(chǔ)成本:通過將每個(gè)數(shù)據(jù)類存儲(chǔ)在成本最低的存儲(chǔ)中,至少提供所需的最低性能,企業(yè)可以避免為不需要的高性能付費(fèi)。存儲(chǔ)成本的降低是采用分層存儲(chǔ)系統(tǒng)的主要驅(qū)動(dòng)因素。

    ?更高的存儲(chǔ)效率:依賴RAID或短行程的高性能硬盤存儲(chǔ)系統(tǒng)的存儲(chǔ)效率很低,因?yàn)榭梢栽谶@些系統(tǒng)上存儲(chǔ)的數(shù)據(jù)量比所提供的總存儲(chǔ)容量要少(在某些情況下要少得多)。由于分層存儲(chǔ)系統(tǒng)可以減輕對(duì)RAID和短存儲(chǔ)的需求(通過將不需要這種高性能的數(shù)據(jù)移至較低的存儲(chǔ)層),因此可以提高存儲(chǔ)效率。

    ?具有重用舊存儲(chǔ)設(shè)備的能力:存儲(chǔ)分層可以為存儲(chǔ)系統(tǒng)提供新的生命力,否則將需要更換存儲(chǔ)系統(tǒng),因?yàn)樗鼈儾辉贋樯蠈訑?shù)據(jù)使用提供足夠的性能。相反,它們可用于提供較低層的存儲(chǔ)。

    編輯導(dǎo)語:數(shù)倉是我們用來保存大量歷史數(shù)據(jù)的重要工具。那么,數(shù)倉為什么要分層?又該怎么進(jìn)行分層?本文從數(shù)倉分層的原因、常見的數(shù)倉分層模型、數(shù)倉分層的做法三個(gè)方面,來詳細(xì)地介紹數(shù)倉分層。快來閱讀一下吧。

    一、數(shù)倉為什么要分層

    數(shù)倉分層的原因也即是分層的好處體現(xiàn)在下面幾個(gè)方面:

    1. 分層是一種空間換時(shí)間的操作

    我們知道數(shù)倉一般都是用來保存大量的歷史數(shù)據(jù)的,這些數(shù)據(jù)可能是業(yè)務(wù)數(shù)據(jù)也可能是日志數(shù)據(jù)。

    由于數(shù)據(jù)量級(jí)很大,如果直接查詢數(shù)倉中的原始數(shù)據(jù)需要訪問的表的數(shù)量和底層文件的數(shù)量都較多,體現(xiàn)在我們?nèi)粘9ぷ髦芯褪荢QL異常復(fù)雜,甚至join和union加一起都不夠用,造成的直接后果就是SQL運(yùn)行很慢,甚至跑不出來結(jié)果或者報(bào)錯(cuò)。

    而分層要做的就是對(duì)原始數(shù)據(jù)重新做歸納整理,在不同層級(jí)對(duì)數(shù)據(jù)或者指標(biāo)做不同粒度的抽象。

    經(jīng)過分層后,同一個(gè)指標(biāo)可能在不同層的數(shù)據(jù)中都有體現(xiàn),似乎是“重復(fù)”了,但這種重復(fù)是一種“不完全”的重復(fù),因?yàn)槊總€(gè)層級(jí)中指標(biāo)的粒度是不完全一致的。

    這種不是完全重復(fù)的重復(fù)給我們帶來的直接好處就是SQL寫起來大大簡(jiǎn)化了,SQL計(jì)算耗時(shí)大大降低了。

    有人可能會(huì)質(zhì)疑這樣會(huì)造成存儲(chǔ)成本的提高,但是相比帶來的直接收益,這一點(diǎn)成本是可接受的,畢竟誰也不想被老板一遍又一遍的dis:我要的數(shù)怎么還沒有跑出來?

    2. 分層有利于減少重復(fù)開發(fā)

    分層把大部分常用的、通用的數(shù)據(jù)模型和指標(biāo)進(jìn)行抽象和匯總,經(jīng)過這樣的處理后生成可滿足大部分業(yè)務(wù)場(chǎng)景使用的數(shù)據(jù)表和指標(biāo)。

    這些表和指標(biāo)就類似于程序開發(fā)中的公共模塊和接口,下游的使用方在使用的時(shí)候就不需要再從頭開發(fā)了,直接拿來用即可。

    這樣不僅減少了重復(fù)開發(fā)而且做到了數(shù)據(jù)和指標(biāo)的統(tǒng)一。

    3. 分層可以把復(fù)雜的問題簡(jiǎn)單化

    舉個(gè)例子,大多數(shù)分析師剛到一個(gè)新公司的時(shí)候常常會(huì)被迫接手一個(gè)甚至是幾個(gè)長(zhǎng)達(dá)上千行的祖?zhèn)鱏QL代碼,里面join、uoion數(shù)不過來,一層又一層嵌套的子查詢更是剪不斷、理還亂。

    遇到這樣的情況不知道的小白會(huì)認(rèn)為這個(gè)前輩很牛逼,能寫出這么長(zhǎng)的SQL,甚至竊認(rèn)為自己很幸運(yùn)學(xué)習(xí)到了一個(gè)這么牛逼的SQL。

    但實(shí)際情況往往是數(shù)倉分層不合理或者剛開始的時(shí)候沒有數(shù)倉,所有的邏輯都要從最底層的表中來計(jì)算,這個(gè)時(shí)候不復(fù)雜都難。

    而數(shù)倉分層要做的一部分工作就是把這個(gè)又臭又長(zhǎng)的SQL進(jìn)行拆解和預(yù)處理,一方面就是上面提到的把通用的數(shù)據(jù)和指標(biāo)進(jìn)行歸類和預(yù)計(jì)算,另外一方面就是把JOIN和UNION這些復(fù)雜的操作拆解放在數(shù)倉的ETL中來處理。

    這就是所謂的把復(fù)雜的問題簡(jiǎn)單化。

    4. 分層帶來更高的數(shù)據(jù)安全

    數(shù)據(jù)經(jīng)過分層以后,每層的表的寬度和指標(biāo)的粒度都不同,這樣就可以針對(duì)不同的使用的對(duì)象開放不同層級(jí)的數(shù)據(jù)。

    不需要關(guān)心明細(xì)數(shù)據(jù)的對(duì)方直接開放聚合度高的數(shù)據(jù)即可,這樣就避免了底層明細(xì)、敏感數(shù)據(jù)的泄漏。

    另外在分層處理的時(shí)候也可以對(duì)一些敏感的字段做刪除、脫敏加密的處理,避免因安全控制精細(xì)化不夠帶來的數(shù)據(jù)使用權(quán)限大于申請(qǐng)的權(quán)限。

    分層的其他好處還包括,數(shù)據(jù)更加規(guī)范有條理,數(shù)據(jù)血緣更加清晰,數(shù)據(jù)表和指標(biāo)的統(tǒng)一等等。

    二、常用的數(shù)倉分層模型

    我們以阿里的數(shù)倉架構(gòu)圖為例來說明數(shù)倉常用的分層模型。

    阿里整體數(shù)據(jù)分了5層,分別是ODS,DWD, DIM,DWS,ADS,下面我們分別介紹一下。

    ODS(Operation Data Store)層,中文通常有兩種叫法,分別是貼源數(shù)據(jù)層和操作數(shù)據(jù)層。

    前者是站在與數(shù)據(jù)源的關(guān)系層面來說的,也就是說這一層的數(shù)據(jù)是跟數(shù)據(jù)源的數(shù)據(jù)是一致的,所以稱其為貼源數(shù)據(jù)層。

    后者是站在數(shù)據(jù)產(chǎn)生的層面來說的,也就是說這一層的數(shù)據(jù)是公司發(fā)生的一系列業(yè)務(wù)動(dòng)作產(chǎn)生形成的,所以叫操作數(shù)據(jù)層。

    我們可以看到不論是哪一種叫法都體現(xiàn)了與源數(shù)據(jù)的一致性。

    所以這一層的數(shù)據(jù)一般來說是與業(yè)務(wù)庫中中的數(shù)據(jù)保持一致的,也即是說這一層的數(shù)據(jù)來源于業(yè)務(wù)mysql、oracle等庫中或者日志中,在同步的過程中不對(duì)數(shù)據(jù)做任何處理,保證與源數(shù)據(jù)的一致。

    這一層是最基礎(chǔ)也是最重要的一層,就像大廈的地基一樣,地基不牢,越是高層越是不穩(wěn)定。

    DWD(Data Warehouse Detail),中文稱之為明細(xì)數(shù)據(jù)層。

    這一層在與原表保持同一粒度的基礎(chǔ)上根據(jù)業(yè)務(wù)過程對(duì)ODS的數(shù)據(jù)進(jìn)行去除臟數(shù)據(jù),按照業(yè)務(wù)過程對(duì)表進(jìn)行歸類和關(guān)聯(lián),經(jīng)過ETL得到與業(yè)務(wù)過程相對(duì)應(yīng)的事實(shí)表。

    通常是實(shí)際業(yè)務(wù)中按照維度建模的方式把一些常用的維度也會(huì)冗余的到這一層的表中以降低數(shù)據(jù)查詢的成本。

    需要特別提醒的是這一層的數(shù)據(jù)在粒度上仍然是明細(xì)數(shù)據(jù),是沒有進(jìn)行聚合的,只是表變得更寬了些。

    DIM(Dimension),中文稱之為維度數(shù)據(jù)層。

    這一層其實(shí)是與DWD平行的一個(gè)層級(jí),是對(duì)業(yè)務(wù)中常用維度的建模和抽象,例如常見的地域維度,日期維度,商品品類SKU等維度。所謂的維度也即是我們看數(shù)據(jù)和分析數(shù)據(jù)的一種習(xí)慣和視角。

    這一層通常存儲(chǔ)的是完整的維度key和維度的名稱,而事實(shí)表中通常存儲(chǔ)的是維度key的字段。

    DWS(Data Warehouse Service),直譯為數(shù)據(jù)服務(wù)層,我們通常稱其為匯總數(shù)據(jù)層。

    這一層的數(shù)據(jù)來源基本上都是DWD和DIM,通常是把DWD中的事實(shí)表的key和DIM中的維度key關(guān)聯(lián),然后對(duì)事實(shí)按照更高的維度進(jìn)行上卷的聚合操作,得到在某一維度或者多個(gè)維度上的匯總數(shù)據(jù)或指標(biāo)。

    需要提醒的是數(shù)據(jù)在這一層發(fā)生了粒度變化,不再是明細(xì)的數(shù)據(jù),而是聚合后的數(shù)據(jù),這也是這一層別稱之為匯總數(shù)據(jù)層的原因。

    ADS(Application Data Service),直譯應(yīng)用數(shù)據(jù)服務(wù)層,也就是我們通常說的應(yīng)用層或者指標(biāo)層。

    這一層的數(shù)據(jù)來源可以是DWD層,也可以是DWS層,或者是二者的混合計(jì)算。

    這一層的數(shù)據(jù)也是聚合后的數(shù)據(jù)。

    那么它與DWS層的區(qū)別是什么呢?

    DWS通常是對(duì)明細(xì)數(shù)據(jù)按照常用的維度所做的較低維度的聚合匯總,而ADS層通常是面向具體應(yīng)用(報(bào)表、接口等)的較高維度的數(shù)據(jù)指標(biāo)的聚合匯總。

    舉一個(gè)不是特別恰當(dāng)?shù)呛苣苷f明問題的栗子,DWD的10條數(shù)據(jù)可能在DWS中聚合成了5條,但是在ADS中可能被聚合成了1條,所以二者的聚合度是不一致的。

    不過也可能存在二者的聚合度一致,但此時(shí)ADS層的表中的字段更多或者更少,這也是體現(xiàn)了其面向具體應(yīng)用的含義。

    以上是阿里數(shù)倉的主要分層,拋開具體的層次名稱,一般意義上數(shù)倉可分為三個(gè)大的層次,分別是原始數(shù)據(jù)層,也就是數(shù)倉中數(shù)據(jù)的來源。

    清洗處理層,也就是對(duì)原始數(shù)據(jù)經(jīng)過各種操作后形成的數(shù)據(jù)。

    面向應(yīng)用層,也就是說是針對(duì)單個(gè)特定的數(shù)據(jù)需求清洗而形成的數(shù)據(jù)。

    明白了這層含義,我也就不用再解釋其他一些諸如DWM,FACT,DW,DM等的寫法和叫法了,這些都只是表象,核心還是上面說的三層的本質(zhì)。

    三、你的數(shù)倉該怎么分層

    好多同學(xué)可能看了上面的分層介紹后覺得分層不就是那么回事嗎?

    可是一到實(shí)際的場(chǎng)景中就犯了難,ODS中還好說,可是后面要分幾層,每一層的原則和依賴怎么定義?

    針對(duì)一個(gè)具體表是放在ADS層合適呢還是放在DWS層合適呢?

    下面就來跟大家說說如何對(duì)你的數(shù)倉分層。

    首先我們要記住一個(gè)原則:

    不要為了分層而去分層,盲目的分層不但會(huì)造成數(shù)倉中表的混亂而且造成很大的資源浪費(fèi)更是給后面的數(shù)據(jù)治理留下的無窮的隱患。

    分層的目的是讓數(shù)據(jù)更規(guī)范、清晰更易用而不是為了讓層次更多。

    兩點(diǎn)要牢記的是越是往上層數(shù)據(jù)的粒度就越粗,所表達(dá)的內(nèi)容就越有限,所以不是層級(jí)越多越好。

    本層的表一般只允許依賴他緊鄰的上一層,應(yīng)嚴(yán)格避免同層依賴,否則極易產(chǎn)生循環(huán)依賴。

    知道了上面的原則和要點(diǎn),我的建議是如果業(yè)務(wù)場(chǎng)景比較簡(jiǎn)單且數(shù)據(jù)表也不是很多,三層就足夠了。

    如果業(yè)務(wù)場(chǎng)景和過程比較復(fù)雜,指標(biāo)口徑需要很多表關(guān)聯(lián)才能計(jì)算的話建議四層或者更多的層。

    不要為了分層而分層也不要被這個(gè)層所層層困住。

    一千個(gè)讀者可能有一千種分層的想法,一千個(gè)公司可能也有一千種分層的方法,適合自己的就是最好的。

    作者:數(shù)據(jù)倉庫@唐剛,“數(shù)據(jù)人創(chuàng)作者聯(lián)盟”成員。

    本文由@一個(gè)數(shù)據(jù)人的自留地 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

    題圖來自 Pexels,基于CC0協(xié)議。

網(wǎng)站首頁   |    關(guān)于我們   |    公司新聞   |    產(chǎn)品方案   |    用戶案例   |    售后服務(wù)   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區(qū)    電話:010-     郵箱:@126.com

備案號(hào):冀ICP備2024067069號(hào)-3 北京科技有限公司版權(quán)所有