操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    大數據管理與治理全文》由會員分享,可在線閱讀,更多相關《大數據管理與治理全文(6頁珍藏版)》請在人人文庫網上搜索。

    1、大數據管理與治理(全文)胡經國本文作者的話:本全文由已在百度文庫發表的本文 2 篇連載文檔匯集而成。特此說明、大數據管理與 、 概述 是大數據分布式處理框架,是一項開源技術,是當今與大數據應用 最為息息相關的數據管理平臺。它主要由 Yahoo 創建于 2006 年;一部分基于 由 在一些技術論文中所闡述的思想。它創建不久,不少互聯網公司采用 該技術并開始對其自身的發展貢獻力量。在過去幾年, 已經演變成一種 有著基礎設施組件和相關工具的復雜生態系統;而且它被各家供應商打包在一 起成為商業 發行版本。對于高級分析活動來

    2、說,在集群服務器上運行的,為建立一個高性能、低成本的大數據管理架構提供了途徑。隨著人們逐漸意識到其能力的提 升, 的應用蔓延到了其他行業,包括對混合有傳統結構化數據和新型非 結構化數據以及半結構化數據的應用程序的報告和分析。其中包括:網絡點擊 流數據、在線廣告信息、社交媒體數據、醫療記錄以及來自制造設備的傳感器 數據和源于互聯網設備的數據。2、 核心組件 包含了大量開源軟件組件。這些組件擁有用于計算、處理、管理和 分析大量數據的核心模型,而這些數據則由各種各樣的支撐技術所包圍。這些 核心組件包括:、 ( Distr

    3、 File )是 分布式文件系統。它支 持傳統的分級目錄和文件系統;而傳統的分級目錄和文件系統則是將文件分布 于集群中的存儲節點上,例如 (數據節點)。、 是可以對批量應用程序進行并行處理的編程模型和執行框架。、 ( Yet An other )是負責管理任務調度。它為運行 中的應用程序分配集群資源,并在可用資源出現爭用時進行仲裁。它同時還對 正在處理中任務的進展進行追蹤和監控。、

    hadoop工具_部署hadoop federation的工具_元數據管理工具 hadoop

    4、是由不同組件使用的一組庫和工具。3、 的開發管理和應用在 集群中,那些核心部分和其他軟件模型,是分層于計算和數據 存儲硬件節點集合之上的。這些節點通過高速內網連接,以形成高性能并行分 布式處理系統。作為一個開源技術的集合, 并不受控于任何一個單獨的供應商;相 反的是,它的開發是由 ( 軟件基金會)進行 管理的。 為用戶提供 使用許可;基本上可以讓用戶免費、無版 稅地使用該軟件。開發人員可以直接從 的網站下載并自行構建 環境。但是,由 H

    5、adoop 供應商提供帶有基本功能的預構建社區版本。該版本 同樣可以免費下載,并能在各種硬件平臺上進行安裝。同時,還有市場商業版 和企業版: 發行版根據維護和支持服務的不同等級來打包軟件。在某些情況下,供應商也會基于 的技術,提供性能和功能方面的增 強。例如,通過提供附加的軟件工具來簡化集群配置和管理;或是與外部平臺 的數據整合。這些商業產品,讓各種規模的公司對 的接納度越來越 高。這是非常有價值的。尤其是當商業公司供應商的支持服務團隊,可以啟動 一家公司 基礎設施的設計和開發,并且能夠引導工具的選擇和高級功 能的集成,以快速部署高性能分

    hadoop工具_元數據管理工具 hadoop_部署hadoop federation的工具

    6、析解決方案來滿足新興業務需求。4、典型 軟件棧組件 當你拿到一份商業版本的 時,你能從中真正獲得什么呢?除了核 心組件,典型的 發布版本會包含(但不限于)以下內容:、替代數據處理和應用程序執行管理器諸如 Tez 和 Spark 之類的替代數據處理和應用程序執行管理器。它們可以 在 YARN 之上運行,或是與 YARN 并行,以提供集群管理、緩存數據管理、 以及其他改善處理性能的方法。、列式數據庫管理系統 HBase是一款列式數據庫管理系統。它模仿的是運行在HDFS之上 的 Big Table 項目。、 SQL-on-

    7、 工具諸如 Hive, ,,Drill 以及 Spark SQL 之類的 SQL-on- 工具。這些工具為直接查詢存儲在 HDFS 中的數據提供了與 SQL 標準不同程度 的兼容性。、開發工具諸如Pig之類的開發工具,可以幫助開發人員構建 項目。、配置管理工具諸如 或是 之類的配置管理工具,可以用來進行監控和管 理。(6)、分析環境諸如 之類的分析環境,可以為機器學習、數據挖掘和預測分析提 供分析模型。由于 是開源的,因此對于 發行版你無需付費。相反的是, 供應商

    元數據管理工具 hadoop_部署hadoop federation的工具_hadoop工具

    8、則售賣有不同水平服務協議(SLAs)的年度支持訂閱版本。雖然每家供 應商都會對自家的附加組件進行提升,如此一來也作為 發布版的一部 分為 社區做出了貢獻。所有的供應商都會積極參與到 社區中來。5、 大數據管理環境的管理在 系統之外獲得所需性能,需要一個熟悉 IT 專業的協調團隊。該 團隊致力于架構計劃、設計、開發、測試和部署,以及運行中操作和維護方面 的工作,以確保獲得最佳性能。意識到這一點是非常重要的。對于這樣的 IT 團 隊通常會有以下要求:需求分析師元數據管理工具 hadoop,基于運行于 環境中的應用程序類型來評估系統

    9、性能 需求。系統架構師,評估性能需求并設計硬件配置。系統工程師,對 軟件棧進行安裝、配置和調優。應用程序開發人員,設計并實現應用程序。數據管理專家,做數據整合、創建數據布局并執行其他管理任務。系統管理員,進行操作管理和維護。項目管理人員,監督各級棧和應用程序開發工作的實現。項目經理,負責 環境和優先級、應用程序開發和部署的實現。6、 軟件平臺市場從本質上講,作為一個可行的大規模數據管理生態系統, 的演化已經創造了一個新的軟件市場。它正在轉變商業智能和分析行業。這已經從兩方 面進行了擴展,即:用戶企業可以運行的分析應用程序,以及可以作為這些應

    hadoop工具_元數據管理工具 hadoop_部署hadoop federation的工具

    10、 用程序一部分加以收集并進行分析的數據類型。在 中,該市場包括三 個獨立的專業供應商以及其他提供 發行版或功能的公司。對那些提供 發行版本的供應商進行評估,需要理解所供產品兩個 方面的異同。首先是技術本身:發行版中包含有哪些不同之處;它們支持什么 樣的平臺;而且,最為重要的是,個體供應商集成了什么樣的特定組件?其次 是服務和支持模型:對于每類訂閱級別都提供什么樣的支持和 SLAs 以及不同 的訂閱費用?二、數據治理與大數據平臺設計本文議程:數據治理的背景和現狀;數據治理要素和策略;元數據管理; 主數據管理;數據質量管理;大數據平臺設計。1、數據治理背景、

    11、大數據時代凸現數據治理重要性;、數據治理是大數據的基礎; 、信息孤島現象嚴重;、數據質量問題嚴重;、數據應用未得到有效管 理;、數據安全問題日益嚴峻。2、數據治理現狀、意識到了問題的嚴重;、“維持”代替“管理”;、歷史“包 袱”沉重;、相關方面利益交織,協調困難;、方案規劃容易落地困難; 、過度依賴技術工具;、對于數據沒有明確區分。3、數據治理要素組織();流程、活動 與機制( & & );技術平臺與工具( & Tools);計劃、制度與標準規范 ( Plan & Ru

    元數據管理工具 hadoop_部署hadoop federation的工具_hadoop工具

    12、le & )。4、數據治理策略獲得支持;引入外援;找到“痛點”;確定“起點”;責任到人;持之以 恒;績效評估。5、經驗總結標準先行,實事求是,使用工具,確定方法,獎懲機制,做好績效。6、實施建議 質量:數據質量提升是目標;主數據:主數據管理是關鍵;元數據:元數 據管理是基礎。7、元數據管理、元數據的定義 包括:技術元數據、業務元數據、操作元數據。、為什么要進行元數據管理? 、數據的參考框架;、解決數據模糊性;、可視化數據流動;、 影響和血緣分析;、推進標準化建設;、規范化數據審計。、經驗分享 、標準領先;、全局治理;、盡快見效;、高層支持;、業務 參與;、獎懲機制。、

    13、數據定義標準體系標準單詞;標準用語;標準體系;標準域。8、數據模型標準化、模型設計標準 、結構 實體、屬性、關系、主鍵,范式化等;命名規則、用語詞典、標準域等。 、管理 數據管理政策、方針等;配置管理、版本管理等。 、質量 準確性、完整性、實時性、一致性。 、應用 查詢結果的準確性、使用便利性、查詢結果的迅速性。、實施路線模型診斷f模型優化f設計規范f設計指南。按照模型設計規范和指南統一設計企業內部數據模型。、標準化體系(數據定義和模型設計)、元數據管理工具的選擇、元模型易于擴展;、界面友好;、安全和系統管理;、配置管 理;、發布、查詢、報表功能;、平臺開放;、提前試用。9、主數據管理、什么是

    14、主數據? 企業主數據是分散存儲在企業各系統內、對企業至關重要的核心業務實體的數據元數據管理工具 hadoop,比如客戶、合作伙伴、員工等。其特點是:關鍵、分散、緩慢、共 享。、主數據類型 當事人;地域;事物;財務和組織。、主數據與參考數據 參考數據可以是主數據,但不一定是主數據。、為什么要做主數據管理? 數據冗余;數據沖突;難于應變;阻礙業務。、如何做好主數據管理? 、經常遇到的主數據問題 業務不關心,業主很難找,語義不統一。 、做好主數據管理要點 分析生命周期:整理并分析主數據的生命周期; 識別相關方:識別并管理主數據相關方; 識別含義類型:識別主數據含義、上下文、類型。、主數據實施流程 、數據梳理 、主數據識別 、項

    15、目實施 項目實施要點:選擇工具;定制開發;制定標準規范;確定組織架構。 、運行維護10、數據質量管理數據質量問題體現在以下幾個方面:、數據值域;、數據定義;、 數據完整性;、數據有效性;、業務規則;、結構完整性;、數據轉 換;、數據流。11、組織架構設計業務與技術部門各司其職,共同做好數據質量管理工作。、業務部門 統計部門(業務部門)負責業務規則的制定,在業務層面統管數據質量和 安全。、技術主管部門 技術主管部門負責數據集成、使用等過程中的數據質量,并對數據質量報告進行定期發布。(3)、評審委員會 技術部門設置評審委員會,對數據方面的變更進行管控,具有技術方案否 決權。12、數據質量治理流程、

    16、策略和方法、策略 反面影響和正面效果征得了領導層關注;改進工作分布實施,循序漸進;數據質量報告定期發布。、方法應用系統需求和架構經過嚴格評審;系統的數據結構變更需要進行嚴格評 估;數據發生變更時,通報所有相關方。、技術手段從源頭改起,形成良性循環; 24 小時監控,及時按照預案處理問題;多環 節設置數據質量監控功能;短信及時通知相關業務人員核對問題; BI 系統不斷 整合;不斷改進工具軟件。、最佳實踐從數據剖析( )開始;盡量使用工具進行數據剖析;數據剖析工作 需要持續開展;數據集成過程也需要進行數據剖析;數據質量評估和改進需要 被動和主動兩種方式;得到高層的支持;關鍵數據先行,漸進開展;在數據的 “上游”解決質量問題;防患于未然“優于后期治療”;數據質量報告要大范 圍發布。2016年 6月 14日編寫于重慶2020年 7 月 28日修改于重慶6

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有