操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    文丨中信證券股份有限公司信息技術中心

    王哲 趙梓榮 岳豐 舒光斌 方興

    監管報送是證券公司重要的運營管理活動,也是相關法律法規下企業應盡的義務。隨著我國證券業監管體系的不斷完善,監管機構對報送數據的要求也日益嚴格,證券公司必須確保向各類監管機構及時、準確報送各種信息。本文以元數據血緣圖譜技術研究及運用為例,探討提升面向監管報送數據治理質量的新方法。

    一、監管報送數據治理

    難點及對策

    由于證券公司的業務類型眾多且專業程度高,以及各類監管報送任務數據需求復雜多樣,使得傳統報送數據生產模式呈現各業務線單獨開發數據報表支持報送的特征。但此種模式存在兩方面的問題:一是報送數據分散在不同IT系統中,難以統一管理,當上游數據發生變化時,定位并通知全部受影響報送任務很困難;二是不同報送任務可能使用相同指標,但不同系統的指標計算邏輯可能不統一,且多個系統重復計算也存在資源浪費問題。為解決上述問題,證券公司需要優化監管報送數據的生產過程,以提升數據質量。

    證監會于2019年實施的《證券基金經營機構信息技術管理辦法》,對證券基金機構數據治理工作提出具體要求,即應建立全面、科學、有效的數據治理組織架構以及數據全生命周期管理機制,確保數據統一管理、持續可控和安全存儲,切實履行數據安全及數據質量管理職責,不斷提升數據使用價值。為滿足監管報送數據治理要求,中信證券股份有限公司(以下簡稱“中信證券”)研發了集中對外報送數倉系統(如圖1所示),將各種業務對外報送數據集中在報送數倉計算和存儲,降低報送數據管理復雜度;對各種報送指標采用統一計算方法,確保不同報送任務依賴指標口徑一致。集中對外報送數倉不僅可支撐日常監管報送,也可持續推動形成本公司內高可信數據。此外,中信證券還在報送數倉中設計實現了分層數據模型:貼源層數據表同步報送所需各業務系統的原始數據表;中間層數據表計算報送常用的數據實體和統計指標;報送層數據表針對每個具體報送任務開發,主要基于中間層數據表計算報送輸出的結果字段。

    圖1 中信證券集中對外報送數倉系統架構

    然而,集中對外報送數倉和分層數據模型的建設,雖然解決了報送數據分散、指標計算邏輯不統一等問題,但也導致了數倉內數據元素規模巨大、關系復雜,數據管理須依賴強有力的數據表達和分析手段,為此,中信證券開展元數據血緣管理子系統項目研發工作,意在解決這一難題。

    二、元數據血緣分析與知識圖譜技術

    中信證券元數據血緣管理子系統項目采用元數據(Meta Data)及血緣分析()方法支持報送數倉數據管理。元數據簡單來說就是“描述數據的數據”,報送數倉系統關注的元數據類型主要包括數據表、表字段、數據指標等,此外也包括計算報送數據的存儲過程、計算中產生的臨時表及其字段等,各種元數據之間存在直接或間接依賴關系。元數據血緣分析除維護直接依賴關系外,還需要通過各種查詢推理,計算元數據之間的各種間接依賴關系,主要包括溯源分析、影響分析、路徑分析等,分別對應報送工作的具體需求場景。例如,溯源分析可用于追溯報送層異常數據指標的來源全鏈路,及時定位并修復數據問題,維持數據指標的準確性;影響分析能快速排查出底層數據來源的變動對上層各類報送數據指標的影響,協助評估修改底層數據表、字段結構的影響。

    在技術實現方面,針對血緣分析的數據處理需求,關系數據庫常用的計算模式與之差別較大,難以有效支持,必須找到適合的數據模型和技術框架。各種血緣分析問題的本質是表達和查詢元數據之間的關系,因此非常適合采用圖(Graph)數據模型,即將元數據視為節點(Node),將直接血緣關系視為邊(Edge),血緣多跳分析可以利用各種圖計算技術實現。知識圖譜( Graph)是一種面向圖數據的強大理論和技術框架,是由帶屬性實體經過關系鏈接而形成的網狀知識庫,通過知識三元組(實體-關系-實體)形式存儲知識,其中的實體()和關系()分別對應圖模型的節點和邊。近年來,知識圖譜理論取得很大進展,是人工智能最熱門研究方向之一。在工程化層面,知識圖譜的存儲、查詢、計算工具軟件也日趨完善,如Neo4j、、、、等。總之,知識圖譜具有強大、靈活的圖數據查詢和計算能力,能夠有效支持各種血緣分析問題,因此元數據血緣管理子系統項目選擇知識圖譜作為核心技術研發了元數據血緣管理子系統(見圖1右側),其子系統包括元數據獲取、血緣圖譜構建、血緣查詢與展示等模塊,滿足元數據的影響分析、溯源分析、路徑分析等應用需求。

    三、報送數據血緣圖譜的構建

    中信證券集中對外報送數倉系統支撐本公司各類業務線的數據生產,目前已有數百套報表使用該系統計算,最終投產報表數量可達到2000套左右。除報送數據表外,該系統還保存了全部表結構信息和存儲過程代碼。這些系統數據是建設數據血緣圖譜的關鍵輸入。設計并實現數據血緣圖譜構建(如圖2所示)需要以下四個步驟。

    圖2 報送數據血緣圖譜的構建步驟示意

    步驟1:提取數據庫表結構和存儲過程代碼

    從報送數倉系統的信息表中提取全部名稱、數據表名稱、字段名稱和類型,數據表和字段將作為血緣圖譜中的節點。生產報表的存儲過程代碼也可以從數倉其他系統信息表中獲取,存儲過程中的SQL代碼段作為計算血緣圖譜中關系的數據來源。

    步驟2:解析每個存儲過程血緣

    這一步驟是血緣構建的關鍵操作,對每個存儲過程提取其中的SQL代碼段,基于成熟的SQL解析工具包,把源代碼中蘊含的邏輯關系顯式轉化為血緣圖譜中字段節點之間的血緣關系,并區分影響類型,如投影、where從句、join從句、從句等。為確保SQL解析的準確性,在集中對外報送數倉系統開發階段設計了存儲過程的開發樣式模板,每個存儲過程都具有相同的代碼風格;另外,增加代碼預處理的環節存儲系統元數據圖譜化,過濾每個存儲過程中注釋、運行狀態寫入log日志等操作,避免這些附加內容干擾SQL解析工具效果。

    步驟3:血緣關系人工審核修訂

    盡管對存儲過程進行各種預處理,但由于SQL代碼表達方式多樣,解析血緣關系仍有可能存在和代碼邏輯并不完全等價的問題。系統提供了人工確認并修改血緣關系的功能,使用戶可通過表單和圖形化方式,審核、修改血緣結果(增加、刪除、重置血緣關系,如圖2中紅色節點和邊)。由于人工審核、修改血緣需要不小的人力開銷,這一步驟可以只針對血緣關系準確性要求較高的關鍵存儲過程進行。

    步驟4:融合生成報送數據血緣圖譜

    集中對外報送數倉系統中的全部數據表是通過幾百個存儲過程計算得到的。每個最終報送的報表,除依賴直接計算它的存儲過程外,還依賴若干上游存儲過程準備中間層的結果表。每個存儲過程解析的血緣關系,是報送數倉整體血緣關系的一個局部子圖,需要將這些子圖融合起來。通過研發血緣融合的計算方法,挖掘各個存儲過程血緣關系的公用節點(如圖2中深色節點a、b、c、d),將血緣子圖在這些節點處拼接對齊,可得到整體的報送數據血緣圖譜。

    基于集中對外報送數倉系統的元數據血緣管理子系統項目在實際落地過程中構建了報送血緣圖譜,包含21種實體,總數目約為52萬;包含28種關系,總數目超過150萬。

    四、報送血緣圖譜的應用

    使用開源圖數據庫存儲構建的報送數據血緣圖譜,圖譜數據支持每日定時和臨時觸發兩種更新模式。基于輕量級Web開發框架Flask、封裝圖數據庫查詢語言和其他數據處理操作,開發報送數據血緣常用查詢功能API供前端調用,包括單節點影響分析和溯源分析、節點對之間路徑分析、多個節點全部影響/溯源節點集的批量查詢等,以滿足實際監管報送的數據需求。另外,使用各種前端技術和算法策略,對各種圖查詢結果提供美觀、易理解的圖形呈現。以下介紹幾個典型應用。

    1.元數據影響分析

    需求場景:集中對外報送數倉系統上游數據,由各交易類業務系統數據表推送而來。當業務系統升級改造后,某些數據表中字段的類型、取值規則等可能發生變化,故需要全面查詢升級將影響哪些報送數據表,以修改相關存儲過程代碼邏輯。

    傳統人工分析必須遍歷全部報送存儲過程存儲系統元數據圖譜化,逐個判斷變更是否影響相關報送,非常耗時耗力;而且由于數據影響的多層傳遞,容易丟失某些數據間接影響,造成某些報表代碼邏輯未更新的隱患。基于報送血緣圖譜的影響分析功能,則可以快速、全面地查詢到上游業務表字段在報送數倉系統中影響的多層表字段子圖;另外,還可以基于字段間血緣關系類型(投影、where從句、join從句、從句等),靈活過濾結果得到包含特定關系類型集合的影響子圖(如圖3所示)。

    圖3 字段級影響分析示例

    2.元數據溯源分析

    需求場景:在集中對外報送數倉系統計算結果報表的審核、確認、提交等環節中,如果發現報表數據呈現不合理結果,需要快速、準確地定位上游問題根源并進行修改。

    溯源分析是影響分析的逆向過程。基于報送血緣圖譜的溯源分析功能,可以直接查詢到所關心報表(或字段)是由哪些上游關聯數據表(或字段)影響的,利用知識圖譜可視化算法,將層次化的溯源結果,在網頁上直觀展示出來,方便用戶理解分析。元數據血緣關系邊上還記錄所歸屬的存儲過程,當用戶探究某個存儲過程作用時,將溯源子圖上對應邊進行加粗顯示,幫助用戶更加直觀地進行理解。溯源分析快速、全面定位報送數據的源頭及層次脈絡,幫助技術人員高效率解決問題。

    五、總結與展望

    證券公司監管報送工作涉及各個業務系統數據,為此,中信證券通過建設集中對外報送數倉系統,降低報送數據處理的復雜度,并確保報送指標的一致性。鑒于集中對外報送數倉系統內元數據血緣關系復雜,中信證券利用知識圖譜技術構建元數據血緣圖譜,能夠有效的存儲、查詢、計算報送元數據及其血緣關系。中信證券還研發針對不同粒度元數據的影響分析、溯源分析等圖查詢和分析功能,并對計算結果提供可視化展示,探索了系統之間血緣影響的分析方法。中信證券研發的元數據血緣管理子系統是知識圖譜在監管報送數據管理中的創新實踐,是報送數倉數據治理框架的重要組成部分。

    未來,中信證券將基于元數據血緣管理子系統,探索更多元數據及血緣關系管理的應用場景,例如,將不同粒度下的數據血緣數據有機融合提供更加靈活多樣的血緣查詢能力;探索建設多個關聯系統的血緣圖譜,提供跨系統數據血緣分析能力。建設涵蓋證券公司數百個業務系統數據血緣的統一知識圖譜,發揮元數據的重要價值,推進公司數據治理和數字化轉型是中信證券建設本項目的最終愿景。

    本文擬刊于《中國金融電腦》雜志

    聯系我們

    投稿 | 電話

    -816

    -818

    投稿 | 郵箱

    市場 | 合作

    -813

    -812

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有