疫情結構化面試專業題郁南縣政務服務數據管理局
在處理非結構化數據時,人工智能和深度學習方法一直是杰出的和眾所周知的。在自然語言處理,知識庫的自動構建或圖像和視頻識別與生成應用程序中,有許多成熟的案例。 。但是,人工智能和深度學習似乎已忘記了對結構化數據的研究。結構化數據在各種業務應用軟件和系統中無處不在,例如產品數據存儲,事務日志和系統中的大量結構化數據。這些結構化數據仍然使用過時的數據技術(例如基于規則的系統,決策樹等)進行處理。這種方法需要手動進行特征提取,這很麻煩并且需要大量人力來執行數據標記。盡管人工智能的最新發展已從非結構化數據中挖掘出了巨大的價值,但對于結構化數據而言,其研究和應用仍不可忽視,因為結構化數據對于推動業務發展,收入至關重要,并且數據安全性和數據治理具有重要意義。與非結構化數據不同,結構化數據的研究一直面臨著巨大的挑戰,即對數據質量的高度敏感性。對于非結構化數據,人們可能能夠接受低分辨率視頻和圖像識別稍有缺陷。但是對于具有大量結構化數據的大型企業,核心業務數據不能容忍絲毫的錯誤。例如,對于制藥公司而言,即使是藥物劑量,價格和數量方面的微小數據錯誤也可能帶來巨大的災難。這些核心業務數據(結構化數據)在人工智能中的應用研究具有巨大的價值,但是由于對數據質量的高要求,大型企業正在努力進行此類研究。盡管對人工智能在結構化數據上的應用進行了數十年的研究,但進展甚微。數據背后的業務復雜性,基于特定規則和邏輯的系統復雜性,需要人工干預的數據清理和準備工作的高昂成本,均阻礙了這項研究的發展。為了在結構化數據的應用中取得成果,首先必須解決手工數據清理和準備的問題,并找到一種很少或沒有人為干預的自動化方法,以便可以實現和擴展該應用程序。這就是為什么機器學習方法可以應用于結構化數據準備和清理的原因。
它可以訓練來自大量數據集的模型,預測數據質量,甚至可以提出針對數據質量的修復建議。將這種模型應用于數據準備和清理可以解決長期存在的結構化數據-數據準備和清理問題,這需要大量的人工干預。這種解決方案具有以下要求:可以組合所有信號和上下文,包括業務規則,諸如功能依賴性和鍵之類的約束以及數據的統計屬性。它可以避免構建大量規則,同時與極端情況兼容。在許多情況下,結構化數據中的規則管理比清除噪聲數據更具挑戰性且成本更高。最后,將模型提供的預測應用于標準數據質量測試,這可以傳達一種“信心”:模型的預測可以解決大多數情況,而人類只需要關注特殊情況即可。盡管結構化數據在應用研究中很困難,但我們已經找到了一些方法并取得了一些進展。處理結構化數據不僅依賴于數據本身的特征,稀疏,異構,豐富的語義和領域知識),數據表集的列名,字段類型,域和各種完整性約束等)可以解碼每個數據塊有關語義和可能的交互作用的信息。例如,兩個不同的城市不能全部對應同一郵政編碼,并且項目的總預算不能超過其計劃支出。這些都是可以明確提供的條件約束。這些條件約束增強了機器學習模型處理結構化數據的能力,而不僅僅是統計分析。處理結構化數據的主要挑戰之一是結構化數據可能是異構的,并且會組合不同類型的數據結構,例如文本數據,分類數據,數字甚至圖像數據。其次,數據表可能非常稀疏。想象一下一個列表,每個列最多具有可能的值(例如制造商的類型,大小,價格等),并且行有數百萬行。由于列值的少量組合才有意義,因此可以想象此表的可能組合空間有多``空’’。沒有任何結構,領域知識和條件約束,很難理解數據的生成方式和準確性。因此,在構建用于結構化數據準備和清理的解決方案的過程中,我們總結了三個主要挑戰:如何將背景知識轉換為模型輸入以解決數據稀疏性和異構性帶來的挑戰?預測列中的值時c 數據結構面試問題,
即使有時沒有訓練數據也如何學習模型?以識別結構化數據錯誤的模型為例。該模型發現各種數據錯誤,包括錯別字,缺失值,不正確的值,矛盾的事實和數據未對齊。使用非常有限的可用誤差樣本以及可用數據中的這些誤差來訓練這樣的模型是要克服的挑戰。如何將模型擴展到大規模應用?如何支持數百萬個隨機變量?如果將在實驗條件下訓練的模型直接應用于復雜業務環境中的結構化數據,則毫無疑問,結果肯定會失敗。我們已經開發了一個平臺,該平臺用于結構化數據訓練模型,以了解數據生成和“污染”的過程。它可以用于結構化數據的準備和清理,例如錯誤檢測,缺失值預測,錯誤校正,空值填充,數據融合等。它屬于學術開源項目,與滑鐵盧大學,威斯康星大學麥迪遜分校和斯坦福大學。 1.將數據清理視為一項任務。使用經典的噪聲通道模型來學習數據生成和“污染”的過程。完整的研究論文:?。使用所有已知的領域知識(例如規則),數據中的統計信息以及其他受信任的來源作為屬性來構建復雜的數據生成和錯誤檢測模型。該模型可用于發現錯誤并提供維修建議。最可能的替換值。圖形“ Clean”數據是根據某個生成過程生成的。我們還觀察到了生成臟數據的過程。通過建模和參數化,我們將數據清理變成一個推理問題。盡管這樣的模型已幫助我們將數據清理和數據錯誤檢測問題轉變為機器學習中的推理問題,但我們必須經過訓練以具有足夠的表現力,才能做到。應用大型模型仍然非常困難。 2.構建用于數據錯誤檢測的解決方案針對上述挑戰,如何使用一些樣本數據進行訓練,我們在本文中提出了一種解決方案。模型。數據錯誤的異質性和異質性帶來的其他影響使得很難找到合適的統計特征和完整性約束作為屬性來幫助區分錯誤值和正確值。這些屬性對應于數據庫的屬性級別,元組級別和數據集級別的功能,并且這些功能用于表示數據分布。
該層通過捕獲這些多級功能來學習用于錯誤檢測的兩個分類器。數據不平衡。數據錯誤的類型很多,但樣本數據中通常很少有錯誤。因此,當機器學習算法面對不平衡的數據集時,訓練結果通常并不樂觀。因此,通常會被識別為噪聲的罕見數據錯誤將被忽略。與常見數據錯誤相比,罕見數據錯誤具有較高的識別錯誤率。如圖所示,我們建議應用“強數據放大”方法根據學習到的錯誤生成策略創建許多“假”錯誤,并使用少量實際數據錯誤來學習策略參數。當樣本的誤差數據受到限制時,可以使用這種方法來增加誤差數據在樣本數據中的分布。數字。具有多級功能的錯誤檢測模型。 使用錯誤生成策略來解決訓練數據不平衡的問題。 3.引擎:結構化數據的現代應用,例如數據準備,數據清理,錯誤檢測和缺失值填充。可以使用統一且可擴展??的推理引擎對所有問題進行建模。這樣的引擎需要具有對“結構化”數據的生成和錯誤的生成進行建模的能力。更重要的是,結合我們上面提到的各種挑戰c 數據結構面試問題,此模型還需要結合一些現代的機器學習原理:用于生成訓練數據的數據增強和數據編程目標列值建模所需的各種上下文。例如,用于學習異構數據的嵌入式空間,并盡可能多地使用所有數據。例如,使用其他值將一些觀察到的數據值,輸入領域知識和規則重構到模型中,并擴展模型的表達能力以執行一些系統級優化,例如學習數據分區和本地索引,以提高模型的可伸縮性,提高模型適應多種數據分布的能力。將我們前面提到的所有研究組合到一個統一的內核中,它可以支持各種數據準備和清理應用程序。該圖描繪了上述用于處理不同數據類型(例如,定量數據的回歸分析,分類數據的分類)的各種方法的核心組件。這些方法包括基于注意力的上下文表示機制,分布式學習,數據切片以及多任務學習的自我監督。在本文中,我們提出了一種基于注意力的學習架構,
圖:統一推理引擎的核心組件圖:基于基于注意力的上下文表示和多任務學習的示例架構。 IV。結論在當今的商業數據中,大多數重要數據都是結構化的,但是由于數據質量的原因,公司的高要求使得許多有價值的研究無法實現。通過使用機器學習方法,我們可以將數據準備和結構化數據的清理視為統一的預測任務,但是這種方法具有規模,異構性,稀疏性,復雜語義和專業領域知識的挑戰。作為第一個用于結構化數據處理的可擴展平臺,該引擎已成功解決了這些挑戰!