操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    前言

    時間序列建模歷來是學術和工業界的關鍵領域,比如用于氣候建模、生物科學和醫學等主題應用,零售業的商業決策和金融等。雖然傳統的統計方法側重于從領域專業知識層面提供參數模型,比如自回歸 (AR) 、指數平滑或結構時間序列模型,但現代機器學習方法提供了一種以純數據驅動的方式對時間序列進行動態分析學習的方法。隨著近年來數據可用性和計算能力的不斷提高,機器學習已成為下一代時間序列預測模型的重要組成部分。

    受圖像分類 、自然語言處理和強化學習方面顯著成就的啟發,深度學習最近特別受歡迎。通過結合反映基礎數據集細微差別的定制架構假設(或歸納偏差),深度神經網絡能夠學習復雜的數據表示,從而減輕了對手動特征工程和模型設計的需求。 開源反向傳播框架(如)的可用性也簡化了網絡訓練,允許對網絡組件和損失函數進行定制。

    鑒于各個領域時間序列問題的多樣性,在時間序列問題上出現了許多神經網絡設計選擇。學術界已經有很多深度學習模型來適應不同領域的時間序列數據集的多樣性。本文通過調研大量前沿深度學習文獻,描述每個模型如何將時間信息合并到預測中??紤]到云智慧在運維領域面臨的實際預測落地場景,本文主要涉及三類深度學習模型:一步預測和多指標預測中使用的常見編碼器和解碼器設計,描述每個模型如何將時間信息合并到預測中;混合深度學習模型的發展;深度學習也可以通過時間序列數據促進決策支持的一些方法。

    章節目錄

    一、時間序列預測的深度學習架構

    二、將領域知識與混合模型相結合

    三、使用深度神經網絡促進決策支持

    四、總結與展望

    一、時間序列預測的深度學習架構

    時間序列預測模型預測目標

    (指定第i個指標在t時刻)的未來值,其中每個指標代表時間信息的邏輯分組 。 例如來自氣候學中不同氣象站的測量值,或醫學中不同患者的生命體征,并且可以同時觀察。在最簡單的情況下,一步法預測模型采用以下形式:

    其中公式左側為模型預測值,公式右側分別是在回溯窗口上對目標和外生輸入的觀察,

    是與實體相關的靜態元數據(例如傳感器位置),

    是模型學習的預測函數。雖然我們在本黑板報中專注于單變量預測(即一維目標),但我們注意到相同的組件可以不失一般性地擴展到多變量模型。簡單起見,除非明確要求,否則在后續部分中省略了實體索引 i。

    1、基本結構模塊

    深度神經網絡通過使用一系列非線性層來構建中間特征表示來學習預測關系。在時間序列設置中,這可以被視為將相關歷史信息編碼到隱變量

    中,并單獨使用

    生成最終預測:

    其中

    分別是編碼器和解碼器函數。編碼器和解碼器構成了深度學習架構的基本構建塊,網絡的選擇決定了模型可以學習的關系類型。 此處將研究編碼器的現代設計架構,以及它們與傳統時間模型的關系,如下圖所示。此外我們探索了時間序列預測應用中常用的網絡輸出和損失函數。

    (1)卷積神經網絡

    卷積神經網絡 (CNN)傳統上為圖像數據集設計網絡提取跨空間維度不變的局部關系。為了使 CNN 適應時間序列數據集,研究人員利用了多層因果卷積——即旨在確保僅使用過去信息進行預測的卷積濾波器。 對于隱藏層 l 的中間特征,每個因果卷積濾波器采用以下形式:

    其中(1)式中h是網絡結構中第i層在時刻t的內部狀態。*是卷積操作,W是第l層指定的過濾權重,A(.)為激活函數,例如,用以處理任何特定架構的非線性表征。

    考慮一維情況,我們可以看到(2)與數字信號處理中的有限脈沖響應(FIR)濾波器非常相似。這對 CNN 學習的時間關系產生了兩個關鍵影響。首先與標準CNN的空間不變性假設一致,時間CNN假設關系是時間不變的,即在每個時間步長和所有時間使用相同的濾波器權重集。此外CNN只能使用其定義的回溯窗口或接受域內的輸入來進行預測。 因此需要仔細調整感受野大小k以確保模型可以利用所有相關的歷史信息。值得注意的是,單個因果CNN層等效于自回歸 (AR) 模型。

    膨脹卷積使用標準卷積層在長期依賴性很重要的情況下可能具有計算挑戰性,因為參數的數量直接與感受野的大小成比例。 為了緩解這種情況,現代架構經常使用擴展的共卷積層,于是將(2)擴展如下:

    其中

    是向前取整操作,

    是特定層的膨脹率。因此膨脹卷積可以解釋為下層特征下采樣版本的卷積,即降低分辨率以合并來自遙遠過去的信息。因此通過增加每一層的膨脹率,膨脹卷積可以逐漸聚合不同時間塊的信息,從而以有效的方式使用更多的歷史。例如架構的膨脹率在相鄰時間塊聚合在每層中以2的冪增加,即允許在第l層使用 2l 時間步長(上圖a)。

    (2)循環神經網絡

    循環神經網絡 (RNN) 歷來被用于序列建模,在各種自然語言處理任務上取得了很好的效果。鑒于時間序列數據作為輸入和目標序列的自然解釋,許多基于RNN的架構已被開發用于時間預測應用程序。在其核心為RNN單元包含一個內部記憶狀態,作為過去信息的概述。在每個時間步使用新的觀測值遞歸更新內存狀態(如上圖b所示),即:

    其中

    是RNN的隱狀態,

    是每一步進入RNN的組合輸入,

    是學習到的記憶更新函數。例如最簡單的RNN變體采用以下形式:

    其中

    分別是網絡的線性權重和偏差,

    是激活函數。請注意,RNN不需要像CNN那樣明確指定回溯窗口。從信號處理的角度來看,主要的循環層(方程3)類似于無限脈沖響應 (IIR) 濾波器的非線性版本。

    LSTM由于無限的回溯窗口,舊的RNN變體在學習數據中的長期依賴關系時可能會受到梯度爆炸和消失的問題的限制。 直觀來看,這可以看作是記憶狀態中的一種共振形式。因此長短期記憶網絡 (LSTM)通過改善網絡內的梯度流來解決這些限制。具體是通過使用存儲長期信息的細胞狀態

    結合一系列門進行調制來實現,如下所示:

    其中

    是LSTM的隱藏狀態,

    是激活函數。LSTM的隱藏和單元狀態如下:

    其中

    是逐元素 () 乘積,

    是tanh激活函數。

    有相關文獻也描述了LSTM與貝葉斯濾波器的關系,貝葉斯濾波器和RNN在維護隱藏狀態方面是相似的,該隱藏狀態隨時間遞歸更新。對于貝葉斯濾波器,例如卡爾曼濾波器,通過更新潛在狀態的足夠統計數據來執行推理,即使用一系列狀態轉換和糾錯步驟。由于貝葉斯過濾步驟使用確定性方程來修改足夠的統計數據,因此可以將RNN視為兩個步驟的同時逼近:記憶向量包含預測所需的所有相關信息。

    (3)機制

    注意力機制的發展通過改進導致長期依賴學習的改進。架構在多個自然語言處理應用程序中實現了最先進的性能。注意層使用動態生成的權重聚合時間特征(見上圖c),允許網絡直接關注過去的重要時間步長,即使它們在回溯窗口中很遠。 通常注意力權重采用以下形式:

    其中

    是網絡較低層提取的中間特征,

    在時刻 t 生成的權重;

    是層的上下文矢量輸出。

    在時間序列預測應用程序中使用注意力機制與循環網絡相比具有更高的性能。 例如使用注意力來聚合由RNN編碼器提取的特征,產生的注意力權重如下:

    其中

    是權重向量,

    是用于特征提取的LSTM編碼器的輸出,(.) 是激活函數。最近一些工作也考慮了架構,它利用self-的標量內積在回顧窗口中提取特征。從時間序列建模的角度來看,注意力提供了兩個關鍵的好處。首先具有注意力的網絡能夠直接關注發生的任何重大事件。 例如在零售預測應用中,這包括可能對銷售產生積極影響的假期或促銷期。其次基于注意力的網絡還可以通過為每個架構使用不同的注意力權重模式學習特定架構的時間動態。

    (4) 輸出和損失函數

    鑒于神經網絡的靈活性,深度神經網絡已被用于對離散和連續目標進行建模,即通過定制神經網絡的解碼器和輸出層以匹配所需的目標類型。在提前一步預測問題中,這可以簡化為編碼器輸出線性變換的組合,與目標的輸出通過激活函數相結合。無論目標的形式如何,預測可以進一步分為兩個不同的類別:點估計和概率預測。

    點估計 一種常見的預測方法是確定未來目標的預期值。這主要涉及將問題重新表述為使用上述編碼器離散輸出的分類任務(例如預測未來事件)和連續輸出的回歸任務。 對于二元分類情況,解碼器的最后一層具有帶有激活函數的線性層,即允許網絡在給定的時間步長預測事件發生的概率。對于二元和連續目標的一步超前預測,網絡分別使用二元交叉熵和均方誤差損失函數進行訓練:

    概率輸出雖然點估計對于預測目標的未來價值至關重要,但了解模型預測的不確定性對于不同領域的決策者也很有用。 例如當預測的不確定性很大時時間序列預測法的步驟,模型用戶在將預測納入決策時可以更加謹慎,或者依賴其他信息來源。在某些應用程序中,例如金融風險管理,訪問完整的預測分布將允許決策者在出現罕見事件時優化他們的行動,例如允許風險管理人員保護投資組合免受市場崩盤的影響。

    對不確定性建模的常用方法是使用深度神經網絡生成已知分布的參數。例如高斯分布通常用于預測具有連續目標的問題,網絡在每個步驟輸出預測分布的均值和方差參數:

    其中

    是網絡的最后一層,(.) 是 激活函數,以確保標準差僅取正值。

    2、多步預測模型

    在許多應用程序中,獲得未來多個點預測值的估計非常重要,其允許決策者可視化未來范圍內的趨勢,并在整個路徑上優化他們的行動。從統計學的角度來看,多步預測可以看作是對單步預測問題輕微修改,即:

    其中

    是預測的離散范圍,

    為整個時間線已知的特征輸入(例如日期信息,例如星期幾或月份),且是只能在歷史上觀察到的輸入。與傳統的計量經濟學方法一致,用于多步預測的深度學習架構可以分為迭代法和直接法,如下圖所示(后續詳細描述):

    (1)迭代法

    多步預測的迭代方法通常利用自回歸深度學習架構,即通過遞歸地將目標樣本輸入未來時間步長來生成多層次預測(上圖 a)。通過重復該過程以生成多個軌跡,然后使用每個步驟的目標值的抽樣分布生成預測。例如可用蒙特卡羅估計獲得預測平均值

    ,其中

    是基于模型方程(4)的采樣結果。由于自回歸模型的訓練方式與一步法預測模型完全相同,因此迭代方法可以輕松地將標準模型推廣到多步預測。然而迭代法的遞歸架構要求除了目標之外的所有輸入在運行時都是已知的,即只需要將目標的樣本送入未來的時間步長。在存在觀測輸入的許多實際場景中,這可能是一個限制,促使需要更靈活的方法。

    (2)直接法

    直接法通過直接使用所有可用輸入生成預測來緩解迭代方法的問題。 他們通常使用序列到序列架構,使用編碼器來總結過去的信息(即目標、觀察到的輸入和先驗的已知輸入),并使用解碼器將它們與已知的未來輸入相結合(如上圖b所示)。在避免遞歸的同時,直接方法需要指定最大預測范圍(即

    ),且預測僅在預定義的離散間隔內進行。

    二、將領域知識與混合模型相結合

    盡管機器學習很受歡迎,但歷史上其在時間序列預測中的有效性一直受到質疑,正如M競賽等預測競賽所證明的那樣。在2018年的M4競賽之前,普遍的看法是復雜的方法不會產生更準確的預測,而帶有集成學習的簡單模型往往會做得更好。這里有兩個關鍵原因來解釋機器方法的性能不佳。首先機器學習方法的靈活性可能是一把雙刃劍,容易過擬合。其次類似于統計模型的平穩性要求,機器學習模型對輸入的預處理方式很敏感,而正確的數據預處理可以確保訓練和測試時的數據分布相似。

    深度學習的最新趨勢是發展解決這些限制的混合模型,在各種應用中展示出優于純統計或機器學習性能的模型?;旌戏椒▽⒔涍^充分研究的定量時間序列模型與深度學習相結合,即使用深度神經網絡在每個時間步生成模型參數?;旌夏P鸵环矫嬖试S領域專家告知使用先驗信息進行神經網絡訓練以減少網絡的假設空間并提高泛化能力。這對小數據集尤其有用,因為深度學習模型過擬合的風險更大。此外混合模型允許分離靜態和非靜態分量,并避免對自定義輸入預處理的需要。這方面的例子是M4競賽的獲勝者——指數平滑RNN (ES-RNN),它使用指數平滑來捕捉非平穩趨勢并使用RNN學習其他效果。通常混合模型以兩種方式使用深度神經網絡:(1) 非概率參數模型編碼時變參數,(2) 概率模型生成分布參數。

    1、非概率混合模型

    使用參數化的時間序列模型,預測方程通常定義為解析地,并為未來目標提供點預測。因此非概率混合模型修改了這些預測方程,以結合統計和深度學習組件。 例如ES-RNN利用Holt-指數平滑模型的更新方程,即將乘法因子和季節性分量與深度學習輸出相結合,如下所示:

    其中

    是第

    步預測的網絡的最后一層,

    步長分量,

    是周期為

    的季節性分量,

    是實體特定的靜態系數。從上述等式中,我們可以看到指數平滑組部分

    處理數據集中更廣泛的(例如指數)趨勢,從而減少了對額外輸入縮放的需求。

    2、概率混合模型

    概率混合模型同樣可用于分布建模很重要場景的應用,比如利用概率生成模型進行時間動態,如高斯過程和線性狀態空間模型。概率混合模型不是修改預測方程,而是使用神經網絡為每一步的預測分布生成參數。 例如深度狀態空間模型為線性狀態空間模型編碼時變參數,通過卡爾曼濾波方程執行推理:

    其中

    是隱狀態,

    的線性變換,是具有激活的線性變換,并且 t ~ N(0, 1),

    是標準正態隨機變量。

    三、使用深度神經網絡促進決策支持

    盡管模型構建者主要關心他們預測的準確性,但最終用戶通常使用預測來指導他們未來的行動。 例如醫生可用臨床預測(例如疾病發作和死亡率的概率)來幫助他們確定要訂購的測試的優先級、制定診斷并確定治療方案。因此,雖然時間序列預測是關鍵的初步步驟,但更好地了解時間動態和模型預測背后的動機可以幫助用戶進一步優化他們的行動。接下來探索了神經網絡擴展以促進對時間序列數據的決策支持的兩個方向——重點是可解釋性和因果推理的方法。

    1、時序數據的可解釋性

    隨著神經網絡在關鍵任務應用程序中的部署,越來越需要了解模型如何以及為何做出特定預測。此外隨著數據集的規模和復雜性在最近不斷增長,最終用戶可能對其數據中存在的關系知之甚少。鑒于標準神經網絡架構的黑盒性質,在解釋深度學習模型的方法中出現了新的研究主體,將在下面深入介紹。

    Post-hoc 可解釋性技術Post-hoc 可解釋模型被開發用于解釋訓練有素的網絡,并有助于在不修改原始權重的情況下識別重要特征或示例。方法主要可以分為兩大類。首先,一種可能的方法是在神經網絡的輸入和輸出之間應用更簡單的可解釋代理模型,并依靠近似模型來提供解釋。例如局部可解釋模型不可知解釋 (LIME) 通過將特定于實例的線性模型擬合到輸入的擾動中來識別相關特征,線性系數提供了重要性的度量。附加解釋 (SHAP) 提供了另一種替代方法,它利用合作博弈論中的值來識別數據集中的重要特征。接下來,已經提出了基于梯度的方法,例如顯著圖和影響函數,它分析網絡梯度以確定哪些輸入特征對損失函數的影響最大。雖然事后可解釋性方法可以幫助處理特征屬性,但它們通常會忽略輸入之間的任何序列依賴關系,因此很難將它們應用于復雜的時間序列數據集。

    具有注意力權重的固有可解釋性 另一種方法是直接設計具有可解釋組件的架構時間序列預測法的步驟,通常以戰略性放置注意力層的形式。當注意力權重作為層的輸出產生時,限制權重總和為 1,即

    。對于時間序列模型,預測方程的輸出因此也可以是解釋為時間特征的加權平均值,使用注意力層在每一步提供的權重。然后可以使用對注意力權重的分析來了解每個時間步長特征的相對重要性。在進行的實例可解釋性研究中,研究人員使用特定示例來展示

    的大小如何指示哪些時間點對預測最重要。通過分析注意力向量隨時間的分布,還展示了如何使用注意力機制來識別數據集中的持續時間關系,例如季節性模式。

    2、反事實預測和因果推斷

    除了理解網絡學習到的關系之外,深度學習還可以通過在觀察數據集之外產生預測或反事實預測來幫助促進決策支持。反事實預測對于場景分析應用程序特別有用,即允許用戶評估不同的動作集如何影響目標軌跡。從歷史角度(即確定發生不同情況時會發生什么)和預測角度(即確定采取哪些行動來優化未來結果)來看,這都非常有用。

    雖然存在一大類深度學習方法來估計靜態環境中的因果效應,但時間序列數據集中的關鍵挑戰是存在時間相關的混雜效應。這由于影響目標的動作與對目標的觀察為條件的循環依賴引起的。沒有對時間相關的混雜因素進行任何調整,直接的估計技術可能會導致有偏差的結果。 最近基于統計技術和設計的擴展,出現了幾種方法來訓練深度神經網絡,同時調整時間相關的混雜因素新的損失函數。使用統計方法,擴展流行病學中邊緣結構模型的逆治療概率加權 (IPTW)方法,使用一組網絡來估計治療應用概率,并使用序列到序列模型來學習無偏預測。另一種方法是擴展G計算框架,使用深度學習聯合建模目標和動作的分布。此外還有研究提出了新的損失函數,它采用領域對抗訓練來學習患者病史的平衡表示。

    四、總結與展望

    隨著數據可用性和計算能力的增長,深度神經網絡架構在跨域預測問題方面取得了很大成功。本黑板報中調查了用于時間序列預測的主要架構,重點介紹了神經網絡設計中使用的關鍵架構模塊。研究了它們如何將時間信息合并到一步預測中,并描述了它們如何擴展以用于多步預測。此外結合了統計和深度學習組件概述了混合深度學習模型的最新趨勢,在任一類別中都優于純方法。最后總結了兩種可以擴展深度學習以改善決策支持的方法,重點是可解釋性和反事實預測方法。

    迄今為止學術界盡管已經開發了大量用于時間序列預測的深度學習模型,但仍然存在一些局限性。首先,深度神經網絡通常需要以固定間隔離散化時間序列,因此很難預測可能會丟失觀測值或以隨機間隔到達的數據集。雖然已有研究通過神經常微分方程對連續時間模型進行了一些初步研究,但還需要做更多的工作來擴展具有復雜輸入(例如靜態變量)的數據集的這項工作,并將它們與現有模型進行基準測試。此外時間序列通常具有層次結構,軌跡之間具有邏輯分組,例如在零售預測中,同一地區的產品銷售可能會受到共同趨勢的影響。因此,明確解釋此類層次結構的架構的開發可能是一個有趣的研究方向,并有可能提高現有單變量或多變量模型的預測性能。

    END

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有