人工神經網絡的算法及其在化工中的應用摘要數據挖掘技術是當今一項新興技術,它綜合運用人工智能、計算智能、 模式識別、數理統計等先進技術從大量數據信息中挖掘和發現有價值和隱含 的知識。人工神經網絡是由大量同時也是很簡單的處理單元廣泛連接構成的 復雜網絡系統。它具有自學習、高容錯和高度非線性描述能力等優點,使其 在化工領域得到了廣泛的應用。這些應用主要包括:故障診斷、過程控制、 物性估算、專家系統和建筑節能等。但人工神經網絡在化工領域的進一步應 用還有賴于對化工領域問題的抽提 (即符合神經網絡的輸入輸出表達)及網 絡本身性能優化的進一步研究。關鍵詞 :數據挖掘技術;人工神經網絡 ;化工應用 1 數據挖掘技術化工生產在生產產品的同時,也產生大量關于生產過程的信息。這些信 息的有效利用極大地促進了化工生產的科學管理和生產優化,與此同時,日 益積累的信息也帶來了許多新的挑戰和問題,如信息過量、信息真假難辨、 信息安全隱患、信息矛盾等。面對這一挑戰,數據挖掘技術應運而生,并顯 示了強大的生命力。 [1]數據挖掘是一門交叉學科,涉及到機器學習、模式識別、統計學、智能 數據庫、知識獲取、數據可視化、高性能計算機和專家系統等多個領域。
數 據挖掘的兩個高層次目標是預測和描述。預測的基本任務包括分類、回歸、 時間序列分析和預測。描述的基本任務包括聚類、總結、關聯規則和序列發 現。數據庫技術只是將數據有效地組織和存儲在數據庫中 ,并對這些數據作 一些簡單分析 ,大量隱藏在數據內部的有用信息無法得到。 而機器學習、模 式識別、統計學等領域卻有大量提取知識的方法 ,但沒有和實際應用中的海 量數據結合起來,很大程度上只是對實驗數據或學術研究發揮作用。數據挖 掘從一個新的角度將數據庫技術、機器學習、模式識別和統計學等領域結合 起來,從更深層次中發掘存在于數據內部有效的、新穎的、具有潛在效用的 乃至最終可理解的模式。 1.2 數據挖掘技術分類數據挖掘技術通常可以分為一下幾種方法:[2](1) 數學統計方法數學統計方法主要用于完成總結知識和關聯知識挖掘。它利用統計學、 概率論的原理對關系中各屬性進行統計分析 ,建立一個數學模型或統計模 型 ,以找出他們之間的關系和規律。常用的統計方法包括判別分析、因子分 析、相關分析、回歸分析、偏最小二乘回歸(PLS )和聚類法等。(2) 決策樹決策樹技術主要用于分類、聚類和預測的預測建模技術。
它利用信息論 中的互信息 (信息增益)尋找數據庫中具有最大信息量的字段,建立決策樹 的一個結點,再根據字段的不同取值建立樹的分枝,在每個分枝子集中重復 建立下層結點和分枝,這樣便生成一顆決策樹。接著對決策樹進行剪枝處理, 再把決策樹轉化為規則,利用這些規則可對新事例進行分類。典型決策樹方 法有分類回歸樹(CART )、ID3 和 C4.5 等。(3) 模式識別方法模式識別是數據挖掘的主要方法之一。它是一種借助于計算機對信息進 行處理、判決分類的數學統計方法。模式識別方法大致可以分為統計模式識 別和句法模式識別兩大類。統計模式識別將每個樣本用特征參數表示為多維 空間中的一個點,根據 “物以類聚”的原理,同類或相似的樣本間的距離應 較近 ,不同類的樣本間的距離應較遠。這樣,就可以根據各樣本點間的距離 或距離的函數來判別、分類,并利用分類結果預報未知。統計模式識別是工 業優化中的常用方法。(4) 人工神經網絡方法人工神經網絡方法用于分類、聚類、特征挖掘、預測和模式識別。神經 網絡方法模仿動物的腦神經元結構 ,以 M-P 模型(由 和 Pitts 提出 )和 Hebb 學習規則為基礎。
在本質上是一個分布式矩陣結構 ,通過 對訓練數據的挖掘,逐步計算 (包括反復迭代或累加計算)神經網絡連接的 權值。(5) 遺傳算法遺傳算法主要用于解決全局優化問題 ,適用于分類和關聯規則挖掘等。 遺傳算法是一種基于達爾文進化論中基因重組、突變和 自然選擇等概念的算 法,具有隨機性和自適應性等特點。從一個初始規則集團(如知識基因)開 始,逐代地通過交換對象成員(雜交、基因突變)產生群體(繁殖),評價 并擇優復制(適者生存,不適者淘汰),逐代積累計算,最終得到最優的或 是近似最優的知識集。(6) 粗糙集方法粗糙集方法用于數據簡化(例如,刪除與任務無關的記錄或字段)、數 據意義評估、對象相似或差異性分析、因果關系及范式挖掘等。Rough Set 理論是 在 20 世紀 80 年代提出來的,用于研究非精確性和不確定 性知識的表達、學習、歸納等方法的。主要思想如下:在數據庫中將行元素 看成對象,列元素是屬性,把對象的屬性分為條件屬性和決策屬性,按各屬 性值是否相同劃分等價類。等價關系R 定義為不同對象在某個(或幾個) 屬性上取值相同 ,這些滿足等價關系的對象組成的集合稱為該等價關系R 的等價類。
(7) 支持向量機方法支持向量機方法主要用于有限數據的分類、回歸和預報建模。早在 20 世紀 60 年代,以數學家 為代表的學派就開始努力建立一套能保證 從有 限樣本得出預報能力最強數學模型 的“統計學習理論 ”( ,簡稱 SLT)并于 1992 年和 1995 年先后提出分類和回歸 的支持向量機算法( ,簡稱 SVM)。支持向量機的 基本思想可以概括為:首先通過非線性變換將輸入空間變換到一個高維空 間 ,然后在這個新空間中求取最優線性分類面 ,而這種非線性變換是通過定 義適當的內積函數實現的。SLT 和 SVM 算法在很大程度上解決了模型選擇 與過擬合問題 ,小樣本、非線性和維數災難問題 ,局部最小點問題等。(8) 可視化技術可視化是計算機應用技術的發展趨勢 ,也是數據挖掘的研究方向之一。 可視化數據分析技術拓寬了傳統的圖表功能,用直觀圖形式將信息模式、數 據關聯或趨勢呈現給決策者,使之能交互分析數據關系,如把數據庫中多維 數據變成多種圖形對揭示數據總體狀況、內在本質及規律至關重要。
可視化 技術將人的觀察力和智能融入數據挖掘系統,極大提升了系統挖掘的速度、 層次和內容。 2. 神經網絡方法概述 2.1 神經網絡方法的發展從 1943 年心理學家 W.S.McCu lloch 和數學家 W.Pitts 研究并提出 M-P 神經元到今天,人類對神經網絡的研究已過了半個多世紀的歷程。進 入 80 年代后期,在美國、日本等一些工業發達國家里 ,掀起了一股競相研 究神經網絡的熱潮 ,神經網絡的研究進入復蘇階段 ,特別是1986 年 和 為首的科學小組提出的誤差逆傳播學習網絡及其 學習算法,已成為至今影響最大的一種網絡學習法。到了 21 世紀,神經網 絡技術逐漸趨于成熟和理智。 [3]人工神經元網絡 ( ,簡稱 ANN )是模仿人 類腦神經活動的一種人工智能技術,是由大量的同時也是很簡單的處理單元 廣泛連接構成的復雜網絡系統。人工神經網絡是建立在現代神經科學研究基 礎上的一種抽象數學模型 ,它反映了大腦功能的基本特征 ,但并非逼真地描 寫 ,只是某種簡化、抽象和模擬。給 ANN 一些樣本貝葉斯網絡在智能信息處理中的應用 pdf,ANN 通過 自學習可 以掌握樣本規律,在輸入新的數據和狀態信息時 ,可用ANN 進行自動推理 和控制。
由于反向傳遞學習算法 BP 網絡和 網絡的出現與再次興 起 ,使其應用領域不斷擴大。 2.2 神經網絡方法分類人工神經網絡有多種算法,但可粗略地分為兩類 :有教師學習的人工神 經網絡和無教師學習的人工神經網絡。前者主要是對已知樣本進行訓練,然 后對未知樣本進行預測。此類方法的典型代表是誤差反向傳播 (BP,Back )人工神經網絡。后者亦稱自組織人工神經網絡,無須對已知 樣本進行訓練,則可用于化合物的分類,如 神經網絡和 神經網。 2.3 BP 神經網絡算法在以上各種算法中,應用得最多的是 BP 人工神經網絡[4]。從結構上講, BP 網絡是典型的多層網絡,分為輸人層、隱含層和輸出層,層與層之間采 用完全互連方式,同一層單元間不存在相互連接。BP 網絡的第一層即輸入 層,接受外界輸入,最后一層即輸出層,產生輸出。在輸入層和輸出層之間, 有若干個隱含層。在各層之間,只有相鄰層的神經元之間存在聯系。對輸入 X 進行某種函數運算,即得到神經元的輸出 Y。在化工的應用領域中,常用 的函數形式是 S 型函數 F(x)。
BP 算法的具體步驟是 :(1 )初始化,即隨機地設置各層權重系數和值;(2 )將訓練樣本數據 X 加到網絡輸入端 ,計算各層的輸出 Y ,將輸出 值與期望值相比得到誤差信號;(3 )根據誤差信號重新調整連接權重;(4 )如果小于預定誤差,則認為網絡已收斂而停止學習,反之,則返 回(2 )繼續學習 (3 )。算法框圖如下:圖 1 BP 算法框圖 3. 神經網絡方法應用化工行業有著生產過程復雜、對象特性多變、間歇或半連續生產過程多、 有一定的危險性及污染環境等特點,使得化工領域需要一個技術及環境的改 支撐環境,對其進一步發展有很大的促進作用。ANN 在化工中的應用主要 在以下幾個領域:故障診斷、過程控制、物性估算、專家系統和建筑節能。當系統的某個環節發生故障時,若不及時處理,就可能引起故障擴大并 導致重大事故的發生。因此建立高效的、準確的實時故障檢測和診斷系統, 消除故障隱患,及時排除故障,確保安全、平穩、優質的生產,已成為整個 生產過程的關鍵所在。故障診斷是 ANN 最有應用價值的領域[5] :(1)通過訓練 ANN ,可形成和存儲有關過程知識并直接從定量的歷史故 障信息中學習;(2)ANN 具有濾出噪音及在噪音情況下得出結論的能力 ,使ANN 適合 于在線故障診斷和檢測 ;(3)ANN 具有分辨原因及故障類型的能力。
常用故障診斷方法是反向傳播的方法(BP 網)和徑向偏置函數網絡(RBF 網) ,但另一方面模糊神經元網絡作為一種更接近人腦思維的網絡,可能是 解決此問題的關鍵和研究方向。神經網絡用于故障診斷和校正不必建立嚴格的系統公式或其它數學模 型 ,經數據樣本訓練后可準確、有效地偵破和識別過失誤差 ,同時校正測量 數據中的隨機誤差。與直接應用非線性規劃的校正方法相比 ,神經網絡的計 算速度快 ,在化工過程的實時數據校正方面具有明顯的優勢。然而現有的神 經網絡軟件 ,直接應用于測量數據校正時,需要進行離線的訓練 ,難以同數 據校正系統有機地相結合;其次 ,為適應化工過程數據的復雜性,需要提高 神經網絡算法的訓練速度和收斂性。[6] 3.2 過程控制隨著化學工業的不斷發展,對化工過程控制的要求日益嚴厲。常規的控 制系統有時會顯得力不從心,而神經網絡本身所具有的優點正好能滿足控制 過程的主要要求:——處理日益復雜的系統的需要;——過程設計要求日益增高的需要;——減少不確定因素及環境要求的需要。神經網絡的出現及應用也變得自然。隨著 ANN 研究的不斷深入,神 經網絡越來越多地應用于控制領域的各個方面,從過程控制、機器人控制、 生產制造、模式識別直到決策支持神經網絡都有應用。
ANN 可以成功地建 立流程和控制參數間的非線性關系及構造相關的數學模型 ,并可跟蹤瞬息過 程及具有穩健功能等 ,因此可有效地用于化工過程最優化和控制。1986 年 , 第一次將 ANN 用于控制界。神經元網絡用于控 制有兩種方法 ,一種用來構造模型 ,主要利用對象的先驗信息 ,經過誤差校 正反饋 ,修正網絡權值 ,最終得到具有因果關系的函數,實現狀態估計,進 而推斷控制;另一種直接充當控制器,就像 PID 控制器那樣進行實時控制。 神經元網絡用于控制,不僅能處理精確知識,也能處理模糊信息。 認為神經網絡在化工過程控制領域的應用主要在三個方面:預測控制、反向 模型基礎控制和適應控制。而在控制工藝中 ,神經網絡用得最多的便是預測 控制工藝。 和 Goh 闡述了 ANN 用于優化控制相對其它傳統的線性參數 模型的一些優點。這種預測控制算法是以模型為基礎的,同時包含了預測的 原理,可以靈活方便地處理輸入輸出等的約束問題。圖 2 展示了神經網絡的 預測控制策略。 3.3 物性估算用神經網絡來解決估算物質的性質必須解決三個基本問題,第一個是對圖 2 神經網絡的預測控制策略 物質的表征問題;第二個是采用何種神經網絡及其算法問題;第三個是神經 網絡輸入與輸出數據的歸一化問題。
無論采用哪種方法對數據進行處理,當 用經過訓練的神經網絡進行物性估計時,不能將網絡直接的輸出值作為物性 預估值,而是要進行反歸一化處理,也就是說,神經網絡的輸出值再乘上一 個系數,這個系數就是前面進行歸一化處理時對數據的除數,相乘后得到的 值作為物性估算值。神經網絡用于物性估算,目前采用的就是 BP 網絡或在此基礎上的各種 改進形式。既然網絡形式已經確定,那么剩下的問題就是 BP 網絡本身所需 要解決的問題。BP 網絡進行訓練運行時需要解決的問題就是各層的神經元 數目,其它問題均可以交給計算機去處理解決。近年來,將 ANN 用于估算有機物的物性參數已有一些研究 ,張向東[7] 采用 ANN 對有機物的一些基礎物性進行預測,表征分子采用分子描述碼、 分子片、分子距離邊數矢量等一些特殊參數,其報道的預測結果均優于或接 近數學回歸法的預測結果 ,然而,這些表征分子的特殊參數表征方式復雜 , 且往往還需要其他精確的不易獲得的物性參數;陳海松 [8]采用基團法用 ANN 對有機物的沸點焓進行了很好的估算。基團貢獻法表征分子具有簡單 易用,不需或少用其他附加參數的特點,而 ANN 極強的自學習、自擬和模 式識別的能力還使網絡能考慮到基團的相互作用,表明 ANN 在物性估算方 法具有很大的應用前景。
文獻用改進后的神經網絡 BP 算法 SSBP ,對純物 質的常壓沸點進行估算和研究。 等人利用神經網絡對有機化合物的 物理性質進行了預測,并與傳統的基團貢獻法比較,可以得到更為準確的物 性參數。而后,董新法、方利國等人將神經網絡在物性估算中的應用作了一 個全面而又簡要的講解 ,并提出神經網絡在物性估算中潛在的應用前景,為 其發展及其以后的應用研究提供了很好的工作平臺。 3.4 專家系統ANN 具有良好的逼近任意復雜的非線性系統的能力,近年來被廣泛應 用于化學化工過程的模擬與預測[9] ,包括在能量模型、建筑節能方面都有應 用[10]。當今大多數樓宇的 HVAC 系統都采用集散控制系統,它們依靠高速 可靠的網絡通信與強大的DDC(直接數字控制期)或子站來實現各項功能, 這些都為 ANN 的實際應用創造了條件。專家系統發展至今 ,存在許多理論和技術問題 ,如知識表示、知識獲取、 知識驗證等。而神經元網絡有著許多誘人的特點 :表達一求解問題可用連接 模型表示 ;學習一網絡連接權值可用訓練獲得,概括一連接模型具有健壯性, 抽取一連接模型具有創新能力;并行一連接模型適合于硬件并行實現。
因此 , 將兩者有機地結合起來 ,將有著一種有益的互補作用,使人工智能在實時應 用、知識獲取、執行效率等方面都會有很大改善。借助神經元網絡方法建立神經邏輯網絡,通過已知樣本的學習獲得權值 矩陣。它一方面等價于推理網絡的可信度矩陣 ,這樣構成的推理機可完成如 下任務:用部分輸入信息進行推理,能尋找未知輸入變量 ,解釋推理結果。 另一方面也可作為專家系統的規則,既可作為知識獲取工具,又可存取知識, 作為一個知識庫。杜文莉[11]等以精對苯二甲酸結晶過程為研究對象,提出一種基于神經 網絡模型的實時專家控制系統,該方法利用神經網絡建模技術獲取對象的機 理知識,通過對影響模型特性的多個變量進行分析,自動得到常規專家控制 系統難于獲取的定性、定量知識,并按分級遞階的啟發式搜索機制,實現了 對工業過程對象的實時控制。實際應用表明:該方法不但克服了以往專家系 統知識獲取的瓶頸,而且有效實現了人機對話的功能,便于現場操作和更改 專家知識庫,為化工過程的多變量控制提供了新的思路。 3.5 建筑節能上的應用隨著經濟的發展 ,供暖范圍日益擴大 ,空調建筑迅速增加 ,建筑能耗增 長的速度將遠遠高于能源生產增長的速度 ,從而成為制約國家經濟發展的一 個重要因素。
神經網絡可以充分逼近任意復雜的非線性關系,且具有分布存 儲、自適應和自組織等突出特點。應用最為廣泛的 BP 網絡模型技術成熟 , 結構簡單 ,工作狀態穩定,可把一組樣本的 I/O 問題變為一個非線性優化問 題。如果用 BP 網絡來處理建筑節能的評價問題 ,就可以通過學習 ,自動歸 納掌握各指標影響節能綜合指標的規律 ,并將各指標權重以相對聯系的方式 隱含于網絡之中 ,從而使建筑節能效果的評價既具有客觀規律性,又達到簡 單適用的 目的[12]。建筑節能作為中國節能工作的重要組成部分,當前的技術水平還比較低 下 ,神經網絡作為一種抽象模型,采用人工智能的方法進行數據知識的萃取, 有極其優越的條件和精確度 ,只要選取的網絡結構和訓練方式得當 ,并有足 夠的數據供網絡訓練 ,理論上神經網絡模型能夠以任意精度逼近實際的物理 模型。 4 結論數據挖掘技術是一項非常有前途的應用技術,它能從數據庫中提取出有 效的模式和感興趣的知識。數據挖掘最令人激動的新的研究領域可能是將統 計學、數據庫、數據自動分析和歸約及與其他相關領域融合在一起。神經網絡在化學工程中得到廣泛應用,并得到了豐富與發展。人們對生 物神經系統的認識與研究還很不夠,所使用的神經元網絡模型無論是結構還 是網絡規模都是真實神經元網絡的極簡單模擬。
神經元網絡的研究結果迄今 大多停在仿真或實驗室研究階段。完整、系統的理論體系及大量艱難而富有 挑戰性的理論問題尚未解決 ,真正應用成功的實例也有待于進一步發展。目前,人工神經網絡在各個領域中的應用都在向人工智方向發展。不斷 豐富基礎理論和開展應用研究、完善 ANN 術的可靠性、開發基于 ANN 的 智能性化工優化專家系統軟件對于我國的化工發展具有重要意義。參考文獻[1] 俞章毅,夏陸岳,潘海天.數據挖掘技術及其在化工過程中的應用 [J] .浙江化工.2003 ,34 (9 ):24-26 .[2] 楊善升,陸文聰貝葉斯網絡在智能信息處理中的應用 pdf,陳念貽.數據挖掘技術在化工優化中的應用[J] .江 蘇化工.2004 ,32 (4 ):1-4 .[3] 王聃,方利國.神經網絡在化工應用中的研究進展 [J] .廣東化 工.2007 ,34 (10 ):52-55 .[4] 冉清,劉瑩.人工神經網絡及其在化工領域中的應用 [J] .廣東化 工.2001 (2 ):32-34 .[5] 王克峰,袁一.神經元網絡在化學工程中的應用與發展[J] .化工進 展,1996 ,(3) :17-21 .[6] 潘吉錚,周傳光,錢宇.基于神經網絡的化工過程測量數據在線校 正技術的研究[J] .高校化學工程學報,2003 ,17(6) :319-324 .[7] 張向東,趙立群,等.人工神經網絡法預測有機物基礎物性[J] .化 工學報,1995 ,46(1) :66 .[8] 陳海松,王福安,等.純物質汽化熱的人工神經網絡算法估算[J] .高 校化學工程報,1998 ,12(4) :375 .[9] 魏奇業,李謙.基于神經網絡的精餾塔動態模擬 [J] .吉林化工學院 學報,2004 ,21(3) :10-15 .[10] S , ,Geros V . ’s use with : and [J] . and ,2006 ,(38) :949-958 .[11]杜文莉 ,錢鋒 .基于神經網絡的實時專家控制系統及其 PTA 工業應 用[J] .控制與決策 ,2005 ,20(6) :694-697 .[12]丁力行.建筑節能綜合評價指標體系的建立[J] .建筑,2003 ,(12) : 19-22 .