摘要:隨著人工智能和數(shù)據(jù)挖掘技術(shù)的深入發(fā)展,大數(shù)據(jù)逐步進(jìn)入人們的視野,在大數(shù)據(jù)的處理過程中,離散化處理是一個必不可少的環(huán)節(jié)。本文通過在BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程中引入動量學(xué)習(xí)法,進(jìn)一步完善了BP神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)方面的局限性,降低了BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練誤差,在此基礎(chǔ)上提出了一種基于BP神經(jīng)網(wǎng)絡(luò)的離散化方法,實(shí)現(xiàn)了對連續(xù)屬性的離散化處理。算法分析和實(shí)驗(yàn)證明,本算法是切實(shí)可行的。
關(guān)鍵詞:離散化;BP神經(jīng)網(wǎng)絡(luò);連續(xù)屬性;動量學(xué)習(xí)法
: With the of and data , big data into view, in the large data, is an link . In this paper, in the by the BP to the and of BP , the error BP , and on this basis, a BP to a of . and show that the is .
Key words: ; BP ; ;
在當(dāng)今大數(shù)據(jù)時(shí)代,我們會面臨著各種各樣的數(shù)據(jù),包括離散化的數(shù)據(jù)和連續(xù)性的數(shù)據(jù),在眾多的算法中,有許多關(guān)于數(shù)據(jù)離散化的例子[1-4],在這些現(xiàn)有的方法中,各有千秋,有的處理連續(xù)性數(shù)據(jù)效果不好,有些算法即使能處理連續(xù)型數(shù)據(jù),但挖掘和學(xué)習(xí)的效果沒有處理離散型數(shù)據(jù)有用和有效。對我們?nèi)粘I詈蛻?yīng)用中的實(shí)際例子分析發(fā)現(xiàn),對我們有用的數(shù)據(jù)除了連續(xù)性的,更多存在的是連續(xù)型屬性的數(shù)據(jù)。這樣的話,對數(shù)據(jù)進(jìn)行離散化處理顯得異常重要,離散化處理的效果好壞,效率高低,直接關(guān)系到數(shù)據(jù)處理和分析的最終結(jié)果[5-6]。
1 離散化問題的描述
離散化就是采取各種方法將連續(xù)的區(qū)間劃分為小的區(qū)間,并將這連續(xù)的小區(qū)間與離散的值關(guān)聯(lián)起來。
離散化的問題本質(zhì)是:決定選擇多少個分割點(diǎn)和確定分割點(diǎn)位置。
連續(xù)屬性離散化的方法有大概有以下幾種:
1)無監(jiān)督和有監(jiān)督。在離散化過程中使用類信息的方法是有監(jiān)督的,而不使用類信息的方法。
2)全局和局部。全局離散化指使用整個樣本空間進(jìn)行離散化,而局部離散化指在樣本空間的一個區(qū)域內(nèi)進(jìn)行離散化。
3)動態(tài)離散化和靜態(tài)離散化。動態(tài)的離散化方法就是在建立分類模型的同時(shí)對連續(xù)屬性進(jìn)行離散化,而靜態(tài)離散化方法就是在進(jìn)行分類之前完成離散化處理。
2 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是一種多層前向型神經(jīng)網(wǎng)絡(luò),其神經(jīng)元的傳遞是S型函數(shù),輸出緊為0-1.的連續(xù)量,它可以實(shí)現(xiàn)從輸入到輸出的任意非線性映射。由于權(quán)位的調(diào)整采用反向傳播學(xué)習(xí)算法,因此,人們就就將此算法稱為向后傳播算法,簡稱BP算法。
日前,在神經(jīng)網(wǎng)絡(luò)的已有的應(yīng)用實(shí)踐中,BP神經(jīng)網(wǎng)絡(luò)的應(yīng)用占了絕對優(yōu)勢,也說明了BP神經(jīng)網(wǎng)絡(luò)的應(yīng)用廣泛性和優(yōu)勢,以及有不可限量的應(yīng)用前景和發(fā)展空間。
BP神經(jīng)網(wǎng)絡(luò)模型是一個三層網(wǎng)絡(luò),它的拓?fù)浣Y(jié)構(gòu)可被劃分為:輸入層、輸出層,隱含層。其中,輸入層與輸出層具有更重要的意義,因此有些文獻(xiàn)和算法中把BP神經(jīng)網(wǎng)絡(luò)看成有輸入層和輸出層組成的兩層網(wǎng)絡(luò)結(jié)構(gòu)。
3 基于BP神經(jīng)網(wǎng)絡(luò)的離散化方法
1)對BP神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化。首先創(chuàng)建網(wǎng)絡(luò)結(jié)構(gòu),并根據(jù)實(shí)際情況確定BP神經(jīng)網(wǎng)絡(luò)中的輸入層,隱含層和輸出層的節(jié)點(diǎn)數(shù)、連接權(quán)值和訓(xùn)練誤差值等初值,最后給定學(xué)習(xí)速率和神經(jīng)元激勵函數(shù)。
2)隱含層輸出計(jì)算。
3)輸出層輸出計(jì)算。
4)計(jì)算訓(xùn)練誤差
[?j(l)=(dqj-x(l)j)f'(s(l)j)],輸出層
[?j(l)=f'(s(l)j)k=1nl+1?(l+1)w(l+1)kj],隱含層和輸入層
5)修正權(quán)值和閾值
[w(l+1)ji[k+1]=w(l)ji[k]+μ?j(l)x(l-1)i+η(w(l)ji[k]-w(l)ji[k-1])] [θ(l+1)j[k+1]=θ(l)j[k]+μ?j(l)+η(θ(l)j[k]-θ(l)j[k-1])]
6)判斷是否達(dá)到訓(xùn)練誤差要求,如果達(dá)到要求,就進(jìn)行下一步,如果達(dá)不到要求否則,轉(zhuǎn)到第2步,重新對BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練和學(xué)習(xí)。
7)利用附加動量法規(guī)則對BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,為了克服BP神經(jīng)網(wǎng)絡(luò)的缺點(diǎn),在BP算法中加入動量項(xiàng)不僅可以微調(diào)權(quán)值的修正量,也可以有效的減少BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練和學(xué)習(xí)過程中的缺陷。另外在修改訓(xùn)練參數(shù)和連接權(quán)值的同時(shí),還可以使用順序方式訓(xùn)練網(wǎng)絡(luò)。順序方式訓(xùn)練網(wǎng)絡(luò)要比批處理方式更快,特別是在訓(xùn)練樣本集很大,而且具有重復(fù)樣本時(shí),順序方式的這一優(yōu)點(diǎn)更為突出。
8)利用訓(xùn)練后的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行離散化處理
利用BP神經(jīng)網(wǎng)絡(luò)的分類功能,對訓(xùn)練樣本數(shù)據(jù)進(jìn)行處理,根據(jù)處理結(jié)果對連續(xù)數(shù)據(jù)進(jìn)行離散化處理,綜合整理后就得到了離散化后的屬性表。
利用BP神經(jīng)網(wǎng)絡(luò)的新建一個網(wǎng)絡(luò),經(jīng)過訓(xùn)練之后為了測試一下我們提出的算法的效果,我們可以對此算法進(jìn)行一次實(shí)驗(yàn),我們利用仿真函數(shù)sim()可以看到的聚類結(jié)果是:
Yc = 3
這樣我們就得到了離散化后的屬性表。
連續(xù)屬性離散化之后我們需要驗(yàn)證一下離散化的結(jié)果是否對屬性表的一致性產(chǎn)生了影響,所以我們再次利用LVQ神經(jīng)網(wǎng)絡(luò)來檢驗(yàn),現(xiàn)在訓(xùn)練樣本為P=[34 2 2 2 43 2;34 2 3 2 2 43]
經(jīng)過訓(xùn)練得到的聚類結(jié)果是:
Yc =55 1 5 1 1 55
我們發(fā)現(xiàn)得到的結(jié)果和實(shí)際情況相符合。
4 小結(jié)
對于連續(xù)屬性離散化問題,我們在BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程中,對網(wǎng)絡(luò)的訓(xùn)練做了一些改進(jìn),引入了動量學(xué)習(xí)法,改善了BP神經(jīng)網(wǎng)絡(luò)的性能,最后通過仿真實(shí)驗(yàn)證明了該算法對于處理離散化問題的有效性。
參考文獻(xiàn):
[4] 謝振華,商琳,李寧,等.粗糙集在神經(jīng)網(wǎng)絡(luò)中應(yīng)用技術(shù)的研究[J].計(jì)算機(jī)應(yīng)用研究, 2004, 21(9):71- 74.
[6] 劉業(yè)政,焦寧.連續(xù)特征離散化算法比較研究[J].計(jì)算機(jī)應(yīng)用研究,2007,24(9).
[8] HUAN LIU, , CHEW LIM TAN, DASH, 2002. : An . Data and ,6,393-423多層神經(jīng)網(wǎng)絡(luò)bp算法權(quán)值更新過程,2002. 2002 . in The .
[9] Han,.數(shù)據(jù)挖掘概念與技術(shù)[M].2版.范明多層神經(jīng)網(wǎng)絡(luò)bp算法權(quán)值更新過程,孟小峰,譯.機(jī)械工業(yè)出版社, 2004:47-60.