操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    下面是一些關(guān)于大數(shù)據(jù)挖掘的知識點,科多大數(shù)據(jù)和大家一起來學習一下。

    1. 數(shù)據(jù)、信息和知識是廣義數(shù)據(jù)表現(xiàn)的不同形式。

    2. 主要知識模式類型有:廣義知識,關(guān)聯(lián)知識,類知識,預(yù)測型知識,特異型知識

    3. web挖掘研究的主要流派有:Web結(jié)構(gòu)挖掘、Web使用挖掘、Web內(nèi)容挖掘

    4. 一般地說,KDD是一個多步驟的處理過程,一般分為問題定義、數(shù)據(jù)抽取、數(shù)據(jù)預(yù)處理、.數(shù)據(jù)挖掘以及模式評估等基本階段。

    5. 數(shù)據(jù)庫中的知識發(fā)現(xiàn)處理過程模型有:階梯處理過程模型,螺旋處理過程模型,以用戶為中心的處理結(jié)構(gòu)模型,聯(lián)機KDD模型,支持多數(shù)據(jù)源多知識模式的KDD處理模型

    6. 粗略地說,知識發(fā)現(xiàn)軟件或工具的發(fā)展經(jīng)歷了獨立的知識發(fā)現(xiàn)軟件、橫向的知識發(fā)現(xiàn)工具集和縱向的知識發(fā)現(xiàn)解決方案三個主要階段,其中后面兩種反映了目前知識發(fā)現(xiàn)軟件的兩個主要發(fā)展方向。

    7. 決策樹分類模型的建立通常分為兩個步驟:決策樹生成,決策樹修剪。

    8. 從使用的主要技術(shù)上看,可以把分類方法歸結(jié)為四種類型:

    a) 基于距離的分類方法

    b) 決策樹分類方法

    c) 貝葉斯分類方法

    d) 規(guī)則歸納方法

    9. 關(guān)聯(lián)規(guī)則挖掘問題可以劃分成兩個子問題:

    a) 發(fā)現(xiàn)頻繁項目集:通過用戶給定 ,尋找所有頻繁項目集或者最大頻繁項目集。

    b) 生成關(guān)聯(lián)規(guī)則:通過用戶給定 ,在頻繁項目集中,尋找關(guān)聯(lián)規(guī)則。

    10. 數(shù)據(jù)挖掘是相關(guān)學科充分發(fā)展的基礎(chǔ)上被提出和發(fā)展的,主要的相關(guān)技術(shù):

    數(shù)據(jù)庫等信息技術(shù)的發(fā)展

    統(tǒng)計學深入應(yīng)用

    人工智能技術(shù)的研究和應(yīng)用

    11. 衡量關(guān)聯(lián)規(guī)則挖掘結(jié)果的有效性,應(yīng)該從多種綜合角度來考慮:

    a 準確性:挖掘出的規(guī)則必須反映數(shù)據(jù)的實際情況。

    b 實用性:挖掘出的規(guī)則必須是簡潔可用的。

    c 新穎性:挖掘出的關(guān)聯(lián)規(guī)則可以為用戶提供新的有價值信息。

    12. 約束的常見類型有:

    單調(diào)性約束;

    反單調(diào)性約束;

    萬方數(shù)據(jù)知識服務(wù)平臺_行為數(shù)據(jù)是什么結(jié)構(gòu)數(shù)據(jù)_數(shù)據(jù)結(jié)構(gòu)知識點

    可轉(zhuǎn)變的約束;

    簡潔性約束.

    13. 根據(jù)規(guī)則中涉及到的層次,多層次關(guān)聯(lián)規(guī)則可以分為:

    同層關(guān)聯(lián)規(guī)則:如果一個關(guān)聯(lián)規(guī)則對應(yīng)的項目是同一個粒度層次,那么它是同層關(guān)聯(lián)規(guī)則。

    層間關(guān)聯(lián)規(guī)則:如果在不同的粒度層次上考慮問題數(shù)據(jù)結(jié)構(gòu)知識點,那么可能得到的是層間關(guān)聯(lián)規(guī)

    14. 按照聚類分析算法的主要思路,聚類方法可以被歸納為如下幾種。

    劃分法:基于一定標準構(gòu)建數(shù)據(jù)的劃分。

    屬于該類的聚類方法有:k-means、k-modes、k-、k-、PAM、CLARA、等。

    層次法:對給定數(shù)據(jù)對象集合進行層次的分解。

    密度法:基于數(shù)據(jù)對象的相連密度評價。

    網(wǎng)格法:將數(shù)據(jù)空間劃分成為有限個單元(Cell)的網(wǎng)格結(jié)構(gòu),基于網(wǎng)格結(jié)構(gòu)進行聚類。

    模型法:給每一個簇假定一個模型,然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)集。

    15. 類間距離的度量主要有:

    最短距離法:定義兩個類中最靠近的兩個元素間的距離為類間距離。

    最長距離法:定義兩個類中最遠的兩個元素間的距離為類間距離。

    中心法:定義兩類的兩個中心間的距離為類間距離。

    類平均法:它計算兩個類中任意兩個元素間的距離,并且綜合他們?yōu)轭愰g距離:

    離差平方和。

    16. 層次聚類方法具體可分為:

    凝聚的層次聚類:一種自底向上的策略,首先將每個對象作為一個簇,然后合并這些原子簇為越來越大的簇,直到某個終結(jié)條件被滿足。

    分裂的層次聚類:采用自頂向下的策略,它首先將所有對象置于一個簇中,然后逐漸細分為越來越小的簇,直到達到了某個終結(jié)條件。

    層次凝聚的代表是AGNES算法。層次分裂的代表是DIANA算法。

    17. 文本挖掘(TD)的方式和目標是多種多樣的,基本層次有:

    關(guān)鍵詞檢索:最簡單的方式,它和傳統(tǒng)的搜索技術(shù)類似。

    挖掘項目關(guān)聯(lián):聚焦在頁面的信息(包括關(guān)鍵詞)之間的關(guān)聯(lián)信息挖掘上。

    信息分類和聚類:利用數(shù)據(jù)挖掘的分類和聚類技術(shù)實現(xiàn)頁面的分類,將頁面在一個更到層次上進行抽象和整理。

    萬方數(shù)據(jù)知識服務(wù)平臺_數(shù)據(jù)結(jié)構(gòu)知識點_行為數(shù)據(jù)是什么結(jié)構(gòu)數(shù)據(jù)

    自然語言處理:揭示自然語言處理技術(shù)中的語義,實現(xiàn)Web內(nèi)容的更精確處理。

    18. 在web訪問挖掘中常用的技術(shù):

    路徑分析

    路徑分析最常用的應(yīng)用是用于判定在一個Web站點中最頻繁訪問的路徑,這樣的知識對于一個電子商務(wù)網(wǎng)站或者信息安全評估是非常重要的。

    關(guān)聯(lián)規(guī)則發(fā)現(xiàn)

    使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法可以從Web訪問事務(wù)集中,找到一般性的關(guān)聯(lián)知識。

    序列模式發(fā)現(xiàn)

    在時間戳有序的事務(wù)集中,序列模式的發(fā)現(xiàn)就是指找到那些如“一些項跟隨另一個項”這樣的內(nèi)部事務(wù)模式。

    分類

    發(fā)現(xiàn)分類規(guī)則可以給出識別一個特殊群體的公共屬性的描述。這種描述可以用于分類新的項。

    聚類

    可以從Web Usage數(shù)據(jù)中聚集出具有相似特性的那些客戶。在Web事務(wù)日志中,聚類顧客信息或數(shù)據(jù)項,就能夠便于開發(fā)和執(zhí)行未來的市場戰(zhàn)略。

    19. 根據(jù)功能和側(cè)重點不同,數(shù)據(jù)挖掘語言可以分為三種類型:

    數(shù)據(jù)挖掘查詢語言:希望以一種像SQL這樣的數(shù)據(jù)庫查詢語言完成數(shù)據(jù)挖掘的任務(wù)。

    數(shù)據(jù)挖掘建模語言:對數(shù)據(jù)挖掘模型進行描述和定義的語言,設(shè)計一種標準的數(shù)據(jù)挖掘建模語言,使得數(shù)據(jù)挖掘系統(tǒng)在模型定義和描述方面有標準可以遵循。

    通用數(shù)據(jù)挖掘語言:通用數(shù)據(jù)挖掘語言合并了上述兩種語言的特點,既具有定義模型的功能,又能作為查詢語言與數(shù)據(jù)挖掘系統(tǒng)通信,進行交互式挖掘。通用數(shù)據(jù)挖掘語言標準化是目前解決數(shù)據(jù)挖掘行業(yè)出現(xiàn)問題的頗具吸引力的研究方向。

    20. 規(guī)則歸納有四種策略:減法、加法,先加后減、先減后加策略。

    減法策略:以具體例子為出發(fā)點,對例子進行推廣或泛化,推廣即減除條件(屬性值)或減除合取項(為了方便,我們不考慮增加析取項的推廣),使推廣后的例子或規(guī)則不覆蓋任何反例。

    加法策略:起始假設(shè)規(guī)則的條件部分為空(永真規(guī)則),如果該規(guī)則覆蓋了反例,則不停地向規(guī)則增加條件或合取項,直到該規(guī)則不再覆蓋反例。

    先加后減策略:由于屬性間存在相關(guān)性,因此可能某個條件的加入會導致前面加入的條件沒什么作用,因此需要減除前面的條件。

    先減后加策略:道理同先加后減,也是為了處理屬性間的相關(guān)性。

    21. 數(shù)據(jù)挖掘定義有廣義和狹義之分。

    從廣義的觀點,數(shù)據(jù)挖掘是從大型數(shù)據(jù)集(可能是不完全的、有噪聲的、不確定性的、各種存儲形式的)中,挖掘隱含在其中的、人們事先不知道的、對決策有用的知識的過程。

    從這種狹義的觀點上,我們可以定義數(shù)據(jù)挖掘是從特定形式的數(shù)據(jù)集中提煉知識的過程。

    22. web挖掘的含義: 針對包括Web頁面內(nèi)容、頁面之間的結(jié)構(gòu)、用戶訪問信息、電子商務(wù)信息等在內(nèi)的各種Web數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘方法以幫助人們從因特網(wǎng)中提取知識,為訪問者、站點經(jīng)營者以及包括電子商務(wù)在內(nèi)的基于因特網(wǎng)的商務(wù)活動提供決策支持。

    23. K-近鄰分類算法(K ,簡稱KNN)的定義:通過計算每個訓練數(shù)據(jù)到待分類元組的距離,取和待分類元組距離最近的K個訓練數(shù)據(jù),K個數(shù)據(jù)中哪個類別的訓練數(shù)據(jù)占多數(shù),則待分類元組就屬于哪個類別。

    數(shù)據(jù)結(jié)構(gòu)知識點_萬方數(shù)據(jù)知識服務(wù)平臺_行為數(shù)據(jù)是什么結(jié)構(gòu)數(shù)據(jù)

    24. K-means算法的性能分析:

    主要優(yōu)點:

    是解決聚類問題的一種經(jīng)典算法,簡單、快速。

    對處理大數(shù)據(jù)集,該算法是相對可伸縮和高效率的。

    當結(jié)果簇是密集的,它的效果較好。

    主要缺點

    在簇的平均值被定義的情況下才能使用,可能不適用于某些應(yīng)用。

    必須事先給出k(要生成的簇的數(shù)目),而且對初值敏感,對于不同的初始值,可能會導致不同結(jié)果。

    不適合于發(fā)現(xiàn)非凸面形狀的簇或者大小差別很大的簇。而且,它對于“躁聲”和孤立點數(shù)據(jù)是敏感的。

    25. ID3算法的性能分析:

    ID3算法的假設(shè)空間包含所有的決策樹,它是關(guān)于現(xiàn)有屬性的有限離散值函數(shù)的一個完整空間。所以ID3算法避免了搜索不完整假設(shè)空間的一個主要風險:假設(shè)空間可能不包含目標函數(shù)。

    ID3算法在搜索的每一步都使用當前的所有訓練樣例,大大降低了對個別訓練樣例錯誤的敏感性。因此,通過修改終止準則,可以容易地擴展到處理含有噪聲的訓練數(shù)據(jù)。

    ID3算法在搜索過程中不進行回溯。所以,它易受無回溯的爬山搜索中的常見風險影響:收斂到局部最優(yōu)而不是全局最優(yōu)。

    26. 算法有兩個致命的性能瓶頸:

    a多次掃描事務(wù)數(shù)據(jù)庫,需要很大的I/O負載

    對每次k循環(huán),侯選集Ck中的每個元素都必須通過掃描數(shù)據(jù)庫一次來驗證其是否加入Lk。假如有一個頻繁大項目集包含10個項的話,那么就至少需要掃描事務(wù)數(shù)據(jù)庫10遍。

    b.可能產(chǎn)生龐大的侯選集

    由Lk-1產(chǎn)生k-侯選集Ck是指數(shù)增長的,例如104個1-頻繁項目集就有可能產(chǎn)生接近107個元素的2-侯選集。如此大的侯選集對時間和主存空間都是一種挑戰(zhàn)。a基于數(shù)據(jù)分割的方法:基本原理是“在一個劃分中的支持度小于最小支持度的k-項集不可能是全局頻繁的”。

    27. 改善算法適應(yīng)性和效率的主要的改進方法有:

    a基于數(shù)據(jù)分割()的方法:基本原理是“在一個劃分中的支持度小于最小支持度的k-項集不可能是全局頻繁的”。

    b基于散列的方法:基本原理是“在一個hash桶內(nèi)支持度小于最小支持度的k-項集不可能是全局頻繁的”。

    c基于采樣的方法:基本原理是“通過采樣技術(shù),評估被采樣的子集中,并依次來估計k-項集的全局頻度”。

    d其他:如,動態(tài)刪除沒有用的事務(wù):“不包含任何Lk的事務(wù)對未來的掃描結(jié)果不會產(chǎn)生影響,因而可以刪除”。

    28. 面向Web的數(shù)據(jù)挖掘比面向數(shù)據(jù)庫和數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復雜得多:

    a異構(gòu)數(shù)據(jù)源環(huán)境:Web網(wǎng)站上的信息是異構(gòu): 每個站點的信息和組織都不一樣;存在大量的無結(jié)構(gòu)的文本信息、復雜的多媒體信息;站點使用和安全性、私密性要求各異等等。

    b數(shù)據(jù)的是復雜性:有些是無結(jié)構(gòu)的(如Web頁),通常都是用長的句子或短語來表達文檔類信息;有些可能是半結(jié)構(gòu)的(如Email,HTML頁)。當然有些具有很好的結(jié)構(gòu)(如電子表格)。揭開這些復合對象蘊涵的一般性描述特征成為數(shù)據(jù)挖掘的不可推卸的責任。

    行為數(shù)據(jù)是什么結(jié)構(gòu)數(shù)據(jù)_萬方數(shù)據(jù)知識服務(wù)平臺_數(shù)據(jù)結(jié)構(gòu)知識點

    c動態(tài)變化的應(yīng)用環(huán)境:

    Web的信息是頻繁變化的,像新聞、股票等信息是實時更新的。

    這種高變化也體現(xiàn)在頁面的動態(tài)鏈接和隨機存取上。

    Web上的用戶是難以預(yù)測的。

    Web上的數(shù)據(jù)環(huán)境是高噪音的。

    29. 簡述知識發(fā)現(xiàn)項目的過程化管理I-MIN過程模型。

    MIN過程模型把KDD過程分成IM1、IM2、…、IM6等步驟處理,在每個步驟里,集中討論幾個問題,并按一定的質(zhì)量標準來控制項目的實施。

    IM1任務(wù)與目的:它是KDD項目的計劃階段,確定企業(yè)的挖掘目標,選擇知識發(fā)現(xiàn)模式,編譯知識發(fā)現(xiàn)模式得到的元數(shù)據(jù);其目的是將企業(yè)的挖掘目標嵌入到對應(yīng)的知識模式中。

    IM2任務(wù)與目的:它是KDD的預(yù)處理階段,可以用IM2a、IM2b、IM2c等分別對應(yīng)于數(shù)據(jù)清洗、數(shù)據(jù)選擇和數(shù)據(jù)轉(zhuǎn)換等階段。其目的是生成高質(zhì)量的目標數(shù)據(jù)。

    IM3任務(wù)與目的:它是KDD的挖掘準備階段,數(shù)據(jù)挖掘工程師進行挖掘?qū)嶒灒磸蜏y試和驗證模型的有效性。其目的是通過實驗和訓練得到濃縮知識( ),為最終用戶提供可使用的模型。

    IM4任務(wù)與目的:它是KDD的數(shù)據(jù)挖掘階段,用戶通過指定數(shù)據(jù)挖掘算法得到對應(yīng)的知識。

    IM5任務(wù)與目的:它是KDD的知識表示階段數(shù)據(jù)結(jié)構(gòu)知識點,按指定要求形成規(guī)格化的知識。

    IM6任務(wù)與目的:它是KDD的知識解釋與使用階段,其目的是根據(jù)用戶要求直觀地輸出知識或集成到企業(yè)的知識庫中。

    30. 改善算法適應(yīng)性和效率的主要的改進方法有:

    a基于數(shù)據(jù)分割()的方法:基本原理是“在一個劃分中的支持度小于最小支持度的k-項集不可能是全局頻繁的”。

    b基于散列(Hash)的方法:基本原理是“在一個hash桶內(nèi)支持度小于最小支持度的k-項集不可能是全局頻繁的”。

    c基于采樣()的方法:基本原理是“通過采樣技術(shù),評估被采樣的子集中,并依次來估計k-項集的全局頻度”。

    d其他:如,動態(tài)刪除沒有用的事務(wù):“不包含任何Lk的事務(wù)對未來的掃描結(jié)果不會產(chǎn)生影響,因而可以刪除”。

    31. 數(shù)據(jù)分類的兩個步驟是什么?

    a建立一個模型,描述預(yù)定的數(shù)據(jù)類集或概念集

    數(shù)據(jù)元組也稱作樣本、實例或?qū)ο蟆?/p>

    為建立模型而被分析的數(shù)據(jù)元組形成訓練數(shù)據(jù)集。

    訓練數(shù)據(jù)集中的單個元組稱作訓練樣本,由于提供了每個訓練樣本的類標號,因此也稱作有指導的學習。

    通過分析訓練數(shù)據(jù)集來構(gòu)造分類模型,可用分類規(guī)則、決策樹或數(shù)學公式等形式提供。

    b使用模型進行分類

    首先評估模型(分類法)的預(yù)測準確率。

    萬方數(shù)據(jù)知識服務(wù)平臺_行為數(shù)據(jù)是什么結(jié)構(gòu)數(shù)據(jù)_數(shù)據(jù)結(jié)構(gòu)知識點

    如果認為模型的準確率可以接受,就可以用它對類標號未知的數(shù)據(jù)元組或?qū)ο筮M行分類。

    32. web訪問信息挖掘的特點:

    Web訪問數(shù)據(jù)容量大、分布廣、內(nèi)涵豐富和形態(tài)多樣

    一個中等大小的網(wǎng)站每天可以記載幾兆的用戶訪問信息。

    廣泛分布于世界各處。

    訪問信息形態(tài)多樣。

    訪問信息具有豐富的內(nèi)涵。

    Web訪問數(shù)據(jù)包含決策可用的信息

    每個用戶的訪問特點可以被用來識別該用戶和網(wǎng)站訪問的特性。

    同一類用戶的訪問,代表同一類用戶的個性。

    一段時期的訪問數(shù)據(jù)代表了群體用戶的行為和群體用戶的共性。

    Web訪問信息數(shù)據(jù)是網(wǎng)站的設(shè)計者和訪問者進行溝通的橋梁。

    Web訪問信息數(shù)據(jù)是開展數(shù)據(jù)挖掘研究的良好的對象。

    Web訪問信息挖掘?qū)ο蟮奶攸c

    訪問事務(wù)的元素是Web頁面,事務(wù)元素之間存在著豐富的結(jié)構(gòu)信息。

    訪問事務(wù)的元素代表的是每個訪問者的順序關(guān)系,事務(wù)元素之間存在著豐富的順序信息。

    每個頁面的內(nèi)容可以被抽象出不同的概念,訪問順序和訪問量部分決定概念。

    用戶對頁面存在不同的訪問時長,訪問長代表了用戶的訪問興趣。

    33. web頁面內(nèi)文本信息的挖掘:

    挖掘的目標是對頁面進行摘要和分類。

    頁面摘要:對每一個頁面應(yīng)用傳統(tǒng)的文本摘要方法可以得到相應(yīng)的摘要信息。

    頁面分類:分類器輸入的是一個Web頁面集(訓練集),再根據(jù)頁面文本信息內(nèi)容進行監(jiān)督學習,然后就可以把學成的分類器用于分類每一個新輸入的頁面。

    {在文本學習中常用的方法是TFIDF向量表示法,它是一種文檔的詞集(Bag-of-Words)表示法,所有的詞從文檔中抽取出來,而不考慮詞間的次序和文本的結(jié)構(gòu)。這種構(gòu)造二維表的方法是:

    每一列為一個詞,列集(特征集)為辭典中的所有有區(qū)分價值的詞,所以整個列集可能有幾十萬列之多。

    每一行存儲一個頁面內(nèi)詞的信息,這時,該頁面中的所有詞對應(yīng)到列集(特征集)上。列集中的每一個列(詞),如果在該頁面中不出現(xiàn),則其值為0;如果出現(xiàn)k次,那么其值就為k;頁面中的詞如果不出現(xiàn)在列集上,可以被放棄。這種方法可以表征出頁面中詞的頻度。

    對中文頁面來說,還需先分詞然后再進行以上兩步處理。

    這樣構(gòu)造的二維表表示的是Web頁面集合的詞的統(tǒng)計信息,最終就可以采用Naive 方法或k- 等方法進行分類挖掘。

    在挖掘之前,一般要先進行特征子集的選取,以降低維數(shù)

    End.

網(wǎng)站首頁   |    關(guān)于我們   |    公司新聞   |    產(chǎn)品方案   |    用戶案例   |    售后服務(wù)   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區(qū)    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權(quán)所有