操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    機器學習算法雖多,卻沒有什么普適的解決方案。決策樹、隨機森林、樸素貝葉斯、深度網絡等等等等,是不是有時候覺得挑花了眼呢?福利來啦~本文將教你慧眼識精,快速挑選出滿意的算法!

    機器學習既是一門科學,也是一種藝術。縱觀各類機器學習算法,并沒有一種普適的解決方案或方法。事實上,有幾個因素會影響你對機器學習算法的選擇。

    有些問題是非常特別的,需要用一種特定的解決方法。例如,如果你對推薦系統有所了解,你會發現它是一類很常用的機器學習算法,用來解決一類非常特殊的問題。而其它的一些問題則非常開放,可能需要一種試錯方法(例如:強化學習)。監督學習、分類、回歸等問題都是非常開放的,可以被用于異常檢測或建立更加廣泛的預測模型

    此外,我們在選擇機器學習算法時所做出的一些決定與算法的優化或技術層面關系并不大,而更多地與業務決策相關。下面,讓我們一起來看看有哪些因素能幫你縮小機器學習算法的選擇范圍。

    數據科學過程

    在你開始研究不同的機器學習算法前,你需要對自己擁有的數據、面對的問題及相關約束有清晰的了解。

    理解你的數據

    當我們決定使用哪種算法時,我們所擁有的數據的類型和形態起著關鍵性的作用。有些算法可以利用較小的樣本集合工作,而另一些算法則需要海量的樣本。特定的算法對特定類型的數據起作用。例如,樸素貝葉斯算法對處理待分類的輸入特別有效,但是對于缺失值則一點都不敏感。

    因此,你需要做到:

    了解你的數據

    1. 查看總結統計和數據可視化的結果

    2. 數據可視化

    數據清洗

    機器學習防止過擬合_過擬合與欠擬合_機器學習防止過擬合

    1. 處理缺失值。缺失的數據對于某些模型的影響比對其它模型更大。即使是對于那些被用于處理缺失數據的模型來說,它們也可能對缺失數據很敏感(某些變量的缺失數據可能導致預測性能變差)

    2. 選擇處理異常值的方法

    3. 數據需要被聚合嗎?

    數據增強

    1. 特征工程是從原始數據中產生能夠被用于建模的數據的過程,可以起到以下幾種作用:

    2. 不同的模型可能有不同的特征工程的要求。有的模型有內置的特征工程。

    對問題進行分類

    下一步是對問題進行分類。這是一個需要分兩步實現的過程

    1. 根據輸入分類:

    2. 根據輸出分類:

    理解你要滿足的約束條件

    過擬合與欠擬合_機器學習防止過擬合_機器學習防止過擬合

    尋找可用的算法

    當對自己的任務環境有了一個清晰的認識后,你就可以使用你所掌握的工具確定適用于待解決的問題并切實可行的算法。一些影響你選擇模型的因素如下:

    模型的復雜度是一個影響算法選擇的重要標準。一般來說,一個更復雜的模型具備下列特征:

    除此之外,同樣的機器學習算法可以基于參數的個數和某些超參數的選擇而變得更加復雜。例如:

    將相同的算法變得更加復雜增加了發生過擬合的幾率。

    常用的機器學習算法

    線性回歸

    這可能是機器學習中最簡單的算法。例如,當你想要計算一些連續值,而不是將輸出分類時,可以使用回歸算法。因此,當你需要預測一個正在運行的過程未來的值時,你可以使用回歸算法。然而,當特征冗余,即如果存在多重共線性()時,線性回歸就不太穩定。

    在下列情況下可以考慮使用線性回歸:

    回歸

    過擬合與欠擬合_機器學習防止過擬合_機器學習防止過擬合

    回歸執行二進制分類,因此輸出二值標簽。它將特征的線性組合作為輸入,并且對其應用非線性函數(),因此它是一個非常小的神經網絡的實例。

    回歸提供了許多方法對你的模型進行正則化處理,因此正如在樸素貝葉斯算法中那樣,你不必擔心你的特征是否相關。該模型還有一個很好的概率化的解釋。不像在決策樹或者支持向量機中那樣機器學習防止過擬合,你可以很容易地更新你的模型以獲取新的數據。如果你想要使用一個概率化的框架,或者你希望在未來能夠快速地將更多的訓練數據融合到你的模型中,你可以使用 回歸算法。 回歸還可以幫助你理解預測結果背后起作用的因素機器學習防止過擬合,它不完全是一個黑盒方法。

    在下列情況下可以考慮使用 回歸算法:

    決策樹

    決策樹很少被單獨使用,但是不同的決策樹可以組合成非常高效的算法,例如隨機森林或梯度提升樹算法。

    決策樹很容易處理特征交互,并且決策樹是一種非參數模型,所以你不必擔心異常值或者數據是否是線性可分的。決策樹算法的一個缺點是,它們不支持在線學習,因此當你要使用新的樣本時,你不得不重新構建決策樹。決策樹的另一個缺點是,它很容易發生過擬合,而這就是像隨機森林(或提升樹)這樣的集成學習方法能夠派上用場的地方。決策樹也需要大量的內存空間(擁有的特征越多,你的決策樹可能會越深、越大)

    決策樹能夠很好地幫助你在諸多行動路徑中做出選擇:

    K-均值

    有時,你完全沒有數據的標簽信息,并且你的目的是根據對象的特征來為其打上標簽。這種問題被稱為聚類任務。聚類算法可以在這種情況下被使用:例如,當你有一大群用戶,你希望根據他們共有的一些屬性將其劃分到一些特定的組中。

    如果在你的問題聲明中有這樣的問題:例如,找出一群個體的組織形式,或將某些東西分組,或找出特定的組。這時,你就應該使用聚類算法。

    該方法最大的缺點是,K-均值算法需要提前知道你的數據會有多少簇,因此這可能需要進行大量的試驗去「猜測」我們最終定義的簇的最佳個數——K。

    機器學習防止過擬合_過擬合與欠擬合_機器學習防止過擬合

    主成分分析(PCA)

    主成分分析能夠對數據進行降維。有時,你擁有各種各樣的特征,這些特征之間的相關性可能很高,而模型如果使用如此大量的數據可能會產生過擬合現象。這時,你可以使用主成分分析(PCA)技術。

    主成分分析(PCA)能夠起作用的關鍵因素是:除了低維的樣本表征,它還提供了各種變量的一種同步的低維表征。同步的樣本和變量的表征提供了一種能夠可視化地找到能夠表示一組樣本的特征的變量的方法。

    支持向量機

    支持向量機(SVM)是一種在模式識別和分類問題中被廣泛應用的監督機器學習技術——當你的數據恰好有兩類時。

    支持向量機準確率高,對于防止過擬合很好的理論保障。當你使用一個合適的核函數時,即使你的數據在基(低維)特征空間中是線性不可分的,他們也可以很好地工作。支持向量機在文本分類問題中非常流行,在該問題中,輸入是一個維度非常高的空間是很正常的。然而,SVM 是一種內存密集型算法,它很難被解釋,并且對其進行調優十分困難。

    在下列現實世界的應用中,你可以使用支持向量機:

    樸素貝葉斯

    這是一種基于貝葉斯定理的分類技術,它很容易構建,非常適用于大規模數據集。除了結構簡單,據說樸素貝葉斯的表現甚至比一些復雜得多的分類方法更好。當 CPU 和內存資源有限時,樸素貝葉斯算法也是一個很好的選項。

    樸素貝葉斯非常簡單,你僅僅是在做大量的計數工作。如果樸素貝葉斯的條件獨立假設確實成立,樸素貝葉斯分類器的收斂速度會比 回歸這樣的判別模型更快,因此需要的訓練數據更少。即使樸素貝葉斯的假設不成立,樸素貝葉斯分類器往往也能很好地完成任務。如果你想使用一種快速的、簡單的、性能也不錯的模型,樸素貝葉斯是一個很好的選擇。這種算法最大的缺點就是它不能學習到特征之間的相互作用。

    在下列真實世界的應用中,你可以使用樸素貝葉斯:

    機器學習防止過擬合_機器學習防止過擬合_過擬合與欠擬合

    隨機森林

    隨機森林是一種決策樹的集成方法。它能夠同時解決具有大規模數據集的回歸問題和分類問題,還有助于從數以千計的輸入變量中找出最重要的變量。隨機森林具有很強的可伸縮性,它適用于任何維數的數據,并且通常具有相當不錯的性能。此外,還有一些遺傳算法,它們可以在具有最少的關于數據本身的知識的情況下,很好地擴展到任何維度和任何數據上,其中最簡單的實現就是微生物遺傳算法。然而,隨機森林學習的速度可能會很慢(取決于參數設置),并且這種方法不能迭代地改進生成模型。

    在下列現實世界的應用中,你可以使用隨機森林:

    神經網絡

    神經網絡中包含著神經元之間連接的權重。這些權重是平衡的,逐次對數據點進行學習。當所有的權重都被訓練好后,如果需要對新給定的數據點進行回歸,神經網絡可以被用于預測分類結果或一個具體數值。利用神經網絡,可以對特別復雜的模型進行訓練,并且將其作為一種黑盒方法加以利用,而在訓練模型之前,我們無需進行不可預測的復雜特征工程。通過與「深度方法」相結合,甚至可以采用更加不可預測的模型去實現新任務。例如,最近人們已經通過深度神經網絡大大提升了物體識別任務的結果。深度學習還被應用于特征提取這樣的非監督學習任務,也可以在人為干預更少的情況下,從原始圖像或語音中提取特征。

    另一方面,神經網絡很難被解釋清楚,其參數設置也復雜地讓人難以置信。此外,神經網絡算法也都是資源密集型和內存密集型的。

    參考手冊

    為大家提供了一個非常深入的、解釋地很清楚的流程圖,它能夠幫助你選擇正確的算法。我認為此圖十分方便。

    結論

    一般來說,你可以根據上面介紹的要點來篩選出一些算法,但是要想在一開始就知道哪種方法最好是很難的。你最好多迭代幾次選擇算法的過程。將你的數據輸入給那些你確定的潛在優秀機器學習算法,通過并行或串行的方式運行這些算法,最終評估算法性能,從而選擇出最佳的算法。

    在最后,我想告訴你:為現實生活中的問題找到正確的解決方案,通常不僅僅是一個應用數學方法的問題。這要求我們對業務需求、規則和制度、相關利益者的關注點有所了解,并且具備大量的專業知識。在解決一個機器學習問題的同時,能夠結合并平衡這些問題是至關重要的,那些能做到這一點的人可以創造最大的價值。

    End.

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有