生物信息的大規模給數據挖掘提出了新課題和挑戰,需要新的思想的加入.常規的計算機算法仍可以應用于生物數據分析中,但越來越不適用于序列分析問題.究其原因,是由于生物系統本質上的模型復雜性及缺乏在分子層上建立的完備的生命組織理論.西蒙曾給出學習的定義:學習是系統的變化,這種變化可使系統做相同工作時更有效。機器學習的目的是期望能從數據中自動地獲得相應的理論,通過采用如推理,模型擬合及從樣本中學習,尤其適用于缺乏一般性的理論,"噪聲"模式,及大規模數據集.因此,機器學習形成了與常規方法互補的可行的方法.機器學習使得利用計算機從海量的生物信息中提取有用知識,發現知識成為可能.機器學習方法在大樣本,多向量的數據分析工作中發揮著日益重要的作用,而目前大量的基因數據庫處理需要計算機能自動識別,標注,以避免即耗時又花費巨大的人工處理方法.早期的科學方法——觀測和假設——面對高數據的體積,快速的數據獲取率和客觀分析的要求——已經不能僅依賴于人的感知來處理了.因而,生物信息學與機器學習相結合也就成了必然.機器學習中最基本的理論框架是建立在概率基礎上的,從某種意義來說,是統計模型擬合的延續,其目的均為提取有用信息.機器學習與模式識別和統計推理密切相關.學習方法包括數據聚類,神經網絡分類器和非線性回歸等等.隱馬爾可夫模型也廣泛用于預測DNA的基因結構.目前研究重心包括:1)觀測和探索有趣的現象.目前ML研究的焦點是如何可視化和探索高維向量數據.一般的方法是將其約簡至低維空間,如常規的主成分分析(PCA),核主成分分析(KPCA),獨立成分分析( ),局部線性嵌套( ).2)生成假設和形式化模型來解釋現象[6].大多數聚類方法可看成是擬合向量數據至某種簡單分布的混合.在生物信息學中聚類方法已經用于數據分析中,癌癥類型分類及其他方向中.機器學習也用于從基因數據庫中獲得相應的現象解釋.機器學習加速了生物信息學的進展,也帶了相應的問題.機器學習方法大多假定數據符合某種相對固定的模型,而一般數據結構通常是可變的,在生物信息學中尤其如此,因此,有必要建立一套不依賴于假定數據結構的一般性方法來尋找數據集的內在結構.其次基礎生物信息學數據庫模型,機器學習方法中常采用"黑箱"操作基礎生物信息學數據庫模型,如神經網絡和隱馬爾可夫模型,對于獲得特定解的內在機理仍不清楚.