簡單的講HMMER就是一款比對軟件,可以類似于blast等,但是它提供的比對結果要精確于blast,相應的速度也要慢。與其類似的比對軟件有PSI-blast、SAM、等。
用途一:對于一條未知的序列在蛋白質數據庫中尋找比對,HMMER完全可以取代目前常用的 和 PSI-BLAST。
用途二:可以自動注釋蛋白質結構域。包括pfam、SMART。
用途三:在數據庫中尋找已有家族的相似序列。
HMMER的程序如下,注意每個程序都是輸出文件在前面,輸入文件在后面:
(建立參考數據的隱馬爾可科夫模型)
輸入:多重序列比對的文件( file)
輸出:建立的這些多重序列比對的隱馬爾可科夫模型,
例子: .hmm /.sto
(多重序列比對)輸入:輸入是fasta文件輸出: 格式的多重序列比對文件例子: .hmm /.fa
(在數據庫中尋找已經建立好的模體)
輸入:建立好的參考數據模型、要搜索的數據庫
輸出:輸出結果
例子: .hmm sprot.fasta > .out
====================================================
(對于只有一條未知蛋白序列的情況下,就省去多重序列比對和建立模型的過程直接一步到位,期間使用了打分矩陣,類似于-like)
輸入:/HBB HUMAN 是你要檢測的fasta格式的序列, sprot.fasta你要搜索的數據庫
phmmer tutorial/HBB HUMAN uniprot sprot.fasta
(類似于,輸入的query可以是fasta格式的DNA或者RNA序列,但是只能是一條。如果是多條請先做多重序列比對(),然后使用建立模型()序列格式與數據庫的區別序列格式與數據庫的區別,然后生成的hmm作為輸入)
nhmmer MADE1.hmm dna target.fa > MADE1.out
=================================================
如果你有未知的序列去搜尋已知的模型數據庫,例如:Pfam, SMART, or .這個時候搜尋的過程就使用,相應的核酸序列就使用.
首先還是要建立模型數據庫,如果你要合并多個可以直接:
cat globins4.hmm fn3.hmm Pkinase.hmm > minifam
如果你僅僅有的是模型數據庫的多重序列比對格式文件例如來自pfam數據庫的( file)Pfam-A.seed文件:你可以利用 建立模型數據庫:
hmmbuild Pfam-A.hmm Pfam-A.see
生成的文件為pfam-A.hmm由于你一般建立的模型數據庫比較大,所以需要建立index,運行: (感覺有點像)
最后運行:
mmscan minifam tutorial/7LESS DROME
原文來自: