背景
文章提出深度特征交互圖的方法(Deep Maps , DFIM)挖掘DNA序列中特征的上位特征關聯(lián)圖譜
我在wiki 查到的定義:
上位基因( gene): 指的是一對等位基因受到另一對等位基因的制約,并隨著后者不同前者的表型有所差異
motif: . eg, motif, motif or motif , 就是比read更長的片段
:這東西我自己理解的,作者寫的很玄乎,深度學習方法學習了輸入到輸出label的非線性映射,如果某個特征對于結果的輸出依賴于另外的特征,這兩個特征就叫 ,特征的關聯(lián)性或者獨立性對結果有非線性的影響,論文所提的特征可以是單獨或者。
作者的:調(diào)控DNA序列會導致一些調(diào)控蛋白(轉錄因子)上位結合。這種上位結合通常由DNA 的或者影響,通過研究DNA序列的這些上位關聯(lián)可以預測轉錄因子結合和相關分子標記情況
論文地址: //early/2018/04/17/.full.pdf,2018
源碼地址://dfim,作者沒有提供源碼,只有提供了接口
已有算法(只計算特征的重要性通過側翼序列確定t-dna插入位點的方法,缺少特征關聯(lián)信息):
計算流程
計算每個位點的重要性得分特征位點變異計算目標特征周圍的重要性得分計算前后的FIS通過FIS得到上位特征更新DFIM的表 score (FIS)
這里著重講下作者提出這個FIS指標
FIS
對于,單獨計算每個位點的FIS值,某個位點變異前后的FIS值計算:
F I S_{X_{0}}((\beta, t) |(\alpha, \gamma, s))=C_{X_{0}}[b, t]-C_{X_{0}^{\prime}}[b, t]
評分矩陣定義為Y的的一階泰勒展開(from ),通過網(wǎng)絡訓練得到:
C_{X_{0}}=w_{0}[b, p] X_{0}[b, p]
某特征的最大FIS:
\max F I S_{X_{0}}((\beta, t) |(\alpha, s))=\max _{\gamma}((\beta, t) |(\alpha, \gamma, s))
Motif FIS
采用似然最大化的方式會因為長度導致計算量的指數(shù)上升,因此作者采取變異后的GC、AT合并通過側翼序列確定t-dna插入位點的方法,均衡兩個概率:
X_{0}^{\prime}[(2,3), s]=\frac{f_{\{CC}}}{2}, X_{0}^{\prime}[(1,4), s]=\frac{1-f_{\{GC}}}{2}
最后的motif計算FIS方式如下:
\begin{array}{c}{\{FIS}_{X_{0}}\left(\left(\left\{\beta_{p}, \ldots, \beta_{q}\right\},\left\{t_{p}, \ldots, t_{q}\right\}\right) |\left(\left\{\{k}, \ldots, \{l}\right\}, f_{G C},\left\{s_{k}, \ldots, s_{l}\right\}\right)\right)} \\ {=\sum_{(\beta, t) \in\left\{\left(\beta_{p}, t_{p}\right), \ldots,\left(\beta_{q}, t_{q}\right)\right\}} C_{X_{0}}[\beta, t]} \\ {-\sum_{(\beta, t) \in\left\{\left(\beta_{p}, t_{p}\right), \ldots,\left(\beta_{q}, t_{q}\right)\right\}} C_{X_{0}}^{\prime}[\beta, t]}\end{array}
FIS計算優(yōu)勢網(wǎng)絡
其中一個實驗用的Dense的密集連接網(wǎng)絡,另外一個用的CNN,核心是驗證這個FIS指標對于其他算法的有效性,所以論文的核心就在于這個FIS指標上