在過去的幾年里,計算機視覺深度學(xué)習(xí)技術(shù)的快速發(fā)展極大地提升了醫(yī)學(xué)圖像分割()的性能。然而,最近的出版物通常專注于主要貢獻的介紹(例如,網(wǎng)絡(luò)架構(gòu)、訓(xùn)練策略和損失函數(shù)),而無意中忽略了一些邊緣實現(xiàn)細節(jié)(也稱為“技巧”),導(dǎo)致了不公平的實驗結(jié)果比較的潛在問題。本文收集了一系列的技巧,適用于不同的模型實現(xiàn)階段(即模型實現(xiàn)階段)。分別是預(yù)訓(xùn)練模型、數(shù)據(jù)預(yù)處理、數(shù)據(jù)增強、模型實現(xiàn)、模型推理和結(jié)果后處理),并通過實驗探討了這些技巧在一致性基線模型上的有效性。通過在具有代表性的二維和三維醫(yī)學(xué)圖像數(shù)據(jù)集上的大量實驗結(jié)果,我們明確闡明了這些技巧的效果。此外,基于所綜述的技巧,我們還開放了一個強大的存儲庫,其中每個組件都具有即插即用的優(yōu)勢。我們相信,這一里程碑式的工作不僅完成了對最先進的方法的全面和補充調(diào)研,而且為解決未來醫(yī)學(xué)圖像處理的挑戰(zhàn)提供了實用指南,包括但不限于小數(shù)據(jù)集學(xué)習(xí)、類不平衡學(xué)習(xí)、多模態(tài)學(xué)習(xí)和領(lǐng)域適應(yīng)。代碼已在:發(fā)布。
引言
醫(yī)學(xué)圖像分割()是計算機視覺和醫(yī)學(xué)圖像分析領(lǐng)域最具代表性和綜合性的研究課題之一。它不僅能識別物體類別,還能定位出像素級的位置[4]-[9]。在臨床實踐中,已成功應(yīng)用于定性和定量分析的廣泛潛在應(yīng)用領(lǐng)域,如癌癥診斷[10]、腫瘤變化檢測[11]、治療計劃[12]和計算機集成手術(shù)[13]。為了實現(xiàn)令人滿意的分割性能,關(guān)鍵挑戰(zhàn)之一是使分割模型能夠?qū)W習(xí)一組豐富而具有鑒別性的特征表示[14]-[17]。
近年來,由于圖像處理深度學(xué)習(xí)技術(shù)[17]-[21]的顯著進步,的性能有了很大的提高[5]、[22]-[29]。高級骨干(如 [30], VGG [31], [18], [21], [32], [33], [34] HRNet [35], [36], ViT [37], [38], CMT [39], [40], CvT[41])天生可以學(xué)習(xí)豐富的語義特征表示,直接促進的識別能力。某些詳細的特征規(guī)則(例如,橫向連接[42]、殘差映射[18]、[21]、編碼器-解碼器方案[43]、[44]、密集連接[8]、特征金字塔[45]和全局上下文聚合[46]、[47])也可以提高性能。將這些復(fù)雜的元素集成到統(tǒng)一的系統(tǒng)中是性能如此良好的主要原因。此外,一些訓(xùn)練策略(如聯(lián)合訓(xùn)練[48]、[49]、聯(lián)合教學(xué)[50]、[51]、聯(lián)合學(xué)習(xí)[52]、[53]、測試時間訓(xùn)練[54]、[55])和一些成熟的損失函數(shù)(如交叉熵損失、骰子損失、-損失[56]、[57])也是影響模型性能[58]、[59]不可或缺的組成部分。
然而,進展的跡象不是單獨提出的,它們通常與現(xiàn)有的實現(xiàn)混合在一起[60],[61]。特別是,目前,一個完整的系統(tǒng)通常由大量的實現(xiàn)細節(jié)(包括一些非學(xué)習(xí)模型無關(guān)的預(yù)處理過程)組成,以實現(xiàn)理想的最先進的識別性能[5],[62]-[65]。不幸的是,官方出版物中很少有邊緣實現(xiàn)描述(也稱為“技巧”),或者只在發(fā)布的代碼中介紹(在補充材料中有一些)。例如,如圖1所示,在流行的[18]體系結(jié)構(gòu)(通常被視為模型的主流骨干網(wǎng))的修改輸入干中,使用三個累積的3 × 3卷積層(圖1 (b))來取代輸入干中原來的7×7卷積層(圖1 (a)),以減少計算成本[66]-[68]。盡管這種細微的變化可以顯著提高[21],[61]用ai切割圖片,[69],[70]的準(zhǔn)確性,但很少有出版物明確提及這一點。因此,將基于這種修改后的實現(xiàn)的性能與基于原始實現(xiàn)的性能進行比較本質(zhì)上是不公平的。
細節(jié)決定成敗。在這項工作中,為了揭示技巧對模型(如圖2所示)的影響,根據(jù)一套完整的實現(xiàn)階段,包括預(yù)訓(xùn)練模型(參考3.1節(jié))、數(shù)據(jù)預(yù)處理(參考3.2節(jié))、數(shù)據(jù)增強(參考3.3節(jié))、模型實現(xiàn)(參考3.4節(jié))、模型推斷(參考3.5節(jié))和結(jié)果后處理(參考3.6節(jié)),我們首先收集了一系列在當(dāng)前的模型中被忽略的實用的和有代表性的技巧。然后,借助代表性卷積神經(jīng)網(wǎng)絡(luò)(CNNs)骨干網(wǎng),在包括典型2D-UNet[43]和3D-UNet[71]在內(nèi)的一致分割基線模型上實驗探索這些技巧的有效性,從而避免模型變量的影響(即由于模型變化而導(dǎo)致的性能變化)。相比于現(xiàn)有論文驅(qū)動的技術(shù)調(diào)研,只平淡地關(guān)注圖像分割模型的優(yōu)點和局限性分析,我們的工作提供了大量的扎實的實驗結(jié)果,在技術(shù)上更具有可操作性。基于四種醫(yī)學(xué)圖像數(shù)據(jù)集(即具有挑戰(zhàn)性的2D ISIC 2018病灶邊界分割數(shù)據(jù)集[72]、2D結(jié)腸核識別和計數(shù)挑戰(zhàn)數(shù)據(jù)集[73]、[75]、3D腎臟腫瘤分割2019數(shù)據(jù)集[74]和3D肝臟腫瘤分割挑戰(zhàn)數(shù)據(jù)集[63])上的大量實驗結(jié)果,我們明確闡明了這些技巧的效果。此外,基于所調(diào)研的技巧和使用的基線模型,我們還開放了一個強大的存儲庫,其中每個組件都具有即插即用的優(yōu)勢。相信這一里程碑式的工作不僅完成了最先進的方法的全面技術(shù)調(diào)研,而且為解決未來醫(yī)學(xué)圖像處理(特別是密集圖像預(yù)測任務(wù))的挑戰(zhàn)(包括小數(shù)據(jù)集學(xué)習(xí)、類不平衡學(xué)習(xí)、多模態(tài)學(xué)習(xí)和領(lǐng)域適應(yīng))提供了實用指南。
這項工作的主要貢獻可以概括如下:
在第二節(jié)中,我們首先介紹了初步的實驗設(shè)置,包括基線模型、實驗設(shè)置、使用的數(shù)據(jù)集和評價指標(biāo)。在第3節(jié)中,我們根據(jù)順序訓(xùn)練階段介紹了收集到的技巧,并提供了廣泛的實驗結(jié)果和詳細的實驗分析。在第四部分中,對整篇論文包括這一任務(wù)所面臨的挑戰(zhàn)進行了全面的討論。最后,在第五部分,我們給出了一個結(jié)論,并指出了潛在的方向。
圖3。在一些實驗樣本中用ai切割圖片,(a)中的圖像來自2D ISIC 2018[72]訓(xùn)練集,(b)中的圖像是渲染場景和分割軸向切片,來自3D腎腫瘤分割2019數(shù)據(jù)集[74],(c)中的圖像來自2D結(jié)腸核識別和計數(shù)挑戰(zhàn)數(shù)據(jù)集[75],(d)中的圖像來自3D肝腫瘤分割挑戰(zhàn)數(shù)據(jù)集[63]。(圖片來自發(fā)布的數(shù)據(jù)集或其官方網(wǎng)站)。
結(jié)論我們?yōu)椴煌膶崿F(xiàn)階段收集了一組技巧,即預(yù)訓(xùn)練模型、數(shù)據(jù)預(yù)處理、數(shù)據(jù)增強、模型實現(xiàn)、模型推斷和結(jié)果后處理。這些技巧幾乎涵蓋了用于醫(yī)學(xué)圖像分割任務(wù)的所有常見和基本方案;其他精細的技巧可以被看作是這些技巧更復(fù)雜的組合。在我們的工作中,為了避免實現(xiàn)變化帶來的性能模糊性,我們在一致的2D-UNet[43]和3D-UNet[71]基線模型上實驗探索了收集到的技巧的有效性。通過在2D ISIC 2018[72]、2D CoNIC[73]、[75]、[95]、3D [74]和3D LiTS[63]上的實驗結(jié)果,我們明確地闡明了這些技巧的效果。此外,基于調(diào)研的技巧和基線模型,為2D和3D醫(yī)學(xué)圖像開源了一個強大的庫,其中每個組件都具有即插即用的優(yōu)勢。與現(xiàn)有的紙質(zhì)細分調(diào)查[10],[77],[144],[145],[159],[163],[170],[195]相比,我們的工作可以提供廣泛的實驗,在技術(shù)上更具可操作性。我們工作的一個重要貢獻是明確地探索這些收集的技巧的效果。我們的工作既能促進后續(xù)方法的注意力技巧,又能達到比較公平的結(jié)果。這可能是必要的,特別是在當(dāng)前,面對一些復(fù)雜的任務(wù),網(wǎng)絡(luò)架構(gòu)變得越來越復(fù)雜,例如,圖像分割[180],[184],目標(biāo)檢測[45],[176],和圖像生成[77],[112]。此外,當(dāng)我們將所有常用的技巧整合到一個統(tǒng)一的框架中[61]時,模型中的技巧之間可能存在實現(xiàn)上的沖突或抵消,這可以為即將到來的分割管道提供經(jīng)驗和協(xié)調(diào)的指導(dǎo),包括網(wǎng)絡(luò)架構(gòu)、訓(xùn)練策略和損失函數(shù)。
未來我們將在以下幾個方面進行工作: (1)在上調(diào)研和開發(fā)更多的技巧。在臨床實踐中,我們經(jīng)常面臨非常復(fù)雜的情況,而是一個與實踐緊密結(jié)合的基礎(chǔ)研究課題。因此,在現(xiàn)有的基礎(chǔ)上繼續(xù)探索和開發(fā)一些更先進的技巧,以滿足不同問題的要求,具有很大的實用價值和意義。(2) 繼續(xù)探索技巧在更多方法和數(shù)據(jù)集上的有效性。在少量有限的數(shù)據(jù)集上的實驗結(jié)果不可避免地存在偏差。特別是在面對問題時,內(nèi)部類的不同圖像類型、分布和發(fā)散會影響特定技巧的有效性。為了使實驗結(jié)果的比較更加全面和公正,有必要進行全面的技術(shù)調(diào)研。(3) 探索受技巧啟發(fā)的模型設(shè)計。雖然在現(xiàn)有的出版中技巧很容易被忽略,但它們包含的原理和思想可以用來啟發(fā)后續(xù)的工作,以實現(xiàn)更便宜和計算友好的模型設(shè)計。(4) 探索基于注意力的技巧。近年來,視覺框架通過多頭注意力機制具有很強的特征表示能力,在計算機視覺和醫(yī)學(xué)圖像分析領(lǐng)域受到越來越多的關(guān)注。然而,由于視覺內(nèi)部結(jié)構(gòu)復(fù)雜,實踐應(yīng)用尚不成熟(特別是面對小數(shù)據(jù)集時),其進一步的應(yīng)用還有待探索。因此,對視覺框架進行技巧研究也是很有價值的。
專知便捷查看