導讀:
2020年9月17日,商湯科技見習研究員譚靖儒和商湯聯合實驗室成員吳桐對 LVIS 挑戰賽中兩屆冠軍方案進行了簡要解讀,介紹了近年來長尾識別任務的發展和幾篇代表工作,并分享了另一篇發表于 ECCV 2020 的長尾分布多標簽圖像分類工作,專注于解決長尾分布數據集下的分割、分類等問題。
點擊文末【閱讀原文】觀看視頻回放,掃描文末二維碼進入智東西公開課學習資料群或在本公眾號回復關鍵詞商湯005即可獲取完整PPT。
Part 1 ECCV LVIS 冠軍項目分享
?LVIS 數據集以及背景介紹
?LVIS 競賽兩屆冠軍方案與經驗
Part 2 ECCV 2020 論文分享
?長尾識別任務發展
?論文解讀
Part 3 Q&A
Part 1ECCV LVIS 冠軍項目分享
1.LVIS挑戰賽背景介紹
LVIS 是用于長尾識別的實例分割數據集。它使用了和 COCO 完全相同的圖片,但使用了不同的標注策略,以自然的方式發現類別,這導致類別的數量很多,且呈現長尾分布。其使用了 的方法,對每個類別都有 & image set ,這導致了一些 miss 的問題,如下圖所示。
此外,LVIS 的長尾分布導致 和 rare 的數據差別很大,使得識別出現明顯的傾向。LVIS 的標注也比 COCO 更加精細,這給了我們機會去評估更高質量的 mask。
總結來講,LVIS有以下四個特點:
?Large scale
?Long tail
?
?High mask
2.LVIS冠軍工作
上一屆比賽中的工作重心放在了長尾識別上,我們提出了新的損失函數 Loss:
通過實驗驗證我們發現,通過簡單地 block 這些梯度,rare 類別和 類別都能得到很大的提升,而對 基本沒有影響。
這項工作也在額外的數據集上做了一些探索,例如用 COCO 的 pre- 得到了較大的提升,以及將 COCO 的標注用作 的機制,在 open image 上也找到了與LVIS相同的類別一起訓練。
總結起來,我們使用了數據探索,以及 EQL, ,結果得到了很大的提升,最終 rare 和 的精度達到了最高。
LVIS 2019
今年的 LVIS 2020 發布了1.0的版本,訓練集和 更大,訓練結果更加穩定,也規定了新的規則。LVIS 2020 的工作可以總結為 Two-stage 如下圖:
其中由于新的比賽規則不允許使用有標注的數據,我們引入了 Self-。我們在 LVIS 和 Open image 預測了偽標簽,對于 LVIS 上的偽標簽,如果和某個訓練的 有足夠大的 ,則 掉這些 的 loss,以此來緩解 miss 的問題;對于 open 上的偽標簽,我們在每個 epoch 隨機 一些和 LVIS 的訓練數據放在一起訓練。
在 Fine- stage 中,首先需要解決 的問題,在此使用了 group 的方法,從而進一步提高 bbox head 對于 tail 類別的性能
本工作在高質量的 mask 上也做了一些探索。主要是發現存在一些類別, bbox 和 mask 的 AP 存在巨大的 gap ,其原因是存在一些 bbox 很大,但是 mask 很小的類別。這種 mask/bbox ratio 小的問題,使得在提取 上如果使用 bbox 的 scale 來決定 FPN 的 level,會使得過于 的 無法預測精細的 mask,因此在提取 過程了綜合考慮了 bbox 的 scale 和 mask/bbox 的 ratio 來決定 FPN 的 level,以此獲得更加合適的 。另外,為了克服 mask/bbox ratio 小帶來的訓練過程中存在的 / 不平衡的問題,使用了一個 Dice loss 和 BCE Loss 結合的 Mask Loss。
本次工作的結果如下圖,依然達到了最高的 rare 和 :
3. 問題與展望
挑戰:
?部分類別不適合用 box 表示/特征不明顯按物體的數量分類ppt,難以表示
? :有一些類別如細長的欄桿,box 很大,但 mask 很難預測和表示
展望:
?Large Scale :大規模類別的物體檢測和分類
?Semi- & :對于長尾識別,是否可以引入半監督/無監督學習方法
? :可以嘗試學習更好的特征,來訓練 rare 和 類別更容易
?High mask :LVIS 精細的標注可以預測更好的 Mask
Part 2 ECCV 論文分享
1. 長尾分布識別前沿進展回顧
Long tail 是一種普遍存在的現象,深度學習依賴于數據,但真實環境中采集到的數據如果未經過人工調平衡,會在數量上呈現長尾分布的形態,對模型性能有負面影響。因此要嘗試解決 long tail 的數據不平衡問題。
關于長尾識別的定義,這篇 CVPR 2019 的 Oral 工作是這樣來看待這個問題的:從頭部到中部的過渡是傳統的 問題;后面很多尾部類別僅有極少量個訓練樣本,是這幾年受到廣泛關注的 Few-shot 問題;最后對于訓練集中沒有覆蓋到的類別又構成了一個 Open-set 的問題。為了方便不同的工作進行衡量和比較,這篇文章建立了三個 long- 的數據集,給出了類別劃分方法,以及這個任務的 ,之后的很多工作都在沿用它提出的數據集和設定。
常見的解決方法:
?Re-
最常見也是很經典的一種思路就是重采樣,比如頭部類別的欠采樣、尾部類別的過采樣、以及類別均衡采樣法,但過采樣也可能會導致尾部類別的過擬合,欠采樣也可能漏掉重要樣本等等。在最近的工作中它常常作為整個 的一個組件使用。
?Cost-
代價敏感學習是對損失函數做文章,比如早期用樣本頻率的倒數或者倒數的開方給損失函數做類別層面的加權、近年來的 focal loss 調整了損失函數的下降趨勢,給困難樣本保留相對更大的梯度、或者計算 等。
●
也是一種常見的思路,考慮到既然在頭部有足夠多的樣本,可以把 從 head 向 tail 傳遞,從而彌補尾部樣本數量的不足。
? and
均勻采樣能夠學到更好的模型表征,而重采樣則對分類器的學習有幫助,所以關鍵是要將基于不同的采樣方法的這兩個結構的學習解耦開,可以采用訓練方式上的 2-stage ,或者模型結構上的 2- ,來實現這一目的。
2. ECCV 2020 論文解讀
采集自真實場景的圖片常常具有豐富的語義信息,多個物體共存是一種普遍情形。因此長尾分布下的多標簽分類任務是這篇文章主要關注的問題。從單標簽向多標簽的轉換,有幾個自然的思路:對前者有效的方法對后者來說是否仍適用?兩種設定在訓練時的主要區別有哪些,又有怎樣的影響呢?
?采樣難解耦
在這個問題中,我們注意到重采樣(re-)是一個常見而有效的策略,在幾個最新工作[1,2,3,4]中都作為關鍵組件出現,其中[3,4]提出重采樣法對分類器學習有顯著促進作用。但這種方法并不能順滑地遷移到多標簽情景中,因為標簽的共存性(co-)將導致不同類別在采樣時無法解耦。舉個例子,如果數據集中有限的幾張牙刷圖片樣本都同時包含刷牙的人在其中,那么在對“牙刷”這一尾部類別進行重采樣時,對“人”這一頭部類別的采樣也會只多不少。同時,注意到“刷牙的人”此時就會比“單獨出現的人”具有顯著更高的采樣頻率,為頭部類別額外引入類內不均衡的問題。
假設我們希望所有類別都以相同的概率被采樣到,那么在不考慮標簽共存時,包含類別
的樣本
被采樣到的概率可記作
;但該樣本還可能含有其它正標簽,每一個正標簽都對它實際的采樣概率有所貢獻,后者可以計算出并記為
。我們通過計算上述二者的比值
并以其作為加權系數加入訓練,來彌補期待與實際采樣概率之間的差距。特別的,我們還設計了一個平滑函數,將權重系數映射到一個合理范圍內。權重系數的計算過程如下所示。
?分類器出走
Cross- Loss (CE Loss) 是單標簽分類中常見的損失函數,其中 的計算強調分類器需要輸出唯一最大預測值,同時正負類別的預測值在損失函數中存在相互影響;而多標簽分類則多使用 Cross- Loss (BCE Loss) ,將任務拆解為一系列相互獨立的二分類問題,并以 計算每一類別的輸出預測值。
這個問題是負樣本的過度抑制(over- of ),它的解決思路是,不要對負樣本持續施加過重的懲罰,而是點到為止。我們只需要對分類器的負類輸出進行一個簡單的線性變換就能夠實現上述功能,不要忘記加上正則化系數約束梯度值的范圍。變換后函數請見后文的整體公式,它對負類輸出的梯度與 CE 和 BCE 一同對比如下圖所示。
上面兩個方法可以自然地融合為一個損失函數,并進行端到端的訓練,下圖可視化了它的構造過程。
整體計算框架:(1) 首先應用重采樣法促進尾部類別分類器的學習,同時也對頭部類別引入了一定的類內采樣不均衡性;(2) 接著按物體的數量分類ppt,利用重加權的方法對無法解耦的采樣在權重上予以平衡;(3)最后,正則化方法緩解了對負類別輸出的過度抑制。如下圖所示,特征向量 ( ) 空間各類別預測值的分布得到了遞進式的平衡,這也是分布平衡損失函數 (- Loss)命名時的想法。
我們在人工創建的 VOC 和 MS COCO 的長尾版本上進行了實驗,該方法取得了優異的性能,超過了幾種 SOTA 方法。
Part 3 Q&A
Q: 如何理解Group ?
Group 是將所有類別分成幾個更小的 group,每個 group 內部分別做 。其核心思想是把 數量相近的放到一起,這樣在訓練時競爭會比較 ,預測時 norm 靠近,得分就沒有明顯的傾向。
Q: 如何理解長尾分布中的損失函數?
EQL 有兩個函數,E函數是 level 的函數,full 時輸出0,w=1,函數退化為普通的 函數;T函數中一個類別的 低于某個閾值,T函數輸出1,導致w=0,這一項無法產生影響,使得正樣本無法對尾部產生影響。
PPT獲取掃描下方二維碼進入智東西公開課學習資料群領取或在本公眾號后臺回復“商湯005”獲取本次完整講解PPT。
免費領取課件
END
直播預告
10月30日上午10點,CV前沿講座第20講正式線上開講!IBM美國研究院首席研究員淦創將講解《多模態視頻理解的研究與應用》。
掃描下方海報中的二維碼快速報名
你的每一個“在看”,我都當成了喜歡
▼