日,熱門 VR 應用《Virtual Desktop》發布重大更新,以支持 Meta Quest 3 和 Quest Pro 頭顯。
自 2019 年 Quest 1 面世以來,Guy Godin 便推出了虛擬桌面應用《Virtual Desktop》,是最受歡迎的 VR 應用程序之一,允許用戶在 VR 中使用 Windows 計算機,在虛擬家庭影院中欣賞電影和 2D 游戲,并將 PCVR 游戲流式傳輸到 VR 頭顯。該應用程序最多支持四臺計算機連接到 VR 頭顯并在它們之間切換。幾經迭代更新,該應用成為了許多 PCVR 用戶的首選。
在 Quest 3 上,由其新的 Snapdragon XR2 Gen 2 芯片組啟用,《Virtual Desktop》最新更新增加了對 AV1 視頻編解碼器的支持,HEVC 編解碼器高達 200 Mbps,能夠在 120 Hz 下使用 Godlike 質量設置,以及能夠在任何質量設置下使用超分辨率升級。
AV1 僅受 NVIDIA RTX 40 系列和 AMD Radeon RX 7000 系列 GPU 支持,但在與 HEVC 相同的比特率下可提供更好的圖像質量。Godin 表示,AV1 還能產生更穩定的幀時間,這意味著 VR 移動時出現的卡頓更少,但對 GPU 的要求比其他編解碼器略高。
對于普通的非 VR 顯示器流,Quest 3 還以“更高的分辨率”渲染虛擬環境。
Godin 表示測試表明,Quest 3 比以前的所有的 VR 一體機都提高了 Wi-Fi 性能,使流媒體“總體上更流暢”。
Godin 指出,“Quest 3 是迄今為止最好的無線 PCVR 頭顯”。
但此更新不僅適用于 Quest 3 用戶。對于 Quest Pro 用戶,它增加了通過與 VRCFaceTracking 的集成將頭顯的面部和眼睛追蹤支持引入 PC 版《VRChat》。6 月發布的上一次重大更新增加了對 Quest Pro 局部調光功能的支持,因此《Virtual Desktop》現在可以充分利用 Quest Pro 的獨特功能。
作為計算機視覺領域的頂級學術會議,CVPR 2019 近期公布了最終論文接收結果,引來學界密切關注。據悉,CVPR 2019 今年一共獲得 5165 篇有效提交論文,最終抉出了 1300 篇接收論文,接收率達到 25.2% 。
小編整理了一份從 2000 年——2018 年的 CVPR 最佳論文清單,借此對這批計算機領域的重要論文進行復習。
任務學:任務遷移學習的解耦
Taskonomy: Disentangling Task Transfer Learning
點擊添加圖片描述(最多60個字)
核心內容:論文研究了一個非常新穎的課題,那就是研究視覺任務之間的關系,根據得出的關系可以幫助在不同任務之間做遷移學習。該論文提出了「Taskonomy」——一種完全計算化的方法,可以量化計算大量任務之間的關系,從它們之間提出統一的結構,并把它作為遷移學習的模型。實驗設置上,作者首先找來一組一共 26 個任務,當中包括了語義、 2D、2.5D、3D 任務,接著為任務列表里的這 26 個任務分別訓練了 26 個任務專用神經網絡。結果顯示,這些遷移后的模型的表現已經和作為黃金標準的任務專用網絡的表現差不多好。論文提供了一套計算和探測相關分類結構的工具,其中包括一個求解器,用戶可以用它來為其用例設計有效的監督策略。
論文鏈接:http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf
密集連接的卷積網絡
Densely Connected Convolutional Networks
點擊添加圖片描述(最多60個字)
核心內容:近期的研究已經展現這樣一種趨勢,如果卷積網絡中離輸入更近或者離輸出更近的層之間的連接更短,網絡就基本上可以更深、更準確,訓練時也更高效。這篇論文就對這種趨勢進行了深入的研究,并提出了密集卷積網絡(DenseNet),其中的每一層都和它之后的每一層做前饋連接。對于以往的卷積神經網絡,網絡中的每一層都和其后的層連接,L 層的網絡中就具有 L 個連接;而在 DenseNet 中,直接連接的總數則是 L(L+1)/2 個。對每一層來說,它之前的所有的層的 feature-map 都作為了它的輸入,然后它自己的 feature-map 則會作為所有它之后的層的輸入。
論文鏈接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Huang_Densely_Connected_Convolutional_CVPR_2017_paper.pdf
通過對抗訓練從模擬的和無監督的圖像中學習
Learning from Simulated and Unsupervised Images through Adversarial Training
點擊添加圖片描述(最多60個字)
核心內容:隨著圖像領域的進步,用生成的圖像訓練機器學習模型的可行性越來越高,大有避免人工標注真實圖像的潛力。但是,由于生成的圖像和真實圖像的分布有所區別,用生成的圖像訓練的模型可能沒有用真實圖像訓練的表現那么好。為了縮小這種差距,論文中提出了一種模擬+無監督的學習方式,其中的任務就是學習到一個模型,它能夠用無標注的真實數據提高模擬器生成的圖片的真實性,同時還能夠保留模擬器生成的圖片的標注信息。論文中構建了一個類似于 GANs 的對抗性網絡來進行這種模擬+無監督學習,只不過論文中網絡的輸入是圖像而不是隨機向量。為了保留標注信息、避免圖像瑕疵、穩定訓練過程,論文中對標準 GAN 算法進行了幾個關鍵的修改,分別對應「自我正則化」項、局部對抗性失真損失、用過往的美化后圖像更新鑒別器。
論文鏈接:http://openaccess.thecvf.com/content_cvpr_2017/papers/Shrivastava_Learning_From_Simulated_CVPR_2017_paper.pdf
圖像識別的深度殘差學習
Deep Residual Learning for Image Recognition
點擊添加圖片描述(最多60個字)
核心內容:在現有基礎下,想要進一步訓練更深層次的神經網絡是非常困難的。我們提出了一種減輕網絡訓練負擔的殘差學習框架,這種網絡比以前使用過的網絡本質上層次更深。我們明確地將這層作為輸入層相關的學習殘差函數,而不是學習未知的函數。同時,我們提供了全面實驗數據,這些數據證明殘差網絡更容易優化,并且可以從深度增加中大大提高精度。我們在 ImageNet 數據集用 152 層--比 VGG 網絡深 8 倍的深度來評估殘差網絡,但它仍具有較低的復雜度。在 ImageNet 測試集中,這些殘差網絡整體達到了 3.57% 的誤差。該結果在 2015 年大規模視覺識別挑戰賽分類任務中贏得了第一。此外,我們還用了 100 到 1000 層深度分析了的 CIFAR-10。
對于大部分視覺識別任務,深度表示是非常重要的。僅由于極深的表示,在 COCO 對象檢查數據時,我們就得到了近 28% 相關的改進。深度剩余網絡是我們提交給 ILSVRC 和 COCO2015 競賽的基礎,而且在 ImageNet 檢測任務,ImageNet 定位,COCO 檢測和 COCO 分割等領域贏我們獲得了第一。
論文鏈接:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/He_Deep_Residual_Learning_CVPR_2016_paper.pdf
動態融合:實時非剛性場景的重建與跟蹤
DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time
點擊添加圖片描述(最多60個字)
核心內容:作者提出第一個結合商用傳感器對 RGBD 掃描結果進行捕獲,該結果可實時重建非剛性變形場景的密集 SLAM 系統。被稱作 DynamicFusion 的這種方法在重建場景幾何的當兒,還能同時估算一個密集體積的 6D 運動場景,并將估算結果變成實時框架。與 KinectFusion 一樣,該系統可以生成越來越多去噪、保留細節、結合多種測量的完整重建結果,并實時顯示最新的模型。由于該方法無需基于任何模板或過往的場景模型,因此適用于大部分的移動物體和場景。
論文鏈接:https://rse-lab.cs.washington.edu/papers/dynamic-fusion-cvpr-2015.pdf
關于未知雙向反射分布函數,攝像機運動揭示了什么
What Object Motion Reveals About Shape With Unknown BRDF and Lighting
核心內容:作者提出了一種理論,用于解決在未知遠距離照明以及未知各向同性反射率下,運動物體的形狀識別問題,無論是正交投影還是穿透投影。該理論對表面重建硬度增加了基本限制,與涉及的方法無關。在正交投影場景下,三個微分運動在不計 BRDF 和光照的情況下,可以產生一個將形狀與圖像導數聯系起來的不變量。而在透視投影場景下,四個微分運動在面對未知的 BRDF 與光照情況,可以產生基于表面梯度的線性約束。此外,論文也介紹了通過不變量實現重建的拓撲類。
最后,論文推導出一種可以將形狀恢復硬度與場景復雜性聯系起來的通用分層。從定性角度來說,該不變量分別是用于簡單照明的均勻偏微分方程,以及用于復雜照明的非均勻方程。從數量角度來說,該框架表明需要更多的最小運動次數來處理更復雜場景的形狀識別問題。關于先前假設亮度恒定的工作,無論是 Lambertian BRDF 還是已知定向光源,一律被被當作是分層的特殊情況。作者利用合成與真實數據進一步說明了重建方法可以如何更好地利用這些框架。
論文鏈接:https://cseweb.ucsd.edu/~ravir/differentialtheory.pdf
在單個機器上快速、準確地對100,000個物體類別進行檢測
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine
點擊添加圖片描述(最多60個字)
核心內容:許多物體檢測系統受到將目標圖像與過濾器結合進行卷積所需時間的約束,這些過濾器從不同的角度對物件的外表(例如物體組件)進行編碼。作者利用局部敏感散列這點,將卷積中的點積內核運算符替換為固定數量的散列探測器,這些探測器可以在無視濾波器組大小情況下,及時、有效地對所有濾波器響應進行采樣。
為了向大家展示技術的有效性,作者將其用于評估 100,000 組可變形零件模型,模型將根據目標圖像的多個維度需要運用超過一百萬個濾波器,作者需在 20 秒內通過 20GB RAM 的單個多核處理器來達成評估目標。實驗結果顯示,與其他同樣硬件配置下執行卷積的系統相比,該模型獲得了大約 20,000 倍的提速 - 相等于四個量級。模型在針對 100,000 個物體類別的平均精確度達到了 0.16,主要因為在訓練數據與基本實施的收集上面臨挑戰,最終模型在三分之一類別上實現至少 0.20 的 mAP,另外在大約 20%的類別上實現 0.30 或更高的 mAP。
論文鏈接:https://www.cv-foundation.org/openaccess/content_cvpr_2013/papers/Dean_Fast_Accurate_Detection_2013_CVPR_paper.pdf
一個針對基于活動分解非剛性結構的簡單、無先驗方法
A Simple Prior-free Method for Non-Rigid Structure-from-Motion Factorization
核心內容:作者提出一種簡單的「無先驗」方法來解決非剛性結構的運動因子分解問題。除了基本的低秩條之外,該方法無需任何關于非剛性場景或相機運動的先驗知識。即便如此,它依然得以穩定運行,并產生最佳結果,且不受許多傳統非剛性分解技術的基礎 - 模糊性問題(basis-ambiguity issue)困擾。
該方法易于實現,可以解決包括小型與固定大小的 SDP(半定規劃)、線性最小二乘或范數最小化追蹤等問題。大量實驗結果表明,該方法優于現有的多數非剛性因子分解線性方法。本論文不僅提供全新的理論見解,同時提供了一種適用于非剛性結構運動分解的實用日常解決方案。
論文鏈接:http://users.cecs.anu.edu.au/~hongdong/CVPR12_Nonrigid_CRC_17_postprint.pdf
針對單個深度圖像部件的實時人體姿態識別模型
Real-Time Human Pose Recognition in Parts from Single Depth Images
點擊添加圖片描述(最多60個字)
核心內容:作者提出一種可以基于無時間信息從單個深度圖像中快速、準確預測身體關節 3D 位置的方法。通過采用物體識別方法設計出身體部位的間接表示,進而將有難度的姿勢估計問題映射為簡單的每像素分類問題。作者同通過龐大、多樣化的訓練數據集,讓分類器可以針對身體部位的姿勢、身體形狀、衣服等不變量進行預估,進而通過重新投影分類結果找到局部模式,最終生成具有置信度的身體關節 3D 建模。
該系統能在消費類硬件上以每秒 200 幀的速度運行。評估系統在合成與實際測試集的處理結果中顯示了高精度,并分析了幾個訓練參數對此的影響。與相關工作相比,該模型實現了目前最先進的精度,并在全骨架最近鄰匹配上有了很大進步。
論文鏈接:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/BodyPartRecognition.pdf
利用L1范數對數據缺失的魯棒低秩近似矩陣進行有效計算
Efficient Computation of Robust Low-Rank Matrix Approximations in thePresence of Missing Data using the L1 Norm
點擊添加圖片描述(最多60個字)
核心內容:低秩近似矩陣計算是許多計算機視覺應用中的基礎操作。這類問題的主力解決方案一直是奇異值分解(Singular Value Decomposition)。一旦存在數據缺失和異常值,該方法將不再適用,遺憾的是,我們經常在實踐中遇到這種情況。
論文提出了一種計算矩陣的低秩分解法,一旦丟失數據時會主動最小化 L1 范數。該方法是 Wiberg 算法的代表——在 L2 規范下更具說服力的分解方法之一。通過利用線性程序的可區分性,可以對這種方法的基本思想進行擴展,進而包含 L1 問題。結果表明,現有的優化軟件可以有效實現論文提出的算法。論文提供了令人信服、基于合成與現實數據的初步實驗結果。
論文鏈接:https://acvtech.files.wordpress.com/2010/06/robustl1_eriksson.pdf
暗通道先驗去霧法
Single Image Haze Removal Using Dark Channel Prior
點擊添加圖片描述(最多60個字)
核心內容:本文中提出了一個簡單卻有效、針對單個輸入圖像的暗通道去霧法。暗通道先驗去霧法是一種戶外去霧圖像的統計方法,它主要基于一個關鍵的觀察——室外無霧圖像中的大多數局部斑塊包含一些像素,這些像素的強度起碼有一個顏色通道處于低狀態。使用這種基于霧度成像模型的先驗方法,我們可以直接估計圖像的霧霾厚度,借此將圖像恢復至高質量的無霧狀態。各種模糊圖像的去霧結果證明了論文所提出先驗方法的成效。此外,我們可以通過該方法獲得高質量的深度圖。
論文鏈接:http://www.jiansun.org/papers/Dehaze_CVPR2009.pdf
二階平滑先驗下的全局立體重建
Global Stereo Reconstruction under Second Order Smoothness Priors
點擊添加圖片描述(最多60個字)
核心內容:3D 曲面平滑度中的二階先驗是比一階先驗更好的典型場景模型。然而,基于全局推理算法(如圖形切割)的二階平滑先驗法未能與二階先驗很好地進行結合,因為表達所需的三重集會產生難以處理的(非子模塊)優化問題。
本文表明三重集的推理可以獲得有效的優化。作者提出的優化策略是基于 α 擴展的最新研究結果,源自「QPBO」算法。該策略通過 QPBO 算法的最新擴展對提議深度圖進行重復合并。對于提案深度圖的來源并不受局限,比如可以是α擴展的前平行平面,亦或者帶有任意參數設置的實際立體算法。最終實驗結果證明了二階先驗法以及框架優化策略的有效性。
論文鏈接:http://www.robots.ox.ac.uk/~ojw/2op/Woodford08.pdf
超越滑動窗口:利用高效子窗口搜索實現對象定位
Beyond Sliding Windows: Object Localization by Efficient Subwindow Search
核心內容:大部分有效的物體識別系統都依賴于二進制分類,不過這種方法只能確認物體是否存在,而無法提供物體的實際位置。為了實現物體定位功能,我們可以考慮采用滑動窗口法,然而這將大大增加計算成本,因為必須在大量的候選子窗口上進行分類器函數評估。
為此,論文提出了一種簡單而強大的分支界定方案,可以在所有可能子圖像上有效最大化大類分類器函數。它在次線性時間內提供基于全局最優解的收斂方案。論文展示了該方法如何適用于不同的檢測對象與場景。該方案實現的加速效果允許使用類似具有空間金字塔內核的 SVMs 或者基于χ2-距離的最近鄰分類器來進行物體定位,而在過去,這些分類器被認為在處理相關任務時的速度太慢了。該方案在 UIUC 車輛數據集、PASCAL VOC 2006 數據集以及 PASCAL VOC 2007 競賽中均取得了最先進的結果。
論文鏈接:https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/34843.pdf
在移動工具中進行動態三維場景分析
Dynamic 3D Scene Analysis from a Moving Vehicle
點擊添加圖片描述(最多60個字)
核心內容:論文提出一個集成了全自動場景幾何估計、2D 物體檢測、3D 定位、軌跡估計和跟蹤功能的系統,以用于分析移動工具的動態場景。該系統的唯一輸入來源是汽車頂部經過校準的立體裝置。從這些視頻流中,我們得以實時估計 Structurefrom-Motion(SfM)和場景幾何。與此同時,作者還試圖執行多視圖/多類別對象識別,以檢測攝像里的汽車和行人。
通過 SfM 自定位系統,我們可以將檢測到的 2D 對象轉換為 3D 成像,并在真實世界的坐標系中持續累積。隨后跟蹤模塊將對 3D 觀測結果進行分析,進而找到跟物理空間吻合的時空軌跡。最后,全局優化標準會將對象 - 對象交互(object-object interactions)考慮在內,以獲得精確的汽車和行人的 3D 定位和軌跡預估結果。論文展示了該集成系統在挑戰真實世界數據方面的表現,該數據集顯示了擁堵市區內的汽車行駛情況。
論文鏈接:https://homes.esat.kuleuven.be/~konijn/publications/2007/00483.pdf
在透視場景中放置物體
Putting Objects in Perspective
點擊添加圖片描述(最多60個字)
核心內容:圖像理解不僅需要考慮視覺世界中的元素,還需要考慮這些元素之間的相互作用。本文提出了一個在 3D 場景語境中進行局部對象檢測的框架,該框架主要基于物體、表面方向以及攝像機視點的相互作用。
大多數物體檢測方法會考慮圖像的比例和位置。通過對 3D 幾何進行概率預估(包括表面以及世界坐標),我們可以將物體放置在透視圖中,進而對圖像的比例和位置變化進行建模。該方法通過對物體概率進行假設以細化幾何,借此反映問題的周期性,反之亦然。該框架允許任意物體探測器進行「無痛」替換,且便于擴展至包括圖像理解在內的其他方面。最終實驗結果證實該綜合方法的優勢。
論文鏈接:http://dhoiem.cs.illinois.edu/publications/hoiem_cvpr06.pdf
實時非剛性表面檢測
Real-Time Non-Rigid Surface Detection
核心內容:論文提出一種無需任何先驗知識、可實時檢測變形表面的方法。該方法從一組寬基線點開始,在物體未變形圖像及檢測圖像之間進行匹配。該匹配不僅可用于檢測,同時還可以用來計算點與點之間的精確映射。該算法在面對嚴重變形、光照變化、運動模糊以及遮擋問題時具有魯棒性。它在 2.8 GHz 的 PC 上以每秒 10 幀的速度運行,據作者了解,尚未有其他產生類似結果的技術。
將可變形網格與設計良好的魯邦性估計器進行結合,是該方法得以處理涉及大量參數的可變形表面建模,且獲得高達 95% 避免錯誤匹配率的關鍵,遠遠超過了實際要求。
論文鏈接:https://infoscience.epfl.ch/record/128408/files/PiletLF05.pdf
使用電子微鏡陣列實現可編程的圖像創建
Programmable Imaging using a Digital Micromirror Array
點擊添加圖片描述(最多60個字)
核心內容:論文介紹了可編程成像系統的概念。該成像系統為人類或視覺系統提供了對系統輻射度與幾何特征的控制方法。該靈活性是通過可編程微鏡陣列才得以實現的。我們可以通過把控空間和時間上的高精度來控制陣列方向,使得系統可以根據應用需要來靈活選擇并調制光線。
作者成功實現了一種基于數字微鏡裝置(DMD)的可編程成像系統,用于處理數字光。雖然設備的鏡像只能置于兩個鏡頭中的一個,結果卻表明該系統可以實現各種成像功能,其中包括高動態范圍成像、特征檢測以及物體識別。論文在最后探討了如何在無需動用移動部件情況下,使用微鏡陣列進行視場控制。
論文鏈接:https://www.researchgate.net/publication/4082198_Programmable_imaging_using_a_digital_micromirror_array
使用尺度無關的無監督學習實現物體類型識別
Object Class Recognition by Unsupervised Scale-Invariant Learning
點擊添加圖片描述(最多60個字)
核心內容:論文提出一種通過尺度不變方法(scale invariant manner)從未標記、未分段的雜亂場景中學習并識別物體類模型的方法。這些物體被建模成靈活性的系列部件。概率表示方法被用于識別物體的所有方面,包括形狀、外觀、遮擋物以及相對比例。基于熵的特征檢測器則用于對圖像內的區域及其比例做選擇。在這過程中,尺度不變對象模型的參數將被模型預估,這是通過最大似然設置(maximum-likelihood setting)中的期望最大化(expectation-maximization)來完成的。該模型基于貝葉斯方式對圖像進行分類。通過一系列在幾何約束類(例如面部,汽車)和柔性物體(例如動物)數據集上取得的優異結果,證明了該模型的靈活性。
論文鏈接:https://cs.nyu.edu/~fergus/papers/fergus03.pdf
視頻中的形變三維模型
Morphable 3D models from video
核心內容:非剛性運動 3D 結構 和 2D 光流被認為是張量分解領域的問題。通過嘈雜仿射變換方法,我們可以將這兩者問題變為組合非剛性結構強度問題,進而使用結構化矩陣分解方法進行解決。然而,圖像噪聲及數據缺陷將導致該因式分解法的前提條件無法成立。即便如此,我們依然可以通過等級約束、范數約束以及強度值來解決這兩個問題,進而產生針對不確定性 SVD、不確定性分解、非剛性因子分解以及子空間光流的全新解決方案。最終獲得的集成算法可以跟蹤以及進行 3D 重建具有細小紋理的非剛性表面,比如具有平滑部分的面部。通過結合低分辨率低紋理的「視頻發現」,這些方法可以產生良好的跟蹤與 3D 重建結果。
論文鏈接:http://www.merl.com/publications/docs/TR2001-37.pdf
運用均值漂移實現對非剛性物體的實時追蹤
Real-Time Tracking of Non-Rigid Objects using Mean Shift
核心內容:論文提出一種可以從移動攝像機實時追蹤非剛性物體的全新方法。中央計算模塊將基于均值漂移以及當前幀中的目標可能位置進行運算。目標模型(顏色分布)與目標候選者之間的差異由 Bhattacharyya 系數進行表示。該方法的理論分析表明,它與貝葉斯框架息息相關,同時提供了實用、快速且有效的解決方案。針對多個圖像序列的演示結果,展示了該方法跟蹤并處理實時部分遮擋、顯著雜波以及目標比例變化的能力。
論文鏈接:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.28.41&rep=rep1&type=pdf