席卷AI世界的下一個突破在哪里?
繼年初推出的DALL-E 2用天才畫筆驚艷所有人之后,周二發布了最新的圖像生成模型「POINT-E」,它可通過文本直接生成3D模型。
論文鏈接:
相比競爭對手們(如谷歌的)需要幾個GPU工作數個小時,POINT-E只需單個GPU便可在幾分鐘內生成3D圖像。
經小編實戰測試,輸入后POINT-E基本可以秒出3D圖像,此外輸出圖像還支持自定義編輯、保存等功能。
地址:
網友也開始嘗試不同的輸入。
但輸出的結果并不都令人滿意。
還有網友表示,POINT-E或許可以實現Meta的元宇宙愿景?
需要注意的是,POINT-E是通過點云(point cloud),也就是空間中點的數據集來生成3D圖像。
簡單來說,就是通過三維模型進行數據采集獲取空間中代表3D形狀的點云數據。
從計算的角度來看,點云更容易合成,但它們無法捕獲對象的細膩形狀或紋理,這是目前Point-E的一個短板。
為解決這個限制,Point-E團隊訓練了一個額外的人工智能系統來將Point-E 的點云轉換為網格。
將Point-E點云轉換為網格
在獨立的網格生成模型之外,Point-E 由兩個模型組成:
一個文本圖像轉化模型(text-to-image model)和圖像轉化3D模型(image-to-3D model)。
文本圖像轉化模型類似于的DALL-E 2和3d電影格式轉換軟件,在標記圖像上進行訓練以理解單詞和視覺概念間的關聯。
然后,將一組與3D對象配對圖像輸入3D轉化模型,以便模型學會在兩者之間有效轉換。
當輸入一個時,文本圖像轉化模型會生成一個合成渲染對象,該對象被饋送到圖像轉化3D模型,然后生成點云。
研究人員表示,Point-E經歷了數百萬3D對象和相關元數據的數據集的訓練。
但它并不完美,Point-E 的圖像到 3D 模型有時無法理解文本到圖像模型中的圖像,導致形狀與文本提示不匹配。盡管如此,它仍然比以前的最先進技術快幾個數量級。
他們在論文中寫道:
雖然我們的方法在評估中的表現比最先進的技術差,但它只用了一小部分時間就可以生成樣本。這可以使它對某些應用程序更實用,并且發現更高質量的3D對象。
Point-E架構與運行機制
Point-E模型首先使用文本到圖像的擴散模型生成一個單一的合成視圖,然后使用第二個擴散模型生成一個三維點云,該模型以生成的圖像為條件。
雖然該方法在采樣質量方面仍未達到最先進的水平,但它的采樣速度要快一到兩個數量級,為一些使用情況提供了實際的權衡。
下圖是該模型的一個high-level的示意圖:
我們不是訓練單個生成模型,直接生成以文本為條件的點云,而是將生成過程分為三個步驟。
首先,生成一個以文本標題為條件的綜合視圖。
接下來,生成?個基于合成視圖的粗略點云(1,024 個點) 。
最后,生成了?個以低分辨率點云和合成視圖為條件的精細點云(4,096 個點)。
在數百萬個3D模型上訓練模型后3d電影格式轉換軟件,我們發現數據集的數據格式和質量差異很大,這促使我們開發各種后處理步驟,以確保更高的數據質量。
為了將所有的數據轉換為?種通用格式,我們使用從20個隨機攝像機角度,將每個3D模型渲染為RGBAD圖像(支持多種3D格式,并帶有優化的渲染引擎)。
對于每個模型,腳本都將模型標準化為邊界立方體,配置標準照明設置,最后使用的內置實時渲染引擎,導出RGBAD圖像。
然后,使用渲染將每個對象轉換為彩色點云。首先,通過計算每個RGBAD圖像中每個像素的點,來為每個對象構建?個密集點云。這些點云通常包含數十萬個不均勻分布的點,因此我們還使用最遠點采樣,來創建均勻的4K點云。
通過直接從渲染構建點云,我們能夠避免直接從3D網格中采樣可能出現的各種問題,對模型中包含的點進行取樣,或處理以不尋常的文件格式存儲的三維模型。
最后,我們采用各種啟發式方法,來減少數據集中低質量模型的頻率。
首先,我們通過計算每個點云的SVD來消除平面對象,只保留那些最小奇異值高于某個閾值的對象。
接下來,我們通過CLIP特征對數據集進行聚類(對于每個對象,我們對所有渲染的特征進行平均)。
我們發現,一些集群包含許多低質量的模型類別,而其他集群則顯得更加多樣化或可解釋。
我們將這些集群分到幾個不同質量的中,并使用所得的加權混合作為我們的最終數據集。
應用前景
研究人員指出,Point-E的點云還可用于制造真實世界的物體,比如3D打印。
通過額外的網格轉換模型,該系統還可以進入游戲和動畫開發工作流程。
雖然目前的目光都集中在2D藝術生成器上,但模型合成人工智能可能是下一個重大的行業顛覆者。
3D模型廣泛應用于影視、室內設計、建筑和各種科學領域。
當下3D模型的制造耗時通常需要幾個小時,而Point-E的出現恰恰彌補了這一缺點。
研究人員表示現階段Point-E還存在許多缺陷,如從訓練數據中繼承的偏差以及對于可能用于創建危險物體的模型缺乏保護措施。
Point-E只是個起點,他們希望它能激發文本到3D合成領域的「進一步工作」。
參考資料: