最近,圖像生成技術(shù)經(jīng)歷了顯著的進(jìn)化,這是由基于擴(kuò)散的, 文本到圖像大型模型的出現(xiàn)和進(jìn)步驅(qū)動的,如GLIDE 、DALL-E 2 、Imagen、穩(wěn)定擴(kuò)散(SD)、eDiff-I 和 RAPHAEL。
這一進(jìn)展催生了跨不同場景的大量應(yīng)用方法。作為這些應(yīng)用方法的中心焦點(diǎn),個性化和定制的肖像生成在學(xué)術(shù)和工業(yè)領(lǐng)域都引起了廣泛關(guān)注,因?yàn)樗陔娮由虅?wù)廣告、個性化禮物定制和虛擬試穿等下游任務(wù)中具有廣泛的適用性。
然而,定制化面部生成的主要挑戰(zhàn)是基于一個或多個參考圖像保持不同屬性的面部圖像一致性,導(dǎo)致兩個關(guān)鍵問題:確保準(zhǔn)確的身份(ID)一致性并實(shí)現(xiàn)高保真、多樣化的面部細(xì)節(jié)。
當(dāng)前的文本到圖像模型,盡管結(jié)合了結(jié)構(gòu)和內(nèi)容指導(dǎo),但在精確控制個性化和定制生成方面面臨限制,特別是在生成的圖像對參考圖像的保真度方面。
近日,中山大學(xué)聯(lián)合聯(lián)想團(tuán)隊(duì)發(fā)布 ConsistentID,重新構(gòu)建了一批50萬的多模態(tài)細(xì)粒度 ID 數(shù)據(jù)集用于訓(xùn)練提出的 FacialEncoder 模型,可支持個性化寫真,性別/年齡更改,身份混淆等常見功能。
論文地址:http://arxiv.org/abs/2404.16771
為了提高參考圖像個性化人像生成的精度和多樣性,出現(xiàn)了許多定制的方法,滿足用戶對高質(zhì)量定制圖像的需求。這些個性化方法根據(jù)推理過程中是否發(fā)生微調(diào)進(jìn)行分類,從而產(chǎn)生兩種不同類型的:測試時間微調(diào)和直接推理。
測試時間微調(diào)包括 TextInversion、 HyperDreambooth 和 CustomDiffusion 等方法。用戶可以通過為訓(xùn)練后提供一組目標(biāo) ID 圖像來實(shí)現(xiàn)個性化生成。盡管取得了值得稱贊的高保真結(jié)果,但生成的輸出的質(zhì)量取決于手動收集的數(shù)據(jù)的質(zhì)量。
此外,手動收集用于微調(diào)的定制數(shù)據(jù)引入了勞動密集型和耗時的方面,限制了其實(shí)用性。
直接推理是另一類模型,包括 IP-Adapter、Fastcomposer、Photomaker 和 InstantID ,采用單階段推理方法。這些模型通過使用圖像作為條件輸入或操縱圖像觸發(fā)詞來增強(qiáng)全局 ID 一致性。然而,大多數(shù)方法經(jīng)常忽略細(xì)粒度的信息,例如地標(biāo)和面部特征。
雖然 InstantID 通過引入地標(biāo)在一定程度上提高了ID的一致性,但視覺提示地標(biāo)限制了關(guān)鍵面部區(qū)域的多樣性和可變性,導(dǎo)致生成的面部特征僵硬。
總之,需要細(xì)致考慮的兩個關(guān)鍵挑戰(zhàn)存在于個性化肖像生成中:1)忽略細(xì)粒度的面部信息和 2)面部區(qū)域與整個面部之間的身份不一致。
ConsistentID的方法與現(xiàn)有方法之間的面部特征細(xì)節(jié)比較
值得注意的是,ConsistentID的方法生成的字符在眼睛、鼻子和嘴巴等面部特征中表現(xiàn)出卓越的 ID 一致性。
提出的 ConsistentID 的總體框架
該框架包括兩個關(guān)鍵模塊:多模態(tài)面部 ID 生成器和有目的地制作的 ID 保存網(wǎng)絡(luò)。多模態(tài)面部提示生成器由兩個基本組件組成:細(xì)粒度多模態(tài)特征提取器,專注于捕獲詳細(xì)的面部信息,以及專門用于學(xué)習(xí)面部 ID 特征的面部 ID 特征提取器。
另一方面,ID 保存網(wǎng)絡(luò)同時利用面部文本和視覺提示,通過面部注意力定位策略防止來自不同面部區(qū)域的 ID 信息混合。這種方法確保了面部區(qū)域 ID 一致性的保存。
為了應(yīng)對這些挑戰(zhàn),引入了一種新的方法 ConsistentID,旨在保持身份一致性并通過多模態(tài)細(xì)粒度 ID 信息捕獲不同的面部細(xì)節(jié),在保證高保真度的同時僅使用單個面部圖像。
ConsistentID 包括兩個關(guān)鍵模塊:多模態(tài)面部提示生成器和 ID 保存網(wǎng)絡(luò)。前者包括細(xì)粒度的多模態(tài)特征提取器和面部 ID 特征提取器,從而能夠使用多條件生成更詳細(xì)的面部 ID 特征,結(jié)合面部圖像、面部區(qū)域及其相應(yīng)的從多模態(tài)大型語言模型 LLAVA1.5 中提取的文本描述。利用初始模塊獲得的面部 ID 特征,ConsistentID將它們輸入到后一個模塊中,通過面部注意力定位策略促進(jìn)每個面部區(qū)域的 ID 一致性。
此外,ConsistentID 認(rèn)識到現(xiàn)有肖像數(shù)據(jù)集的局限性,特別是在捕獲多樣化和細(xì)粒度的身份保留面部細(xì)節(jié)方面,這對于 ConsistentID 的有效性至關(guān)重要。為了解決這個問題,ConsistentID 引入了測量細(xì)粒度 ID 保存 (FGID) 數(shù)據(jù)集以及細(xì)粒度的身份一致性度量,提供了一種獨(dú)特而全面的評估方法來增強(qiáng) ConsistentID 在面部細(xì)節(jié)中的訓(xùn)練和性能評估。
定性評估:為了證明 ConsistentID 的有效性,ConsistentID 對最先進(jìn)的方法進(jìn)行了比較分析,包括 Fastcomposer、IP-Adapter、Photomaker 和InstantID。ConsistentID 的重點(diǎn)是僅使用一個參考圖像進(jìn)行個性化生成。ConsistentID 利用官方提供的模型,對每種方法使用默認(rèn)參數(shù),并將推理限制為單個參考圖像。與 Photomaker 方法對齊,ConsistentID 使用 Mystyle 數(shù)據(jù)集進(jìn)行定量評估,并結(jié)合超過10個身份數(shù)據(jù)集進(jìn)行可視化。
研究進(jìn)行了通用重新上下文化樣本的定性比較,將 ConsistentID 的方法與使用五個不同身份及其對應(yīng)的提示的其他方法進(jìn)行了比較。ConsistentID的 ConsistentID 在高質(zhì)量生成、靈活的可編輯性和強(qiáng)大的身份保真度方面表現(xiàn)出更強(qiáng)大的能力。
定量評估:遵循 Photomaker,ConsistentID 使用來自 Mystyle 的測試數(shù)據(jù)集,使用 MLLM LlaVA1.5 在推理過程中獲得面部描述。定量比較是在通用重新上下文化設(shè)置下進(jìn)行的,使用一組指標(biāo)對各種方面進(jìn)行基準(zhǔn)測試。
對該表的徹底分析表明,在大多數(shù)評估指標(biāo)中,ConsistentID 始終優(yōu)于其他方法,并且在生成效率方面超過了其他基于 IP-Adapter 的方法。這歸因于 ConsistentID 的細(xì)粒度 ID 保存能力和輕量級多模態(tài)面部提示生成器的效率。關(guān)于 FID 指標(biāo),較低的性能主要?dú)w因于基礎(chǔ)模型 SD1.5 的有限生成能力。
ConsistentID的模型與其他模型在風(fēng)格化和動作指令兩個特殊任務(wù)上的定性比較
目前,ConsistentID 模型受限于數(shù)據(jù)集和基模型的訓(xùn)練,還未能做到類似海馬體的出圖效果。
據(jù)悉,該團(tuán)隊(duì)預(yù)計(jì)訓(xùn)練一個更大規(guī)模的 ConsistentID,基于 SDXL,整合了更大規(guī)模的 LAION-Face, VoxCeleb1, VGGFace2 等公開數(shù)據(jù)集,并且使用私有的高質(zhì)量數(shù)據(jù)進(jìn)行額外的微調(diào)。目的是為了使得 ConsistentID 可以具有更強(qiáng)大的泛化能力以及更強(qiáng)的出圖質(zhì)感,出圖即用。
此外,為了調(diào)整出圖的 ID 多樣性,使得單張圖片能生成姿態(tài)多變的寫真圖,正在訓(xùn)練的 ConsistentID 模型引入了多 ID 訓(xùn)練方式,用戶可以同時輸入多張圖片來引導(dǎo)出圖的變化。并且模型結(jié)構(gòu)上也做了些許調(diào)整,保證 ID 特征和控制信息充分地解藕。
代碼和最新進(jìn)展將同步更新在github倉庫中(https://github.com/JackAILab/ConsistentID)
月5日
聯(lián)想集團(tuán)與生態(tài)環(huán)境部對外合作與交流中心達(dá)成戰(zhàn)略合作
六五環(huán)境日,聯(lián)想集團(tuán)與生態(tài)環(huán)境部對外合作與交流中心達(dá)成戰(zhàn)略合作。根據(jù)合作協(xié)議框架,雙方將圍繞全球氣候變暖、生物多樣性保護(hù)兩大全球關(guān)鍵挑戰(zhàn)深入開展合作,發(fā)揮人工智能等前沿技術(shù)賦能優(yōu)勢,共同探索應(yīng)對氣候變化和生物多樣性保護(hù)新路徑。
6月1日
聯(lián)想618喜迎開門紅,28小時斬獲12冠王
近日,聯(lián)想618大促28小時戰(zhàn)報正式出爐,聯(lián)想首戰(zhàn)告捷。根據(jù)京東電腦數(shù)碼實(shí)時競速榜最新顯示:截至6月2日0點(diǎn),聯(lián)想在筆記本、輕薄本、高端輕薄本、游戲本、臺式機(jī)、游戲臺式機(jī)、一體機(jī)等12個品類榜單中成功實(shí)現(xiàn)霸榜,贏得12冠王的開門紅佳績,充分展現(xiàn)了用戶對于聯(lián)想產(chǎn)品品質(zhì)與技術(shù)創(chuàng)新的高度認(rèn)可。
6月7日
混合云智能運(yùn)維技術(shù)獲突破!聯(lián)想-上交攜手打造!
基于上海交大和聯(lián)想的校企戰(zhàn)略合作框架,聯(lián)想集團(tuán)智能混合云團(tuán)隊(duì)攜手上海交通大學(xué)王冬老師科研團(tuán)隊(duì),目前在云平臺資源架構(gòu)設(shè)計(jì)、可靠性評估、時序異常檢測、趨勢預(yù)測和根因定位等多種智能運(yùn)維領(lǐng)域取得了一系列技術(shù)突破。同時,聯(lián)想全球基礎(chǔ)架構(gòu)和中國混合云服務(wù)團(tuán)隊(duì)陸明,榮獲“最給力企業(yè)導(dǎo)師獎”。
6月6日
聯(lián)想來酷榮膺2023年中國連鎖百強(qiáng)TOP61
6月6日,備受矚目的中國連鎖經(jīng)營協(xié)會“2023年中國連鎖TOP100”榜單揭曉,聯(lián)想集團(tuán)控股的智慧零售與智能制造企業(yè)來酷科技有限公司成功躋身榜單第61位,這是來酷科技連續(xù)三年榮登此榜單。
6月5日
“鑄基計(jì)劃”聯(lián)合聯(lián)想集團(tuán)共同發(fā)布“企業(yè)微智算中心”
近日,在中國互聯(lián)網(wǎng)協(xié)會中小企業(yè)工委會主辦的“2024大模型生態(tài)創(chuàng)新發(fā)展大會”上,“鑄基計(jì)劃”聯(lián)合聯(lián)想集團(tuán)共同發(fā)布了“企業(yè)微智算中心”解決方案。為中小企業(yè)客戶開展大模型業(yè)務(wù)提供更加便捷的硬件能力支持。
6月5日
LPS完成戰(zhàn)略性收購 增強(qiáng)數(shù)據(jù)實(shí)踐和營銷云能力
近日,聯(lián)想電訊盈科企業(yè)方案(LPS)宣布完成對Explora和Eleven Digital的戰(zhàn)略性收購,以增強(qiáng)其數(shù)據(jù)實(shí)踐和營銷云能力。此次收購將加強(qiáng)LPS技術(shù)創(chuàng)新及賦能聯(lián)想AI卓越中心(Center of Excellence)所必需的數(shù)據(jù)基礎(chǔ),加速企業(yè)AI之旅。
6月3日
聯(lián)想產(chǎn)品入圍安徽省計(jì)算機(jī)框架協(xié)議:助力本地智能制造發(fā)展
近日,聯(lián)想集團(tuán)合肥生產(chǎn)基地聯(lián)寶科技生產(chǎn)的產(chǎn)品喜獲殊榮,產(chǎn)品全線入圍安徽省計(jì)算機(jī)框架協(xié)議。安徽省計(jì)算機(jī)框架協(xié)議采購被譽(yù)為全國按照新團(tuán)標(biāo)的第一單,這一協(xié)議的達(dá)成,不僅是政府采購流程優(yōu)化的體現(xiàn),更是對本地企業(yè)技術(shù)實(shí)力和產(chǎn)品質(zhì)量的充分肯定。
5月28日
被投企業(yè)「愛博合創(chuàng)」PANVIS助力完成全球最遠(yuǎn)距離PCI手術(shù)
面對冠心病重大挑戰(zhàn),復(fù)旦大學(xué)附屬中山醫(yī)院葛均波院士團(tuán)隊(duì)聯(lián)合聯(lián)想創(chuàng)投被投企業(yè)愛博合創(chuàng)共同研發(fā)了可以遠(yuǎn)程精準(zhǔn)操控完成泛血管介入手術(shù)的PANVIS機(jī)器人系統(tǒng),實(shí)現(xiàn)了精準(zhǔn)操控的設(shè)備、通暢低延時的網(wǎng)絡(luò)、穩(wěn)定流暢的操作體驗(yàn)等核心技術(shù)要素。
6月6日
聯(lián)想晨星足式機(jī)器人GS亮相2024中國人形機(jī)器人開發(fā)者大會
6月6日,2024中國人形機(jī)器人開發(fā)者大會盛大開幕。聯(lián)想應(yīng)邀參會并帶來了最新發(fā)布的聯(lián)想晨星足式機(jī)器人GS。作為一款通用型六足機(jī)器人,聯(lián)想晨星機(jī)器人GS擁有高達(dá)100公斤的負(fù)載能力,并達(dá)到IP66防護(hù)等級,適用于工業(yè)巡檢操作、應(yīng)急救援、野外勘測等應(yīng)用場景。
6月6日
唐心悅:AI助力人機(jī)共駕交互體驗(yàn)
6月6日,聯(lián)想集團(tuán)副總裁、車計(jì)算負(fù)責(zé)人唐心悅受邀出席“太湖對話”。他表示,面對自動駕駛行業(yè)的挑戰(zhàn),現(xiàn)階段首先要提供用戶真正接受的便捷安全的良好用戶體驗(yàn),同時需要集合整個行業(yè)力量做到合理可負(fù)擔(dān)的成本,實(shí)現(xiàn)自動駕駛商業(yè)閉環(huán)。另外,在GTIC2024中國智能汽車算力峰會上,聯(lián)想集團(tuán)高級總監(jiān)武亞強(qiáng)介紹了以聯(lián)想座艙AI平臺為基礎(chǔ),面向汽車場景的車載智能體技術(shù)。
6月6日
全新YOGA Air 14s 驍龍版 首次亮相微軟驍龍產(chǎn)品鑒賞會
近日,Windows 11 AI PC 驍龍產(chǎn)品鑒賞會上,包含YOGA Air 14s 驍龍AI元啟在內(nèi)的眾多搭載驍龍X系列平臺的Windows 11 AI PC悉數(shù)亮相。
6月3日
大鵬用ThinkPad X1 Carbon AI給賈冰加戲
你的 AI PC,就是你的 AI CP!在大鵬導(dǎo)演賈冰特別出演的短片里,搭載了酷睿Ultra異構(gòu)AI算力的ThinkPad X1 Carbon AI 作為賈偵探的破案搭子,在許多重要關(guān)頭發(fā)揮了作用。一條指令,即可生成源源不斷的靈感圖文,讓你像大鵬一樣開啟無限創(chuàng)意腦洞!
6月3日
聯(lián)想拯救者正式成為《黑神話:悟空》全球官方合作伙伴
直面天命,為戰(zhàn)而生!聯(lián)想拯救者正式成為《黑神話:悟空》全球官方合作伙伴。拯救者系列電腦已全面支持《黑神話:悟空》的測試與調(diào)優(yōu)。期待和廣大玩家并肩前行,重游西游征途,再做一次齊天大圣!
6月3日
moto X50 Ultra 柔和桃限定版AI手機(jī)上市
柔和桃遇到璀璨的你,便是最美的年度流行。迪麗熱巴的moto X50 Ultra 柔和桃限定版AI手機(jī),隨手一拍也能出大片。并祝聯(lián)想及moto品牌代言人迪麗熱巴生日快樂!永遠(yuǎn)真誠,始終熱AI。
6月7日
聯(lián)想智能制造論壇暨“ESG責(zé)任行·2024”首站召開
2024年6月7日,聯(lián)想集團(tuán)智能制造論壇暨“ESG責(zé)任行·2024”(首站)在重慶舉辦,聯(lián)想集團(tuán)副總裁兼中國區(qū)總法律顧問高喚棟致歡迎辭。他表示,從 ESG+T(科技)到 ESG+AI(人工智能),聯(lián)想連續(xù)兩年獲得MSCI ESG最高評級AAA級,再一次證明做好 ESG 與社會價值工作,是企業(yè)可持續(xù)發(fā)展的源源動力和有力助推器。
6月5日
聯(lián)想集團(tuán)在海淀區(qū)六五環(huán)境日主題宣傳活動發(fā)布低碳環(huán)保倡議
近日,于北京舉辦的“全面推進(jìn)美麗中國建設(shè)” 六五環(huán)境日主題宣傳活動上,聯(lián)想集團(tuán)ESG與可持續(xù)發(fā)展負(fù)責(zé)人、聯(lián)想中國平臺ESG委員會秘書長王旋發(fā)表“踐行雙碳目標(biāo),共建美麗中國”的倡議。聯(lián)想呼吁社會各界積極行動,為實(shí)現(xiàn)“雙碳”目標(biāo)砥礪奮進(jìn),貢獻(xiàn)每一份力量。
6月5日
推進(jìn)美麗浦東建設(shè),聯(lián)想出席六五環(huán)境日主題宣傳活動
6月5日,在上海浦東新區(qū)“科技助力生態(tài)”主題宣傳活動上,聯(lián)想研究院徐浩煜博士就綠色智能低碳場景下的新型技術(shù)應(yīng)用與實(shí)踐作分享。同時,活動現(xiàn)場還展示了聯(lián)想晨星足式機(jī)器人GS,其能夠在復(fù)雜和惡劣的環(huán)境中進(jìn)行代人作業(yè),降低安保所需的資源投入和環(huán)境影響。
6月3日
AI走進(jìn)大別山,鄉(xiāng)村學(xué)校上演“一出好戲”
正值六一兒童節(jié)來臨之際,融合傳統(tǒng)文化與前沿科技的“青梅計(jì)劃”捐贈儀式暨黃梅戲傳統(tǒng)文化AI課堂在安徽省安慶市潛山市水吼中心小學(xué)開啟。共青團(tuán)安徽省委副書記葉征,聯(lián)想集團(tuán)副總裁、聯(lián)寶科技CEO丁曉輝等領(lǐng)導(dǎo)嘉賓共同觀賞見證了AI賦能鄉(xiāng)村教育的“好戲連臺”。
廣東中山一家15年3人接連失蹤案嫌疑人落網(wǎng),當(dāng)?shù)厍f身價女老板失蹤案12年未破】3月中旬,廣東中山“上門女婿涉嫌殺人埋尸案”嫌疑人楊某平落網(wǎng)。廣東中山警方通報,嫌疑人楊某平已確認(rèn)與其妻子“一家人15年間3人接連失蹤案”有重大關(guān)系。警方表示,目前已初步掌握楊某平涉嫌殺害其中一名失蹤者的證據(jù),尸體就被楊某平埋在自家院內(nèi)的巷道之中,警方正在進(jìn)行進(jìn)一步的調(diào)查。這起長達(dá)15年的失蹤案迎來破案曙光,也讓不少中山本地人聯(lián)想起12年前的另一樁著名的離奇失蹤案——主角是中山黃圃得寶家私城老板娘、身價千萬的富姐何堃玉。2009年10月10日,何堃玉離奇失蹤,家屬懸賞50萬尋線索,12年來一無收獲,此案至今未告破。
來源: 重慶晨報