我們把時間撥回到10年前的2014年,會發(fā)現(xiàn)彼時的手機(jī)市場還是「勃勃生機(jī)」「百花齊放」的狀態(tài)。
那一年,iPhone 6登場,蘋果手機(jī)尺寸大突破,正式進(jìn)入大屏?xí)r代,iPhone銷量創(chuàng)歷史新高;樂視移動正式成立,準(zhǔn)備死磕性價比和小米一較高下;黃章宣布再次就任魅族CEO,品牌戰(zhàn)略由「小而美」轉(zhuǎn)向「大而全」,2014年發(fā)布的魅族MX4獲得了不俗的口碑……
海外市場上,作為全球最大電商平臺的亞馬遜,也摩拳擦掌,準(zhǔn)備在欣欣向榮的手機(jī)市場上一展宏圖。2014年6月,貝索斯正式發(fā)布了亞馬遜首款手機(jī)Fire Phone。然而,這也是亞馬遜最后一款手機(jī),F(xiàn)ire Phone上市初期吸引了不少消費者,但很快在市場上遇冷,在與其他產(chǎn)品的競爭中敗下陣來。
10年后的今天,小雷花200塊再次體驗到了這款亞馬遜唯一的手機(jī)產(chǎn)品,通過一次懷舊之旅,來回顧Fire Phone在產(chǎn)品層面上的得與失。
(圖源:雷科技攝制)
亞馬遜Fire Phone當(dāng)年在硬件上最引人注目的就是它配備了6顆攝像頭,不過,和一般人想象的不同的是,它們中的大部分并不是為影像服務(wù)的。具體來說,它的后置攝像頭只有一顆,用于日常拍照;前置鏡頭則有五顆,除了位置居中的自拍相機(jī)外,另外四顆鏡頭均勻地排列在手機(jī)正面四角。
(圖源:雷科技攝制)
這四顆非常規(guī)攝像頭的作用是實時拍攝用戶的面容,從而精準(zhǔn)定位用戶的視角,由此為「裸眼3D」功能服務(wù)。小雷實際體驗這臺手機(jī)時,發(fā)現(xiàn)系統(tǒng)中的圖標(biāo)、屏保采用了3D立體式設(shè)計,不同角度下能看到不同的形狀。而這,就是通過這四顆攝像頭實現(xiàn)的。
(圖源:雷科技攝制)
按照亞馬遜當(dāng)初的設(shè)想,F(xiàn)ire Phone上的3D內(nèi)容肯定不止于3D圖標(biāo),還包括相機(jī)拍攝的3D視頻、游戲等。但很遺憾,隨著亞馬遜手機(jī)項目的早夭,這些現(xiàn)在都體驗不到了。甚至,最基礎(chǔ)的3D圖標(biāo)功能,也僅限于亞馬遜自家的幾款系統(tǒng)應(yīng)用,第三方應(yīng)用圖標(biāo)因為沒有做適配,所以是沒有這個效果的。
(圖源:雷科技)
因此,對在2024年體驗這款手機(jī)的小雷來說,這四顆攝像頭的存在是弊大于利,只能是「徒增功耗」。
性能方面,F(xiàn)ire Phone搭載的芯片為驍龍800,性能和同年的小米4上的驍龍801基本相當(dāng),內(nèi)存為2GB、存儲為32GB。當(dāng)年自然是旗艦。當(dāng)然,放在2024年,F(xiàn)ire Phone的性能肯定是不夠用的,主流游戲很難再駕馭。由于系統(tǒng)版本限制,它甚至跑不了安兔兔和GeekBench 4,小雷只好用GeekBench 3跑了下,單核得分為880、多核得分為2668,和小米4基本相當(dāng)。
(圖源:雷科技)
相機(jī)方面,F(xiàn)ire Phone后置鏡頭像素為1300萬,支持光學(xué)防抖,當(dāng)年屬于還不錯的水平。值得一提的是,這款手機(jī)配備了一顆實體拍照按鍵,哪怕在鎖屏狀態(tài)下也能快速呼出相機(jī)App并摁下快門。即便在2024年的今天再來體驗,小雷認(rèn)為實體拍照鍵對于影像場景仍然是更優(yōu)的解決方案。
(圖源:雷科技攝制)
具體的成像方面,F(xiàn)ire Phone的樣張放在現(xiàn)在肯定是不夠看了,光線充足的白天,有時會出現(xiàn)過曝的情況。
(圖源:雷科技攝制)
要說優(yōu)點的話,一個是成像速度快,另一個則是色彩還原比較準(zhǔn)確,基本是所見即所得。
(圖源:雷科技攝制)
Fire Phone搭載了一塊4.7吋的720P屏幕,最高亮度590尼特,當(dāng)年來說素質(zhì)相當(dāng)不錯了,現(xiàn)在來看也稱得上顯示效果細(xì)膩。只是,畢竟是十年前的機(jī)器,這塊LCD屏幕已經(jīng)老化,有較明顯的偏黃情況。
續(xù)航方面,這款手機(jī)的電池容量為2400mAh。在小雷看來,這是Fire Phone的一大短板,電池容量小,加上還有6顆攝像頭的耗電大戶,正常用的話,一天得充幾次電。
小雷手上這臺Fire Phone,系統(tǒng)升級到了最新版的FireOS 4.6.1。很多人看到FireOS可能會一頭霧水,它其實就是亞馬遜為平板和手機(jī)搭載的安卓定制系統(tǒng)。不同于大部分海外品牌,亞馬遜并沒有直接用原生安卓,而是深度定制了一套從UI界面到交互方式都迥然不同的系統(tǒng)。
(圖源:雷科技)
首先是基礎(chǔ)的交互操作方式,2014年大部分手機(jī)用的還是安卓三大金剛按鍵,即返回、主頁和菜單。但Fire Phone沒有這么做,而是在手機(jī)下巴位置配備了一顆實體Home鍵,單擊直達(dá)主頁、雙擊呼出任務(wù)界面,和當(dāng)時的iPhone如出一轍。而返回這個操作則直接采用了手勢替代,從下往上滑動主頁鍵,即可實現(xiàn)返回。坦率說,手勢操作的靈敏度不是特別高,有時候會難以觸發(fā)。
其次是UI界面,F(xiàn)ireOS相比原生安卓可以說是大幅度魔改了。值得夸贊的是,F(xiàn)ireOS的圖標(biāo)和UI做得非常精致,而且比較簡潔。像它的設(shè)置界面就比較有意思,每個大分類下的細(xì)分子選項,會有具體而詳細(xì)的描述,用戶直接明白它的具體含義。比如說,在「顯示」選項中,會有屏幕亮度調(diào)節(jié)、字體大小、墻紙等等,它們都不是幾個簡單的詞語,而是一整句話,只是關(guān)鍵詞被加粗了。
(圖源:雷科技)
如果亞馬遜的手機(jī)業(yè)務(wù)能正常經(jīng)營下去,F(xiàn)ireOS按部就班地不斷進(jìn)化的話,那么它很有機(jī)會成長為一款頗具特色的安卓定制系統(tǒng),做出自己的差異化。但很顯然,手機(jī)業(yè)務(wù)的失敗,讓Fire Phone上的FireOS爛尾了,版本號停留在了4.6,對應(yīng)的安卓版本號為4.4。
而這就導(dǎo)致了2024年的小雷想用FireOS安裝第三方應(yīng)用時,會遇到一堆麻煩。今時今日,很少有應(yīng)用還會支持安卓4.4了,同時兼容安卓4.4的應(yīng)用舊版本也很難找到。小雷花了很多功夫給它裝上了豌豆莢應(yīng)用市場,但很多App的舊版本只能回溯到2019年左右,對這款2014年的手機(jī)來說還是太新了。
(圖源:雷科技)
看到這里,可能會有人發(fā)出質(zhì)疑:十年前的手機(jī),要它能安裝2024年的軟件,太強人所難了吧?正巧,小雷手上還有臺2015年的小米Note,它是驍龍801機(jī)型,和Fire Phone算是同代產(chǎn)品,但小雷給它升級到了基于安卓6.0的MIUI 8,兼容性仍然遠(yuǎn)勝安卓4.4。除了日常App外,小雷安卓機(jī)上的常用的LocalSend等工具類App,小米Note能支持但Fire Phone不能。
總的來說,亞馬遜的FireOS可以說是非常有特點,在UI設(shè)計和交互邏輯上做出了區(qū)別于原生安卓的差異化,在當(dāng)年的手機(jī)市場上讓人眼前一亮。只是,作為被放棄的系統(tǒng),F(xiàn)ireOS后續(xù)的更新維護(hù)早已停滯,對今天的人來說,它只是一塊「安卓定制系統(tǒng)化石」。
當(dāng)年很多人看好亞馬遜做手機(jī),核心觀點就是亞馬遜在內(nèi)容方面擁有優(yōu)勢,可以以軟件盈利的打法來與對手們競爭。的確,亞馬遜旗下的互聯(lián)網(wǎng)內(nèi)容業(yè)務(wù)眾多,包括在線影視、音樂、電子書等等,直到今天都是流媒體市場上的重磅選手。當(dāng)年,亞馬遜推出Fire Phone,的確有推廣自家互聯(lián)網(wǎng)業(yè)務(wù)的目的。FireOS做成高度定制版,本質(zhì)上也是為了對設(shè)備有更強的掌控力,把自家的服務(wù)更好地植入進(jìn)去。
但從整個智能手機(jī)發(fā)展歷史來看,試圖通過互聯(lián)網(wǎng)內(nèi)容盈利來彌補硬件虧損的做法,無一例外都失敗了。早年間的小米、360、樂視,都嘗試過這條路線,都未能成功。回過頭來看,在手機(jī)內(nèi)容方面盈利最多的是蘋果,但它同時也是硬件利潤最大的手機(jī)品牌。
(圖源:雷科技攝制)
原因很簡單,安卓陣營,互聯(lián)網(wǎng)內(nèi)容并不具備封閉性,無法在單一品牌的設(shè)備上形成專屬優(yōu)勢。亞馬遜自家的內(nèi)容,其他安卓機(jī)乃至iPhone都能獲取,那么亞馬遜手機(jī)這方面的優(yōu)勢就不存在了。Kindle提供的電子書手機(jī)App也能提供,看起來情況相似,但Kindle的墨水屏具有硬件上的獨特優(yōu)勢,而Fire Phone則沒有。
硬件層面,F(xiàn)ire Phone的配置不算弱,但相比競品也沒有差異化優(yōu)勢,裸眼3D的效果也是噱頭大于實質(zhì)。更重要的,亞馬遜想把Fire Phone和自家互聯(lián)網(wǎng)服務(wù)更深度捆綁,但手機(jī)本身的價格并不便宜,裸機(jī)價格649美元,和如日中天的iPhone 6、三星Galaxy S5一致,可以說是毫無勝算。
而且,亞馬遜的投降速度太快了。2014年的手機(jī)市場頭部效應(yīng)遠(yuǎn)沒有今天這么嚴(yán)重,而Fire Phone推出一代后就火速被放棄了。其實,以亞馬遜自身的實力,后續(xù)如果能降低價格、調(diào)整打法,或許還真能做出些名堂。
但貝索斯顯然沒有這個信心,2015年6月,F(xiàn)ire Phone發(fā)布一年后,大量庫存的亞馬遜手機(jī)被降價清倉,跨越大洋彼岸流入到華強北市場上。這些成色不錯的二手Fire Phone,在電商平臺上的定價是400元出頭,給了當(dāng)年的搞機(jī)愛好者們一折買Fire Phone的機(jī)會。低廉的價格和還不錯的配置,讓這款手機(jī)當(dāng)年在國內(nèi)數(shù)碼愛好者群體中還小火了一把。
2024年的今天,再來回顧Fire Phone這部產(chǎn)品時,小雷的感覺是:亞馬遜當(dāng)年在洶涌的河流中投入了一顆石子,短暫激起的漣漪很快消失,一切都沒有被改變。
2024上半年,科技圈風(fēng)起云涌。
大模型加速落地,AI手機(jī)、AI PC、AI家電、AI搜索、AI電商……AI應(yīng)用層出不窮;
Vision Pro開售并登陸中國市場,再掀XR空間計算浪潮;
HarmonyOS NEXT正式發(fā)布,移動OS生態(tài)生變;
汽車全面進(jìn)入“下半場”,智能化成頭等大事;
電商競爭日益劇烈,卷低價更卷服務(wù);
出海浪潮風(fēng)起云涌,中國品牌邁上全球化征程;
……
7月流火,雷科技·年中回顧專題上線,總結(jié)科技產(chǎn)業(yè)2024上半年值得記錄的品牌、技術(shù)和產(chǎn)品,記錄過去、展望未來,敬請關(guān)注。
源:環(huán)球網(wǎng)
【環(huán)球網(wǎng)科技綜合報道】9月5日,騰訊宣布推出新一代大模型“混元Turbo”,相比前代模型,騰訊混元Turbo性能顯著提升,訓(xùn)練效率提升108%,推理效率提升 100%,推理成本降低 50%,效果在多個基準(zhǔn)測試上對標(biāo)GPT-4o,且第三方測評居國內(nèi)第一。
目前,混元Turbo已經(jīng)在騰訊云上線,輸入和輸出價格只有前代模型的一半。企業(yè)和開發(fā)者可以通過API、專屬模型、精調(diào)模型等方式使用混元大模型相關(guān)能力。
騰訊集團(tuán)高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生表示,隨著大模型與生成式AI的技術(shù)突破,圖片、視頻、語言的理解與生成已經(jīng)有很大進(jìn)步,人與人的溝通、人與系統(tǒng)的交互方式,都可能會被重塑。最近半年,產(chǎn)業(yè)界對AI大模型的關(guān)注重點,開始從模型技術(shù)本身,轉(zhuǎn)到智能應(yīng)用落地上。用人工智能在已有業(yè)務(wù)場景中降本增效,提高經(jīng)營效率,是行穩(wěn)致遠(yuǎn)的可靠路徑。
騰訊集團(tuán)高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生
據(jù)介紹,騰訊已經(jīng)構(gòu)建起了全鏈路的大模型產(chǎn)品矩陣,包括底層基礎(chǔ)設(shè)施、幫助企業(yè)訓(xùn)練專屬模型的TI平臺和行業(yè)大模型解決方案,自研的混元大模型,構(gòu)建應(yīng)用的平臺工具,以及基于大模型的各類智能應(yīng)用。
會上,騰訊AI應(yīng)用“元寶”宣布品牌智能體專區(qū)正式上線,企業(yè)在騰訊元器上制作的智能體可以一鍵發(fā)布到品牌智能體專區(qū)。品牌智能體專區(qū)首批邀請 11 家合作伙伴入駐,打造精品AI智能體應(yīng)用生態(tài),涵蓋工作提效和生活娛樂多個場景,用戶可以直接在“騰訊元寶”APP上體驗豐富的品牌智能體應(yīng)用。
“面向場景創(chuàng)造價值才是大模型發(fā)展的意義。”騰訊云副總裁、騰訊云智能負(fù)責(zé)人、優(yōu)圖實驗室負(fù)責(zé)人吳運聲表示,大模型已經(jīng)在全球發(fā)展了兩年,一方面,模型性能不斷提升,圍繞著模型的產(chǎn)品使用門檻變得更低、更加易用;另一方面,企業(yè)積極探索大模型與自身業(yè)務(wù)場景的結(jié)合,大模型的落地場景變得更豐富、更縱深。
騰訊云副總裁、騰訊云智能負(fù)責(zé)人、優(yōu)圖實驗室負(fù)責(zé)人吳運聲
吳運聲介紹,基于全矩陣的大模型產(chǎn)品,騰訊已經(jīng)服務(wù)了眾多客戶,在知識管理、智能客服、研發(fā)提效、智能營銷、內(nèi)容生成、辦公協(xié)同、風(fēng)險管控等場景中,幫助企業(yè)實現(xiàn)了降本增效和業(yè)務(wù)創(chuàng)新。
大模型工具持續(xù)升級,更便捷、更易用
為了讓企業(yè)更快更便捷地開發(fā)AI原生應(yīng)用,騰訊云在今年5月推出了三款PaaS產(chǎn)品知識引擎、圖像創(chuàng)作引擎和視頻創(chuàng)作引擎,加速應(yīng)用落地。
通過大模型知識引擎,企業(yè)用自然語言和簡單配置,5分鐘就可以開發(fā)出一款大語言模型應(yīng)用,服務(wù)于客服營銷、企業(yè)知識社區(qū)等業(yè)務(wù)場景。經(jīng)過幾個月的產(chǎn)品迭代,知識引擎產(chǎn)品在用戶需求識別與理解、企業(yè)知識處理、檢索和理解能力上,都有很大升級。同時,知識引擎支持組件能力單獨輸出,企業(yè)可以按需購買文檔解析、文檔拆分、向量化等能力,按需部署到自身的應(yīng)用中去。
在圖像創(chuàng)作引擎層面,基于混元生圖能力的升級,圖像風(fēng)格化、AI寫真、商品背景生成、模特?fù)Q裝等功能也進(jìn)一步實現(xiàn)了迭代。在AI寫真層面,圖像創(chuàng)作引擎實現(xiàn)了免訓(xùn)練技術(shù)突破,輸入一張照片后可直接跳過訓(xùn)練環(huán)節(jié)等待,一鍵生成高清寫真藝術(shù)照,整體出圖耗時縮短75%。
針對很多電商商家高頻使用的商品背景生成能力,圖像創(chuàng)作引擎可實現(xiàn)商品在不同場景中高度逼真的虛擬效果展示。在模特?fù)Q裝場景下,采用3D先驗方案,提升重建人像效果,在高度保持模特臉部、手部細(xì)節(jié)的同時,精確將服裝版型細(xì)節(jié)與模特身體特征對齊,確保換裝后的效果逼真自然。
基于混元的DiT架構(gòu)模型,視頻創(chuàng)作引擎也迎來了全新的升級。新增了圖片跳舞、圖片唱演和視頻轉(zhuǎn)譯等能力,已經(jīng)實現(xiàn)了單段舞蹈的生成時間從10分鐘下降至1分鐘級別,同時支持轉(zhuǎn)身、側(cè)身等難例舞蹈動作。同時,針對很多客戶有需求的視頻轉(zhuǎn)譯能力,視頻引擎接入了混元文生文大模型和 TTS 技術(shù),讓轉(zhuǎn)譯后的視頻能夠保留說話人的音色特征,同時實現(xiàn)說話人口型與目標(biāo)語種一致的視聽效果。目前視頻轉(zhuǎn)譯功能支持超過15種小語種,覆蓋主流外語翻譯,可應(yīng)用于視頻本地化、跨境電商等場景。
為了幫助企業(yè)用戶更便捷地打造專屬模型,人工智能開發(fā)平臺TI平臺也進(jìn)行了全新升級。
TI平臺致力于構(gòu)建面向?qū)崙?zhàn)的大模型精調(diào)工具鏈,幫助用戶訓(xùn)練出真正可用的大模型,并縮短模型開發(fā)周期,提升研發(fā)效率與資源利用率。
高質(zhì)量的訓(xùn)練數(shù)據(jù)是精調(diào)出一個可落地大模型的前提條件。TI 平臺的多模態(tài)數(shù)據(jù)集管理和數(shù)據(jù)標(biāo)注能力,可提升大模型精調(diào)的數(shù)據(jù)準(zhǔn)備效率和訓(xùn)練數(shù)據(jù)質(zhì)量,從而提升大模型訓(xùn)練效率和最終效果。
在精調(diào)數(shù)據(jù)準(zhǔn)備層面,TI平臺全新支持面向多模態(tài)大模型的數(shù)據(jù)集管理和數(shù)據(jù)標(biāo)注,首創(chuàng)了基于Schema的標(biāo)注方法,支持用戶自動生成個性化標(biāo)注工作臺,支持文生文、圖生文、圖文改寫、圖文混合問答等主流場景下的全部細(xì)分任務(wù)類型。
落地加速,場景創(chuàng)新更豐富、更縱深
大模型要貼近場景創(chuàng)造價值已經(jīng)是業(yè)界的共識。騰訊目前已經(jīng)有700多款產(chǎn)品接入混元大模型,實現(xiàn)用戶體驗的提升。騰訊全矩陣的大模型產(chǎn)品目前已經(jīng)在知識管理、智能客服、研發(fā)提效、智能營銷、內(nèi)容生成、辦公協(xié)同、風(fēng)險管控等落地。
在智能客服與知識管理場景中,基于大模型的生成能力,可以顯著提升復(fù)雜問題的解決效率,提升回答質(zhì)量。長安汽車與騰訊利用大模型知識引擎,整合汽車使用手冊等資料,有效解決了客戶在車輛使用和維護(hù)中的疑問,顯著提升了客戶服務(wù)體驗。
在智能營銷場景,大模型可以提升廣告素材的生產(chǎn)效率,增強營銷活動的趣味性和互動性。比如蒙牛集團(tuán)利用圖生圖技術(shù),將用戶上傳的全家福轉(zhuǎn)化生成為特制的卡通畫風(fēng),助力會員拉新、提升用戶活躍。
在內(nèi)容創(chuàng)意場景,大模型可以讓內(nèi)容生產(chǎn)的周期大幅縮短,提供更多的創(chuàng)意玩法。比如,媒體結(jié)合混元的文生視頻能力進(jìn)行視頻創(chuàng)作。過去,視頻內(nèi)容需要一幀幀進(jìn)行設(shè)計和制作,制作周期短則數(shù)天,長則數(shù)月。現(xiàn)在借助視頻生成能力,只需一段文字或者幾張圖片,就能在幾分鐘內(nèi)生成優(yōu)質(zhì)視頻內(nèi)容。
在研發(fā)提效領(lǐng)域,騰訊利用TI平臺等工具,幫助易車、閱文等企業(yè)搭建自己的大模型,顯著降低了模型構(gòu)建的時間和成本;另一方面,通過騰訊云AI代碼助手等工具,輔助開發(fā)者提升研發(fā)的效率,幫助企業(yè)提升整體研發(fā)效能。
在辦公協(xié)同場景中,騰訊旗下的企業(yè)微信、騰訊會議、騰訊文檔都已經(jīng)接入了混元大模型。在大模型的助力下,企業(yè)微信可對英文郵件進(jìn)行智能檢查,輔助英文郵件糾錯,騰訊會議可以自動總結(jié)會議紀(jì)要,騰訊文檔能夠自動生成各類文檔。
在風(fēng)險管控領(lǐng)域,風(fēng)控大模型可以解決傳統(tǒng)風(fēng)控中建模時間長、效率低的難題。通過打包豐富的反欺詐知識,實現(xiàn)“小樣本”訓(xùn)練遷移,快速構(gòu)建契合業(yè)務(wù)需求的風(fēng)控模型體系。比如,東風(fēng)日產(chǎn)汽車金融,基于少量提示樣本遷移,就完成了適配自身業(yè)務(wù)場景的風(fēng)控模型定制。相比于傳統(tǒng)的建模方式,模型KS性能提升超過20%,在跨場景的泛化性測試上性能提升53%。
訊優(yōu)圖實驗室 投稿
量子位 | 公眾號 QbitAI
隨著大模型的快速發(fā)展,指令調(diào)優(yōu)在提升模型性能和泛化能力方面發(fā)揮著至關(guān)重要的作用。
然而,對于指令調(diào)優(yōu)數(shù)據(jù)集的數(shù)據(jù)評估和選擇方法尚未形成統(tǒng)一的體系,且缺乏全面深入的綜述。
為了填補這一空白,騰訊優(yōu)圖實驗室發(fā)布一篇完整綜述進(jìn)行梳理。
長度超過了萬字,涉及的文獻(xiàn)多達(dá)400余篇。
這項研究涵蓋了質(zhì)量、多樣性和重要性三個主要方面的數(shù)據(jù)評估和選擇方法,對每個方面都進(jìn)行了詳細(xì)的分類和闡述。
同時,作者還關(guān)注了該領(lǐng)域的最新進(jìn)展和趨勢,包括一些新興的技術(shù)和方法,如利用GPT等強大語言模型進(jìn)行數(shù)據(jù)評分、基于雙層優(yōu)化的Coreset采樣等。
LLMs的發(fā)展目標(biāo)是解鎖對自然語言處理(NLP)任務(wù)的泛化能力,指令調(diào)優(yōu)在其中發(fā)揮重要作用,而數(shù)據(jù)質(zhì)量對指令調(diào)優(yōu)效果至關(guān)重要。
作者深入研究了各種指令調(diào)優(yōu)數(shù)據(jù)集的數(shù)據(jù)評估和選擇方法,從質(zhì)量、多樣性和重要性三個方面進(jìn)行了分類和闡述。
“質(zhì)量”主要指指令響應(yīng)數(shù)據(jù)點的完整性、準(zhǔn)確性和合理性,現(xiàn)有方法通常制定統(tǒng)一的評分機(jī)制來綜合考慮這些維度。
針對數(shù)據(jù)集的質(zhì)量,作者主要總結(jié)出了四種測試方法:
這里的多樣性,是指指令數(shù)據(jù)集的個體多樣性(如詞匯和語義豐富度)和整體多樣性(如數(shù)據(jù)分布),選擇具有多樣性的數(shù)據(jù)集可增強模型的泛化能力。
作者同樣是總結(jié)了四種測試數(shù)據(jù)集多樣性的方式。
重要性是指樣本對模型訓(xùn)練的必要性,與模型任務(wù)相關(guān),同時也關(guān)乎性能。易樣本可能不需要額外調(diào)優(yōu),而難樣本對模型訓(xùn)練至關(guān)重要。
對重要性的評估,主要有這樣幾種指標(biāo)和方法:
作者發(fā)現(xiàn),數(shù)據(jù)選擇的有效性與模型在基準(zhǔn)測試上的性能報告之間存在差距,原因包括評估損失與基準(zhǔn)性能相關(guān)性不強、測試集污染等。
未來需要構(gòu)建專門的基準(zhǔn)來評估指令調(diào)優(yōu)模型和所選數(shù)據(jù)點,并解耦數(shù)據(jù)選擇和模型評估以排除數(shù)據(jù)污染的影響。
目前也沒有統(tǒng)一標(biāo)準(zhǔn)來區(qū)分“好”“壞”指令,現(xiàn)有質(zhì)量測量方法具有特定任務(wù)導(dǎo)向性且缺乏解釋性,未來需要更統(tǒng)一、通用的定義和提高選擇管道的可解釋性,以適應(yīng)不同下游任務(wù)的需求。
隨著數(shù)據(jù)集的擴(kuò)大,確定最佳選擇比例也變得困難,原因包括噪聲增加、過擬合和遺忘問題,建議通過質(zhì)量測量方案、強調(diào)多樣性和考慮與預(yù)訓(xùn)練數(shù)據(jù)的相似性來確定最佳選擇比例,并優(yōu)化數(shù)據(jù)評估和選擇的可擴(kuò)展性pipeline。
除了數(shù)據(jù)集,大模型本身的規(guī)模也在增大,數(shù)據(jù)評估和選擇的成本效率降低,需要發(fā)展高效的代理模型,同時重新思考傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù),如優(yōu)化技巧和降維方法。
項目主頁:
https://github.com/yuleiqin/fantastic-data-engineering
論文地址:
https://arxiv.org/abs/2408.02085
— 完 —
量子位 QbitAI · 頭條號簽約
關(guān)注我們,第一時間獲知前沿科技動態(tài)