操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    我們把時間撥回到10年前的2014年,會發(fā)現(xiàn)彼時的手機(jī)市場還是「勃勃生機(jī)」「百花齊放」的狀態(tài)。


    那一年,iPhone 6登場,蘋果手機(jī)尺寸大突破,正式進(jìn)入大屏?xí)r代,iPhone銷量創(chuàng)歷史新高;樂視移動正式成立,準(zhǔn)備死磕性價比和小米一較高下;黃章宣布再次就任魅族CEO,品牌戰(zhàn)略由「小而美」轉(zhuǎn)向「大而全」,2014年發(fā)布的魅族MX4獲得了不俗的口碑……


    海外市場上,作為全球最大電商平臺的亞馬遜,也摩拳擦掌,準(zhǔn)備在欣欣向榮的手機(jī)市場上一展宏圖。2014年6月,貝索斯正式發(fā)布了亞馬遜首款手機(jī)Fire Phone。然而,這也是亞馬遜最后一款手機(jī),F(xiàn)ire Phone上市初期吸引了不少消費者,但很快在市場上遇冷,在與其他產(chǎn)品的競爭中敗下陣來。


    10年后的今天,小雷花200塊再次體驗到了這款亞馬遜唯一的手機(jī)產(chǎn)品,通過一次懷舊之旅,來回顧Fire Phone在產(chǎn)品層面上的得與失。


    (圖源:雷科技攝制)


    6顆攝像頭加持,10年前的手機(jī)就這么卷了?


    亞馬遜Fire Phone當(dāng)年在硬件上最引人注目的就是它配備了6顆攝像頭,不過,和一般人想象的不同的是,它們中的大部分并不是為影像服務(wù)的。具體來說,它的后置攝像頭只有一顆,用于日常拍照;前置鏡頭則有五顆,除了位置居中的自拍相機(jī)外,另外四顆鏡頭均勻地排列在手機(jī)正面四角。


    (圖源:雷科技攝制)


    這四顆非常規(guī)攝像頭的作用是實時拍攝用戶的面容,從而精準(zhǔn)定位用戶的視角,由此為「裸眼3D」功能服務(wù)。小雷實際體驗這臺手機(jī)時,發(fā)現(xiàn)系統(tǒng)中的圖標(biāo)、屏保采用了3D立體式設(shè)計,不同角度下能看到不同的形狀。而這,就是通過這四顆攝像頭實現(xiàn)的。


    (圖源:雷科技攝制)


    按照亞馬遜當(dāng)初的設(shè)想,F(xiàn)ire Phone上的3D內(nèi)容肯定不止于3D圖標(biāo),還包括相機(jī)拍攝的3D視頻、游戲等。但很遺憾,隨著亞馬遜手機(jī)項目的早夭,這些現(xiàn)在都體驗不到了。甚至,最基礎(chǔ)的3D圖標(biāo)功能,也僅限于亞馬遜自家的幾款系統(tǒng)應(yīng)用,第三方應(yīng)用圖標(biāo)因為沒有做適配,所以是沒有這個效果的。


    (圖源:雷科技)


    因此,對在2024年體驗這款手機(jī)的小雷來說,這四顆攝像頭的存在是弊大于利,只能是「徒增功耗」。


    性能方面,F(xiàn)ire Phone搭載的芯片為驍龍800,性能和同年的小米4上的驍龍801基本相當(dāng),內(nèi)存為2GB、存儲為32GB。當(dāng)年自然是旗艦。當(dāng)然,放在2024年,F(xiàn)ire Phone的性能肯定是不夠用的,主流游戲很難再駕馭。由于系統(tǒng)版本限制,它甚至跑不了安兔兔和GeekBench 4,小雷只好用GeekBench 3跑了下,單核得分為880、多核得分為2668,和小米4基本相當(dāng)。


    (圖源:雷科技)


    相機(jī)方面,F(xiàn)ire Phone后置鏡頭像素為1300萬,支持光學(xué)防抖,當(dāng)年屬于還不錯的水平。值得一提的是,這款手機(jī)配備了一顆實體拍照按鍵,哪怕在鎖屏狀態(tài)下也能快速呼出相機(jī)App并摁下快門。即便在2024年的今天再來體驗,小雷認(rèn)為實體拍照鍵對于影像場景仍然是更優(yōu)的解決方案。


    (圖源:雷科技攝制)


    具體的成像方面,F(xiàn)ire Phone的樣張放在現(xiàn)在肯定是不夠看了,光線充足的白天,有時會出現(xiàn)過曝的情況。


    (圖源:雷科技攝制)


    要說優(yōu)點的話,一個是成像速度快,另一個則是色彩還原比較準(zhǔn)確,基本是所見即所得。


    (圖源:雷科技攝制)


    Fire Phone搭載了一塊4.7吋的720P屏幕,最高亮度590尼特,當(dāng)年來說素質(zhì)相當(dāng)不錯了,現(xiàn)在來看也稱得上顯示效果細(xì)膩。只是,畢竟是十年前的機(jī)器,這塊LCD屏幕已經(jīng)老化,有較明顯的偏黃情況。


    續(xù)航方面,這款手機(jī)的電池容量為2400mAh。在小雷看來,這是Fire Phone的一大短板,電池容量小,加上還有6顆攝像頭的耗電大戶,正常用的話,一天得充幾次電。


    高度定制化的FireOS:精致,但并不好用


    小雷手上這臺Fire Phone,系統(tǒng)升級到了最新版的FireOS 4.6.1。很多人看到FireOS可能會一頭霧水,它其實就是亞馬遜為平板和手機(jī)搭載的安卓定制系統(tǒng)。不同于大部分海外品牌,亞馬遜并沒有直接用原生安卓,而是深度定制了一套從UI界面到交互方式都迥然不同的系統(tǒng)。


    (圖源:雷科技)


    首先是基礎(chǔ)的交互操作方式,2014年大部分手機(jī)用的還是安卓三大金剛按鍵,即返回、主頁和菜單。但Fire Phone沒有這么做,而是在手機(jī)下巴位置配備了一顆實體Home鍵,單擊直達(dá)主頁、雙擊呼出任務(wù)界面,和當(dāng)時的iPhone如出一轍。而返回這個操作則直接采用了手勢替代,從下往上滑動主頁鍵,即可實現(xiàn)返回。坦率說,手勢操作的靈敏度不是特別高,有時候會難以觸發(fā)。


    其次是UI界面,F(xiàn)ireOS相比原生安卓可以說是大幅度魔改了。值得夸贊的是,F(xiàn)ireOS的圖標(biāo)和UI做得非常精致,而且比較簡潔。像它的設(shè)置界面就比較有意思,每個大分類下的細(xì)分子選項,會有具體而詳細(xì)的描述,用戶直接明白它的具體含義。比如說,在「顯示」選項中,會有屏幕亮度調(diào)節(jié)、字體大小、墻紙等等,它們都不是幾個簡單的詞語,而是一整句話,只是關(guān)鍵詞被加粗了。


    (圖源:雷科技)


    如果亞馬遜的手機(jī)業(yè)務(wù)能正常經(jīng)營下去,F(xiàn)ireOS按部就班地不斷進(jìn)化的話,那么它很有機(jī)會成長為一款頗具特色的安卓定制系統(tǒng),做出自己的差異化。但很顯然,手機(jī)業(yè)務(wù)的失敗,讓Fire Phone上的FireOS爛尾了,版本號停留在了4.6,對應(yīng)的安卓版本號為4.4。


    而這就導(dǎo)致了2024年的小雷想用FireOS安裝第三方應(yīng)用時,會遇到一堆麻煩。今時今日,很少有應(yīng)用還會支持安卓4.4了,同時兼容安卓4.4的應(yīng)用舊版本也很難找到。小雷花了很多功夫給它裝上了豌豆莢應(yīng)用市場,但很多App的舊版本只能回溯到2019年左右,對這款2014年的手機(jī)來說還是太新了。


    (圖源:雷科技)


    看到這里,可能會有人發(fā)出質(zhì)疑:十年前的手機(jī),要它能安裝2024年的軟件,太強人所難了吧?正巧,小雷手上還有臺2015年的小米Note,它是驍龍801機(jī)型,和Fire Phone算是同代產(chǎn)品,但小雷給它升級到了基于安卓6.0的MIUI 8,兼容性仍然遠(yuǎn)勝安卓4.4。除了日常App外,小雷安卓機(jī)上的常用的LocalSend等工具類App,小米Note能支持但Fire Phone不能。


    總的來說,亞馬遜的FireOS可以說是非常有特點,在UI設(shè)計和交互邏輯上做出了區(qū)別于原生安卓的差異化,在當(dāng)年的手機(jī)市場上讓人眼前一亮。只是,作為被放棄的系統(tǒng),F(xiàn)ireOS后續(xù)的更新維護(hù)早已停滯,對今天的人來說,它只是一塊「安卓定制系統(tǒng)化石」。


    Fire Phone為何不能復(fù)刻Kindle的成功?


    當(dāng)年很多人看好亞馬遜做手機(jī),核心觀點就是亞馬遜在內(nèi)容方面擁有優(yōu)勢,可以以軟件盈利的打法來與對手們競爭。的確,亞馬遜旗下的互聯(lián)網(wǎng)內(nèi)容業(yè)務(wù)眾多,包括在線影視、音樂、電子書等等,直到今天都是流媒體市場上的重磅選手。當(dāng)年,亞馬遜推出Fire Phone,的確有推廣自家互聯(lián)網(wǎng)業(yè)務(wù)的目的。FireOS做成高度定制版,本質(zhì)上也是為了對設(shè)備有更強的掌控力,把自家的服務(wù)更好地植入進(jìn)去。


    但從整個智能手機(jī)發(fā)展歷史來看,試圖通過互聯(lián)網(wǎng)內(nèi)容盈利來彌補硬件虧損的做法,無一例外都失敗了。早年間的小米、360、樂視,都嘗試過這條路線,都未能成功。回過頭來看,在手機(jī)內(nèi)容方面盈利最多的是蘋果,但它同時也是硬件利潤最大的手機(jī)品牌。


    (圖源:雷科技攝制)


    原因很簡單,安卓陣營,互聯(lián)網(wǎng)內(nèi)容并不具備封閉性,無法在單一品牌的設(shè)備上形成專屬優(yōu)勢。亞馬遜自家的內(nèi)容,其他安卓機(jī)乃至iPhone都能獲取,那么亞馬遜手機(jī)這方面的優(yōu)勢就不存在了。Kindle提供的電子書手機(jī)App也能提供,看起來情況相似,但Kindle的墨水屏具有硬件上的獨特優(yōu)勢,而Fire Phone則沒有。


    硬件層面,F(xiàn)ire Phone的配置不算弱,但相比競品也沒有差異化優(yōu)勢,裸眼3D的效果也是噱頭大于實質(zhì)。更重要的,亞馬遜想把Fire Phone和自家互聯(lián)網(wǎng)服務(wù)更深度捆綁,但手機(jī)本身的價格并不便宜,裸機(jī)價格649美元,和如日中天的iPhone 6、三星Galaxy S5一致,可以說是毫無勝算。


    而且,亞馬遜的投降速度太快了。2014年的手機(jī)市場頭部效應(yīng)遠(yuǎn)沒有今天這么嚴(yán)重,而Fire Phone推出一代后就火速被放棄了。其實,以亞馬遜自身的實力,后續(xù)如果能降低價格、調(diào)整打法,或許還真能做出些名堂。


    但貝索斯顯然沒有這個信心,2015年6月,F(xiàn)ire Phone發(fā)布一年后,大量庫存的亞馬遜手機(jī)被降價清倉,跨越大洋彼岸流入到華強北市場上。這些成色不錯的二手Fire Phone,在電商平臺上的定價是400元出頭,給了當(dāng)年的搞機(jī)愛好者們一折買Fire Phone的機(jī)會。低廉的價格和還不錯的配置,讓這款手機(jī)當(dāng)年在國內(nèi)數(shù)碼愛好者群體中還小火了一把。


    2024年的今天,再來回顧Fire Phone這部產(chǎn)品時,小雷的感覺是:亞馬遜當(dāng)年在洶涌的河流中投入了一顆石子,短暫激起的漣漪很快消失,一切都沒有被改變。


    2024上半年,科技圈風(fēng)起云涌。

    大模型加速落地,AI手機(jī)、AI PC、AI家電、AI搜索、AI電商……AI應(yīng)用層出不窮;

    Vision Pro開售并登陸中國市場,再掀XR空間計算浪潮;

    HarmonyOS NEXT正式發(fā)布,移動OS生態(tài)生變;

    汽車全面進(jìn)入“下半場”,智能化成頭等大事;

    電商競爭日益劇烈,卷低價更卷服務(wù);

    出海浪潮風(fēng)起云涌,中國品牌邁上全球化征程;

    ……


    7月流火,雷科技·年中回顧專題上線,總結(jié)科技產(chǎn)業(yè)2024上半年值得記錄的品牌、技術(shù)和產(chǎn)品,記錄過去、展望未來,敬請關(guān)注。

    源:環(huán)球網(wǎng)

    【環(huán)球網(wǎng)科技綜合報道】9月5日,騰訊宣布推出新一代大模型“混元Turbo”,相比前代模型,騰訊混元Turbo性能顯著提升,訓(xùn)練效率提升108%,推理效率提升 100%,推理成本降低 50%,效果在多個基準(zhǔn)測試上對標(biāo)GPT-4o,且第三方測評居國內(nèi)第一。

    目前,混元Turbo已經(jīng)在騰訊云上線,輸入和輸出價格只有前代模型的一半。企業(yè)和開發(fā)者可以通過API、專屬模型、精調(diào)模型等方式使用混元大模型相關(guān)能力。

    騰訊集團(tuán)高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生表示,隨著大模型與生成式AI的技術(shù)突破,圖片、視頻、語言的理解與生成已經(jīng)有很大進(jìn)步,人與人的溝通、人與系統(tǒng)的交互方式,都可能會被重塑。最近半年,產(chǎn)業(yè)界對AI大模型的關(guān)注重點,開始從模型技術(shù)本身,轉(zhuǎn)到智能應(yīng)用落地上。用人工智能在已有業(yè)務(wù)場景中降本增效,提高經(jīng)營效率,是行穩(wěn)致遠(yuǎn)的可靠路徑。

    騰訊集團(tuán)高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生

    據(jù)介紹,騰訊已經(jīng)構(gòu)建起了全鏈路的大模型產(chǎn)品矩陣,包括底層基礎(chǔ)設(shè)施、幫助企業(yè)訓(xùn)練專屬模型的TI平臺和行業(yè)大模型解決方案,自研的混元大模型,構(gòu)建應(yīng)用的平臺工具,以及基于大模型的各類智能應(yīng)用。

    會上,騰訊AI應(yīng)用“元寶”宣布品牌智能體專區(qū)正式上線,企業(yè)在騰訊元器上制作的智能體可以一鍵發(fā)布到品牌智能體專區(qū)。品牌智能體專區(qū)首批邀請 11 家合作伙伴入駐,打造精品AI智能體應(yīng)用生態(tài),涵蓋工作提效和生活娛樂多個場景,用戶可以直接在“騰訊元寶”APP上體驗豐富的品牌智能體應(yīng)用。

    “面向場景創(chuàng)造價值才是大模型發(fā)展的意義。”騰訊云副總裁、騰訊云智能負(fù)責(zé)人、優(yōu)圖實驗室負(fù)責(zé)人吳運聲表示,大模型已經(jīng)在全球發(fā)展了兩年,一方面,模型性能不斷提升,圍繞著模型的產(chǎn)品使用門檻變得更低、更加易用;另一方面,企業(yè)積極探索大模型與自身業(yè)務(wù)場景的結(jié)合,大模型的落地場景變得更豐富、更縱深。

    騰訊云副總裁、騰訊云智能負(fù)責(zé)人、優(yōu)圖實驗室負(fù)責(zé)人吳運聲

    吳運聲介紹,基于全矩陣的大模型產(chǎn)品,騰訊已經(jīng)服務(wù)了眾多客戶,在知識管理、智能客服、研發(fā)提效、智能營銷、內(nèi)容生成、辦公協(xié)同、風(fēng)險管控等場景中,幫助企業(yè)實現(xiàn)了降本增效和業(yè)務(wù)創(chuàng)新。

    大模型工具持續(xù)升級,更便捷、更易用

    為了讓企業(yè)更快更便捷地開發(fā)AI原生應(yīng)用,騰訊云在今年5月推出了三款PaaS產(chǎn)品知識引擎、圖像創(chuàng)作引擎和視頻創(chuàng)作引擎,加速應(yīng)用落地。

    通過大模型知識引擎,企業(yè)用自然語言和簡單配置,5分鐘就可以開發(fā)出一款大語言模型應(yīng)用,服務(wù)于客服營銷、企業(yè)知識社區(qū)等業(yè)務(wù)場景。經(jīng)過幾個月的產(chǎn)品迭代,知識引擎產(chǎn)品在用戶需求識別與理解、企業(yè)知識處理、檢索和理解能力上,都有很大升級。同時,知識引擎支持組件能力單獨輸出,企業(yè)可以按需購買文檔解析、文檔拆分、向量化等能力,按需部署到自身的應(yīng)用中去。

    在圖像創(chuàng)作引擎層面,基于混元生圖能力的升級,圖像風(fēng)格化、AI寫真、商品背景生成、模特?fù)Q裝等功能也進(jìn)一步實現(xiàn)了迭代。在AI寫真層面,圖像創(chuàng)作引擎實現(xiàn)了免訓(xùn)練技術(shù)突破,輸入一張照片后可直接跳過訓(xùn)練環(huán)節(jié)等待,一鍵生成高清寫真藝術(shù)照,整體出圖耗時縮短75%。

    針對很多電商商家高頻使用的商品背景生成能力,圖像創(chuàng)作引擎可實現(xiàn)商品在不同場景中高度逼真的虛擬效果展示。在模特?fù)Q裝場景下,采用3D先驗方案,提升重建人像效果,在高度保持模特臉部、手部細(xì)節(jié)的同時,精確將服裝版型細(xì)節(jié)與模特身體特征對齊,確保換裝后的效果逼真自然。

    基于混元的DiT架構(gòu)模型,視頻創(chuàng)作引擎也迎來了全新的升級。新增了圖片跳舞、圖片唱演和視頻轉(zhuǎn)譯等能力,已經(jīng)實現(xiàn)了單段舞蹈的生成時間從10分鐘下降至1分鐘級別,同時支持轉(zhuǎn)身、側(cè)身等難例舞蹈動作。同時,針對很多客戶有需求的視頻轉(zhuǎn)譯能力,視頻引擎接入了混元文生文大模型和 TTS 技術(shù),讓轉(zhuǎn)譯后的視頻能夠保留說話人的音色特征,同時實現(xiàn)說話人口型與目標(biāo)語種一致的視聽效果。目前視頻轉(zhuǎn)譯功能支持超過15種小語種,覆蓋主流外語翻譯,可應(yīng)用于視頻本地化、跨境電商等場景。

    為了幫助企業(yè)用戶更便捷地打造專屬模型,人工智能開發(fā)平臺TI平臺也進(jìn)行了全新升級。

    TI平臺致力于構(gòu)建面向?qū)崙?zhàn)的大模型精調(diào)工具鏈,幫助用戶訓(xùn)練出真正可用的大模型,并縮短模型開發(fā)周期,提升研發(fā)效率與資源利用率。

    高質(zhì)量的訓(xùn)練數(shù)據(jù)是精調(diào)出一個可落地大模型的前提條件。TI 平臺的多模態(tài)數(shù)據(jù)集管理和數(shù)據(jù)標(biāo)注能力,可提升大模型精調(diào)的數(shù)據(jù)準(zhǔn)備效率和訓(xùn)練數(shù)據(jù)質(zhì)量,從而提升大模型訓(xùn)練效率和最終效果。

    在精調(diào)數(shù)據(jù)準(zhǔn)備層面,TI平臺全新支持面向多模態(tài)大模型的數(shù)據(jù)集管理和數(shù)據(jù)標(biāo)注,首創(chuàng)了基于Schema的標(biāo)注方法,支持用戶自動生成個性化標(biāo)注工作臺,支持文生文、圖生文、圖文改寫、圖文混合問答等主流場景下的全部細(xì)分任務(wù)類型。

    落地加速,場景創(chuàng)新更豐富、更縱深

    大模型要貼近場景創(chuàng)造價值已經(jīng)是業(yè)界的共識。騰訊目前已經(jīng)有700多款產(chǎn)品接入混元大模型,實現(xiàn)用戶體驗的提升。騰訊全矩陣的大模型產(chǎn)品目前已經(jīng)在知識管理、智能客服、研發(fā)提效、智能營銷、內(nèi)容生成、辦公協(xié)同、風(fēng)險管控等落地。

    在智能客服與知識管理場景中,基于大模型的生成能力,可以顯著提升復(fù)雜問題的解決效率,提升回答質(zhì)量。長安汽車與騰訊利用大模型知識引擎,整合汽車使用手冊等資料,有效解決了客戶在車輛使用和維護(hù)中的疑問,顯著提升了客戶服務(wù)體驗。

    在智能營銷場景,大模型可以提升廣告素材的生產(chǎn)效率,增強營銷活動的趣味性和互動性。比如蒙牛集團(tuán)利用圖生圖技術(shù),將用戶上傳的全家福轉(zhuǎn)化生成為特制的卡通畫風(fēng),助力會員拉新、提升用戶活躍。

    在內(nèi)容創(chuàng)意場景,大模型可以讓內(nèi)容生產(chǎn)的周期大幅縮短,提供更多的創(chuàng)意玩法。比如,媒體結(jié)合混元的文生視頻能力進(jìn)行視頻創(chuàng)作。過去,視頻內(nèi)容需要一幀幀進(jìn)行設(shè)計和制作,制作周期短則數(shù)天,長則數(shù)月。現(xiàn)在借助視頻生成能力,只需一段文字或者幾張圖片,就能在幾分鐘內(nèi)生成優(yōu)質(zhì)視頻內(nèi)容。

    在研發(fā)提效領(lǐng)域,騰訊利用TI平臺等工具,幫助易車、閱文等企業(yè)搭建自己的大模型,顯著降低了模型構(gòu)建的時間和成本;另一方面,通過騰訊云AI代碼助手等工具,輔助開發(fā)者提升研發(fā)的效率,幫助企業(yè)提升整體研發(fā)效能。

    在辦公協(xié)同場景中,騰訊旗下的企業(yè)微信、騰訊會議、騰訊文檔都已經(jīng)接入了混元大模型。在大模型的助力下,企業(yè)微信可對英文郵件進(jìn)行智能檢查,輔助英文郵件糾錯,騰訊會議可以自動總結(jié)會議紀(jì)要,騰訊文檔能夠自動生成各類文檔。

    在風(fēng)險管控領(lǐng)域,風(fēng)控大模型可以解決傳統(tǒng)風(fēng)控中建模時間長、效率低的難題。通過打包豐富的反欺詐知識,實現(xiàn)“小樣本”訓(xùn)練遷移,快速構(gòu)建契合業(yè)務(wù)需求的風(fēng)控模型體系。比如,東風(fēng)日產(chǎn)汽車金融,基于少量提示樣本遷移,就完成了適配自身業(yè)務(wù)場景的風(fēng)控模型定制。相比于傳統(tǒng)的建模方式,模型KS性能提升超過20%,在跨場景的泛化性測試上性能提升53%。

    訊優(yōu)圖實驗室 投稿

    量子位 | 公眾號 QbitAI

    隨著大模型的快速發(fā)展,指令調(diào)優(yōu)在提升模型性能和泛化能力方面發(fā)揮著至關(guān)重要的作用。

    然而,對于指令調(diào)優(yōu)數(shù)據(jù)集的數(shù)據(jù)評估和選擇方法尚未形成統(tǒng)一的體系,且缺乏全面深入的綜述。

    為了填補這一空白,騰訊優(yōu)圖實驗室發(fā)布一篇完整綜述進(jìn)行梳理。

    長度超過了萬字,涉及的文獻(xiàn)多達(dá)400余篇。

    這項研究涵蓋了質(zhì)量、多樣性和重要性三個主要方面的數(shù)據(jù)評估和選擇方法,對每個方面都進(jìn)行了詳細(xì)的分類和闡述。

    同時,作者還關(guān)注了該領(lǐng)域的最新進(jìn)展和趨勢,包括一些新興的技術(shù)和方法,如利用GPT等強大語言模型進(jìn)行數(shù)據(jù)評分、基于雙層優(yōu)化的Coreset采樣等。

    全方位評估指令調(diào)優(yōu)數(shù)據(jù)集

    LLMs的發(fā)展目標(biāo)是解鎖對自然語言處理(NLP)任務(wù)的泛化能力,指令調(diào)優(yōu)在其中發(fā)揮重要作用,而數(shù)據(jù)質(zhì)量對指令調(diào)優(yōu)效果至關(guān)重要。

    作者深入研究了各種指令調(diào)優(yōu)數(shù)據(jù)集的數(shù)據(jù)評估和選擇方法,從質(zhì)量、多樣性和重要性三個方面進(jìn)行了分類和闡述。

    質(zhì)量評估與選擇

    “質(zhì)量”主要指指令響應(yīng)數(shù)據(jù)點的完整性、準(zhǔn)確性和合理性,現(xiàn)有方法通常制定統(tǒng)一的評分機(jī)制來綜合考慮這些維度。

    針對數(shù)據(jù)集的質(zhì)量,作者主要總結(jié)出了四種測試方法:

    • 一是手工設(shè)計指標(biāo),如通過詞匯、句法、語義相似性等來方法評估數(shù)據(jù)質(zhì)量,優(yōu)點是指標(biāo)計算明確,但無法檢測不匹配的指令響應(yīng)對。
    • 二是使用基于模型的指標(biāo),這種方法利用可訓(xùn)練模型(如使用困惑度、多維評分評估器等)進(jìn)行,結(jié)合多種訓(xùn)練感知指標(biāo)(如不確定性、獎勵分?jǐn)?shù)等)的混合技術(shù),這種方法在選擇無偏高質(zhì)量樣本方面具有潛力。
    • 第三種方法是直接交給GPT,調(diào)用OpenAI APIs對指令調(diào)優(yōu)數(shù)據(jù)集進(jìn)行自動評分,這種方法與人類偏好高度對齊,收集少量GPT評分樣本后微調(diào)開源LLM進(jìn)行質(zhì)量測量,可提高成本效率。
    • 最后是人工評價,這種方法在構(gòu)建偏好對齊數(shù)據(jù)集時不可或缺,可用為模型訓(xùn)練提供高質(zhì)量數(shù)據(jù),但存在標(biāo)注不一致問題,需制定詳細(xì)指南,并輔以GPT評分等其他措施作為補充。

    多樣性評估與選擇

    這里的多樣性,是指指令數(shù)據(jù)集的個體多樣性(如詞匯和語義豐富度)和整體多樣性(如數(shù)據(jù)分布),選擇具有多樣性的數(shù)據(jù)集可增強模型的泛化能力。

    作者同樣是總結(jié)了四種測試數(shù)據(jù)集多樣性的方式。

    • 手工設(shè)計的指標(biāo):包括詞匯多樣性(如Type-token ratio、vocd-D、MTLD、HD-D等)和語義多樣性(如通過k - NN圖計算距離、利用BERT嵌入計算方差等)等多種指標(biāo)。
    • 基于模型的指標(biāo):通過熵相關(guān)方法(如vanilla entropy、Rényi entropy、Simpson’s Index、Vendi Score等)、Task2Vec嵌入、開放標(biāo)簽的多樣性標(biāo)記等方式評估多樣性。
    • 基于幾何特征的Coreset采樣:通過k-center greedy、herding等方法選擇最具信息和多樣性的子集,代表整個數(shù)據(jù)集,使模型在子集上的訓(xùn)練性能接近在整個數(shù)據(jù)集上的訓(xùn)練性能,聚類技術(shù)在其中起到解釋數(shù)據(jù)結(jié)構(gòu)的作用。
    • 基于Bi-level的Coreset采樣:將Coreset采樣視為Bi-level優(yōu)化問題,通過優(yōu)化硬掩碼或軟權(quán)重來選擇子集,涉及到模型內(nèi)部參數(shù)的優(yōu)化和數(shù)據(jù)選擇的外部循環(huán),一些方法通過引入驗證集、梯度匹配和優(yōu)化技術(shù)等來提高魯棒性和效率。

    重要性評估與選擇

    重要性是指樣本對模型訓(xùn)練的必要性,與模型任務(wù)相關(guān),同時也關(guān)乎性能。易樣本可能不需要額外調(diào)優(yōu),而難樣本對模型訓(xùn)練至關(guān)重要。

    對重要性的評估,主要有這樣幾種指標(biāo)和方法:

    • 手工設(shè)計的指標(biāo):通過可讀性指標(biāo)(如語法、詞匯、推理依賴等)評估文本難度,選擇具有挑戰(zhàn)性的樣本以評估模型魯棒性和構(gòu)建有區(qū)分度的NLP基準(zhǔn)。
    • 基于模型的指標(biāo):包括不確定性(如prompt uncertainty)、獎勵分?jǐn)?shù)(通過獎勵模型判斷樣本對模型行為的必要性)和數(shù)據(jù)模型(如通過Data model預(yù)測數(shù)據(jù)點對模型行為的影響、DSIR根據(jù)分布相似性估計重要性分?jǐn)?shù)、MATES連續(xù)選擇最有效子集、Xie等人通過重要性重采樣選擇類似目標(biāo)分布的樣本)等方式。
    • 基于Loss和Error的Coreset采樣:通過記錄訓(xùn)練中樣本的錯誤(如forgetting score、memorization、influence等)來估計重要性,選擇對損失貢獻(xiàn)大或?qū)е滦阅懿畹臉颖荆恍┭芯客ㄟ^迭代近似和小代理模型加速計算邊際效應(yīng)。
    • 基于梯度的Coreset采樣:利用梯度直接影響語言模型優(yōu)化的特性,通過梯度匹配(如逼近整個數(shù)據(jù)集的梯度)和梯度基于的影響(如通過上加權(quán)梯度乘法測量樣本對模型參數(shù)的影響)來選擇數(shù)據(jù),一些技術(shù)(如低秩梯度相似性搜索、移動樣本近似等)用于加速計算和提高效率,同時需要考慮近似的精度和效率。

    現(xiàn)有挑戰(zhàn)和未來方向

    作者發(fā)現(xiàn),數(shù)據(jù)選擇的有效性與模型在基準(zhǔn)測試上的性能報告之間存在差距,原因包括評估損失與基準(zhǔn)性能相關(guān)性不強、測試集污染等。

    未來需要構(gòu)建專門的基準(zhǔn)來評估指令調(diào)優(yōu)模型和所選數(shù)據(jù)點,并解耦數(shù)據(jù)選擇和模型評估以排除數(shù)據(jù)污染的影響。

    目前也沒有統(tǒng)一標(biāo)準(zhǔn)來區(qū)分“好”“壞”指令,現(xiàn)有質(zhì)量測量方法具有特定任務(wù)導(dǎo)向性且缺乏解釋性,未來需要更統(tǒng)一、通用的定義和提高選擇管道的可解釋性,以適應(yīng)不同下游任務(wù)的需求。

    隨著數(shù)據(jù)集的擴(kuò)大,確定最佳選擇比例也變得困難,原因包括噪聲增加、過擬合和遺忘問題,建議通過質(zhì)量測量方案、強調(diào)多樣性和考慮與預(yù)訓(xùn)練數(shù)據(jù)的相似性來確定最佳選擇比例,并優(yōu)化數(shù)據(jù)評估和選擇的可擴(kuò)展性pipeline。

    除了數(shù)據(jù)集,大模型本身的規(guī)模也在增大,數(shù)據(jù)評估和選擇的成本效率降低,需要發(fā)展高效的代理模型,同時重新思考傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù),如優(yōu)化技巧和降維方法。

    項目主頁:
    https://github.com/yuleiqin/fantastic-data-engineering

    論文地址:
    https://arxiv.org/abs/2408.02085

    — 完 —

    量子位 QbitAI · 頭條號簽約

    關(guān)注我們,第一時間獲知前沿科技動態(tài)

網(wǎng)站首頁   |    關(guān)于我們   |    公司新聞   |    產(chǎn)品方案   |    用戶案例   |    售后服務(wù)   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區(qū)    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權(quán)所有