欄目導(dǎo)航

新聞資訊

新聞資訊

我們把時間撥回到10年前的2014年，會發(fā)現(xiàn)彼時的手機(jī)市場還是「勃勃生機(jī)」「百花齊放」的狀態(tài)。

那一年，iPhone 6登場，蘋果手機(jī)尺寸大突破，正式進(jìn)入大屏?xí)r代，iPhone銷量創(chuàng)歷史新高；樂視移動正式成立，準(zhǔn)備死磕性價比和小米一較高下；黃章宣布再次就任魅族CEO，品牌戰(zhàn)略由「小而美」轉(zhuǎn)向「大而全」，2014年發(fā)布的魅族MX4獲得了不俗的口碑……

海外市場上，作為全球最大電商平臺的亞馬遜，也摩拳擦掌，準(zhǔn)備在欣欣向榮的手機(jī)市場上一展宏圖。2014年6月，貝索斯正式發(fā)布了亞馬遜首款手機(jī)Fire Phone。然而，這也是亞馬遜最后一款手機(jī)，F(xiàn)ire Phone上市初期吸引了不少消費者，但很快在市場上遇冷，在與其他產(chǎn)品的競爭中敗下陣來。

10年后的今天，小雷花200塊再次體驗到了這款亞馬遜唯一的手機(jī)產(chǎn)品，通過一次懷舊之旅，來回顧Fire Phone在產(chǎn)品層面上的得與失。

（圖源：雷科技攝制）

6顆攝像頭加持，10年前的手機(jī)就這么卷了？

亞馬遜Fire Phone當(dāng)年在硬件上最引人注目的就是它配備了6顆攝像頭，不過，和一般人想象的不同的是，它們中的大部分并不是為影像服務(wù)的。具體來說，它的后置攝像頭只有一顆，用于日常拍照；前置鏡頭則有五顆，除了位置居中的自拍相機(jī)外，另外四顆鏡頭均勻地排列在手機(jī)正面四角。

（圖源：雷科技攝制）

這四顆非常規(guī)攝像頭的作用是實時拍攝用戶的面容，從而精準(zhǔn)定位用戶的視角，由此為「裸眼3D」功能服務(wù)。小雷實際體驗這臺手機(jī)時，發(fā)現(xiàn)系統(tǒng)中的圖標(biāo)、屏保采用了3D立體式設(shè)計，不同角度下能看到不同的形狀。而這，就是通過這四顆攝像頭實現(xiàn)的。

（圖源：雷科技攝制）

按照亞馬遜當(dāng)初的設(shè)想，F(xiàn)ire Phone上的3D內(nèi)容肯定不止于3D圖標(biāo)，還包括相機(jī)拍攝的3D視頻、游戲等。但很遺憾，隨著亞馬遜手機(jī)項目的早夭，這些現(xiàn)在都體驗不到了。甚至，最基礎(chǔ)的3D圖標(biāo)功能，也僅限于亞馬遜自家的幾款系統(tǒng)應(yīng)用，第三方應(yīng)用圖標(biāo)因為沒有做適配，所以是沒有這個效果的。

（圖源：雷科技）

因此，對在2024年體驗這款手機(jī)的小雷來說，這四顆攝像頭的存在是弊大于利，只能是「徒增功耗」。

性能方面，F(xiàn)ire Phone搭載的芯片為驍龍800，性能和同年的小米4上的驍龍801基本相當(dāng)，內(nèi)存為2GB、存儲為32GB。當(dāng)年自然是旗艦。當(dāng)然，放在2024年，F(xiàn)ire Phone的性能肯定是不夠用的，主流游戲很難再駕馭。由于系統(tǒng)版本限制，它甚至跑不了安兔兔和GeekBench 4，小雷只好用GeekBench 3跑了下，單核得分為880、多核得分為2668，和小米4基本相當(dāng)。

（圖源：雷科技）

相機(jī)方面，F(xiàn)ire Phone后置鏡頭像素為1300萬，支持光學(xué)防抖，當(dāng)年屬于還不錯的水平。值得一提的是，這款手機(jī)配備了一顆實體拍照按鍵，哪怕在鎖屏狀態(tài)下也能快速呼出相機(jī)App并摁下快門。即便在2024年的今天再來體驗，小雷認(rèn)為實體拍照鍵對于影像場景仍然是更優(yōu)的解決方案。

（圖源：雷科技攝制）

具體的成像方面，F(xiàn)ire Phone的樣張放在現(xiàn)在肯定是不夠看了，光線充足的白天，有時會出現(xiàn)過曝的情況。

（圖源：雷科技攝制）

要說優(yōu)點的話，一個是成像速度快，另一個則是色彩還原比較準(zhǔn)確，基本是所見即所得。

（圖源：雷科技攝制）

Fire Phone搭載了一塊4.7吋的720P屏幕，最高亮度590尼特，當(dāng)年來說素質(zhì)相當(dāng)不錯了，現(xiàn)在來看也稱得上顯示效果細(xì)膩。只是，畢竟是十年前的機(jī)器，這塊LCD屏幕已經(jīng)老化，有較明顯的偏黃情況。

續(xù)航方面，這款手機(jī)的電池容量為2400mAh。在小雷看來，這是Fire Phone的一大短板，電池容量小，加上還有6顆攝像頭的耗電大戶，正常用的話，一天得充幾次電。

高度定制化的FireOS：精致，但并不好用

小雷手上這臺Fire Phone，系統(tǒng)升級到了最新版的FireOS 4.6.1。很多人看到FireOS可能會一頭霧水，它其實就是亞馬遜為平板和手機(jī)搭載的安卓定制系統(tǒng)。不同于大部分海外品牌，亞馬遜并沒有直接用原生安卓，而是深度定制了一套從UI界面到交互方式都迥然不同的系統(tǒng)。

（圖源：雷科技）

首先是基礎(chǔ)的交互操作方式，2014年大部分手機(jī)用的還是安卓三大金剛按鍵，即返回、主頁和菜單。但Fire Phone沒有這么做，而是在手機(jī)下巴位置配備了一顆實體Home鍵，單擊直達(dá)主頁、雙擊呼出任務(wù)界面，和當(dāng)時的iPhone如出一轍。而返回這個操作則直接采用了手勢替代，從下往上滑動主頁鍵，即可實現(xiàn)返回。坦率說，手勢操作的靈敏度不是特別高，有時候會難以觸發(fā)。

其次是UI界面，F(xiàn)ireOS相比原生安卓可以說是大幅度魔改了。值得夸贊的是，F(xiàn)ireOS的圖標(biāo)和UI做得非常精致，而且比較簡潔。像它的設(shè)置界面就比較有意思，每個大分類下的細(xì)分子選項，會有具體而詳細(xì)的描述，用戶直接明白它的具體含義。比如說，在「顯示」選項中，會有屏幕亮度調(diào)節(jié)、字體大小、墻紙等等，它們都不是幾個簡單的詞語，而是一整句話，只是關(guān)鍵詞被加粗了。

（圖源：雷科技）

如果亞馬遜的手機(jī)業(yè)務(wù)能正常經(jīng)營下去，F(xiàn)ireOS按部就班地不斷進(jìn)化的話，那么它很有機(jī)會成長為一款頗具特色的安卓定制系統(tǒng)，做出自己的差異化。但很顯然，手機(jī)業(yè)務(wù)的失敗，讓Fire Phone上的FireOS爛尾了，版本號停留在了4.6，對應(yīng)的安卓版本號為4.4。

而這就導(dǎo)致了2024年的小雷想用FireOS安裝第三方應(yīng)用時，會遇到一堆麻煩。今時今日，很少有應(yīng)用還會支持安卓4.4了，同時兼容安卓4.4的應(yīng)用舊版本也很難找到。小雷花了很多功夫給它裝上了豌豆莢應(yīng)用市場，但很多App的舊版本只能回溯到2019年左右，對這款2014年的手機(jī)來說還是太新了。

（圖源：雷科技）

看到這里，可能會有人發(fā)出質(zhì)疑：十年前的手機(jī)，要它能安裝2024年的軟件，太強人所難了吧？正巧，小雷手上還有臺2015年的小米Note，它是驍龍801機(jī)型，和Fire Phone算是同代產(chǎn)品，但小雷給它升級到了基于安卓6.0的MIUI 8，兼容性仍然遠(yuǎn)勝安卓4.4。除了日常App外，小雷安卓機(jī)上的常用的LocalSend等工具類App，小米Note能支持但Fire Phone不能。

總的來說，亞馬遜的FireOS可以說是非常有特點，在UI設(shè)計和交互邏輯上做出了區(qū)別于原生安卓的差異化，在當(dāng)年的手機(jī)市場上讓人眼前一亮。只是，作為被放棄的系統(tǒng)，F(xiàn)ireOS后續(xù)的更新維護(hù)早已停滯，對今天的人來說，它只是一塊「安卓定制系統(tǒng)化石」。

Fire Phone為何不能復(fù)刻Kindle的成功？

當(dāng)年很多人看好亞馬遜做手機(jī)，核心觀點就是亞馬遜在內(nèi)容方面擁有優(yōu)勢，可以以軟件盈利的打法來與對手們競爭。的確，亞馬遜旗下的互聯(lián)網(wǎng)內(nèi)容業(yè)務(wù)眾多，包括在線影視、音樂、電子書等等，直到今天都是流媒體市場上的重磅選手。當(dāng)年，亞馬遜推出Fire Phone，的確有推廣自家互聯(lián)網(wǎng)業(yè)務(wù)的目的。FireOS做成高度定制版，本質(zhì)上也是為了對設(shè)備有更強的掌控力，把自家的服務(wù)更好地植入進(jìn)去。

但從整個智能手機(jī)發(fā)展歷史來看，試圖通過互聯(lián)網(wǎng)內(nèi)容盈利來彌補硬件虧損的做法，無一例外都失敗了。早年間的小米、360、樂視，都嘗試過這條路線，都未能成功。回過頭來看，在手機(jī)內(nèi)容方面盈利最多的是蘋果，但它同時也是硬件利潤最大的手機(jī)品牌。

（圖源：雷科技攝制）

原因很簡單，安卓陣營，互聯(lián)網(wǎng)內(nèi)容并不具備封閉性，無法在單一品牌的設(shè)備上形成專屬優(yōu)勢。亞馬遜自家的內(nèi)容，其他安卓機(jī)乃至iPhone都能獲取，那么亞馬遜手機(jī)這方面的優(yōu)勢就不存在了。Kindle提供的電子書手機(jī)App也能提供，看起來情況相似，但Kindle的墨水屏具有硬件上的獨特優(yōu)勢，而Fire Phone則沒有。

硬件層面，F(xiàn)ire Phone的配置不算弱，但相比競品也沒有差異化優(yōu)勢，裸眼3D的效果也是噱頭大于實質(zhì)。更重要的，亞馬遜想把Fire Phone和自家互聯(lián)網(wǎng)服務(wù)更深度捆綁，但手機(jī)本身的價格并不便宜，裸機(jī)價格649美元，和如日中天的iPhone 6、三星Galaxy S5一致，可以說是毫無勝算。

而且，亞馬遜的投降速度太快了。2014年的手機(jī)市場頭部效應(yīng)遠(yuǎn)沒有今天這么嚴(yán)重，而Fire Phone推出一代后就火速被放棄了。其實，以亞馬遜自身的實力，后續(xù)如果能降低價格、調(diào)整打法，或許還真能做出些名堂。

但貝索斯顯然沒有這個信心，2015年6月，F(xiàn)ire Phone發(fā)布一年后，大量庫存的亞馬遜手機(jī)被降價清倉，跨越大洋彼岸流入到華強北市場上。這些成色不錯的二手Fire Phone，在電商平臺上的定價是400元出頭，給了當(dāng)年的搞機(jī)愛好者們一折買Fire Phone的機(jī)會。低廉的價格和還不錯的配置，讓這款手機(jī)當(dāng)年在國內(nèi)數(shù)碼愛好者群體中還小火了一把。

2024年的今天，再來回顧Fire Phone這部產(chǎn)品時，小雷的感覺是：亞馬遜當(dāng)年在洶涌的河流中投入了一顆石子，短暫激起的漣漪很快消失，一切都沒有被改變。

2024上半年，科技圈風(fēng)起云涌。
大模型加速落地，AI手機(jī)、AI PC、AI家電、AI搜索、AI電商……AI應(yīng)用層出不窮；
Vision Pro開售并登陸中國市場，再掀XR空間計算浪潮；
HarmonyOS NEXT正式發(fā)布，移動OS生態(tài)生變；
汽車全面進(jìn)入“下半場”，智能化成頭等大事；
電商競爭日益劇烈，卷低價更卷服務(wù)；
出海浪潮風(fēng)起云涌，中國品牌邁上全球化征程；
……

7月流火，雷科技·年中回顧專題上線，總結(jié)科技產(chǎn)業(yè)2024上半年值得記錄的品牌、技術(shù)和產(chǎn)品，記錄過去、展望未來，敬請關(guān)注。

源：環(huán)球網(wǎng)

【環(huán)球網(wǎng)科技綜合報道】9月5日，騰訊宣布推出新一代大模型“混元Turbo”，相比前代模型，騰訊混元Turbo性能顯著提升，訓(xùn)練效率提升108%，推理效率提升 100%，推理成本降低 50%，效果在多個基準(zhǔn)測試上對標(biāo)GPT-4o，且第三方測評居國內(nèi)第一。

目前，混元Turbo已經(jīng)在騰訊云上線，輸入和輸出價格只有前代模型的一半。企業(yè)和開發(fā)者可以通過API、專屬模型、精調(diào)模型等方式使用混元大模型相關(guān)能力。

騰訊集團(tuán)高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生表示，隨著大模型與生成式AI的技術(shù)突破，圖片、視頻、語言的理解與生成已經(jīng)有很大進(jìn)步，人與人的溝通、人與系統(tǒng)的交互方式，都可能會被重塑。最近半年，產(chǎn)業(yè)界對AI大模型的關(guān)注重點，開始從模型技術(shù)本身，轉(zhuǎn)到智能應(yīng)用落地上。用人工智能在已有業(yè)務(wù)場景中降本增效，提高經(jīng)營效率，是行穩(wěn)致遠(yuǎn)的可靠路徑。

騰訊集團(tuán)高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生

據(jù)介紹，騰訊已經(jīng)構(gòu)建起了全鏈路的大模型產(chǎn)品矩陣，包括底層基礎(chǔ)設(shè)施、幫助企業(yè)訓(xùn)練專屬模型的TI平臺和行業(yè)大模型解決方案，自研的混元大模型，構(gòu)建應(yīng)用的平臺工具，以及基于大模型的各類智能應(yīng)用。

會上，騰訊AI應(yīng)用“元寶”宣布品牌智能體專區(qū)正式上線，企業(yè)在騰訊元器上制作的智能體可以一鍵發(fā)布到品牌智能體專區(qū)。品牌智能體專區(qū)首批邀請 11 家合作伙伴入駐，打造精品AI智能體應(yīng)用生態(tài)，涵蓋工作提效和生活娛樂多個場景，用戶可以直接在“騰訊元寶”APP上體驗豐富的品牌智能體應(yīng)用。

“面向場景創(chuàng)造價值才是大模型發(fā)展的意義。”騰訊云副總裁、騰訊云智能負(fù)責(zé)人、優(yōu)圖實驗室負(fù)責(zé)人吳運聲表示，大模型已經(jīng)在全球發(fā)展了兩年，一方面，模型性能不斷提升，圍繞著模型的產(chǎn)品使用門檻變得更低、更加易用；另一方面，企業(yè)積極探索大模型與自身業(yè)務(wù)場景的結(jié)合，大模型的落地場景變得更豐富、更縱深。

騰訊云副總裁、騰訊云智能負(fù)責(zé)人、優(yōu)圖實驗室負(fù)責(zé)人吳運聲

吳運聲介紹，基于全矩陣的大模型產(chǎn)品，騰訊已經(jīng)服務(wù)了眾多客戶，在知識管理、智能客服、研發(fā)提效、智能營銷、內(nèi)容生成、辦公協(xié)同、風(fēng)險管控等場景中，幫助企業(yè)實現(xiàn)了降本增效和業(yè)務(wù)創(chuàng)新。

大模型工具持續(xù)升級，更便捷、更易用

為了讓企業(yè)更快更便捷地開發(fā)AI原生應(yīng)用，騰訊云在今年5月推出了三款PaaS產(chǎn)品知識引擎、圖像創(chuàng)作引擎和視頻創(chuàng)作引擎，加速應(yīng)用落地。

通過大模型知識引擎，企業(yè)用自然語言和簡單配置，5分鐘就可以開發(fā)出一款大語言模型應(yīng)用，服務(wù)于客服營銷、企業(yè)知識社區(qū)等業(yè)務(wù)場景。經(jīng)過幾個月的產(chǎn)品迭代，知識引擎產(chǎn)品在用戶需求識別與理解、企業(yè)知識處理、檢索和理解能力上，都有很大升級。同時，知識引擎支持組件能力單獨輸出，企業(yè)可以按需購買文檔解析、文檔拆分、向量化等能力，按需部署到自身的應(yīng)用中去。

在圖像創(chuàng)作引擎層面，基于混元生圖能力的升級，圖像風(fēng)格化、AI寫真、商品背景生成、模特?fù)Q裝等功能也進(jìn)一步實現(xiàn)了迭代。在AI寫真層面，圖像創(chuàng)作引擎實現(xiàn)了免訓(xùn)練技術(shù)突破，輸入一張照片后可直接跳過訓(xùn)練環(huán)節(jié)等待，一鍵生成高清寫真藝術(shù)照，整體出圖耗時縮短75%。

針對很多電商商家高頻使用的商品背景生成能力，圖像創(chuàng)作引擎可實現(xiàn)商品在不同場景中高度逼真的虛擬效果展示。在模特?fù)Q裝場景下，采用3D先驗方案，提升重建人像效果，在高度保持模特臉部、手部細(xì)節(jié)的同時，精確將服裝版型細(xì)節(jié)與模特身體特征對齊，確保換裝后的效果逼真自然。

基于混元的DiT架構(gòu)模型，視頻創(chuàng)作引擎也迎來了全新的升級。新增了圖片跳舞、圖片唱演和視頻轉(zhuǎn)譯等能力，已經(jīng)實現(xiàn)了單段舞蹈的生成時間從10分鐘下降至1分鐘級別，同時支持轉(zhuǎn)身、側(cè)身等難例舞蹈動作。同時，針對很多客戶有需求的視頻轉(zhuǎn)譯能力，視頻引擎接入了混元文生文大模型和 TTS 技術(shù)，讓轉(zhuǎn)譯后的視頻能夠保留說話人的音色特征，同時實現(xiàn)說話人口型與目標(biāo)語種一致的視聽效果。目前視頻轉(zhuǎn)譯功能支持超過15種小語種，覆蓋主流外語翻譯，可應(yīng)用于視頻本地化、跨境電商等場景。

為了幫助企業(yè)用戶更便捷地打造專屬模型，人工智能開發(fā)平臺TI平臺也進(jìn)行了全新升級。

TI平臺致力于構(gòu)建面向?qū)崙?zhàn)的大模型精調(diào)工具鏈，幫助用戶訓(xùn)練出真正可用的大模型，并縮短模型開發(fā)周期，提升研發(fā)效率與資源利用率。

高質(zhì)量的訓(xùn)練數(shù)據(jù)是精調(diào)出一個可落地大模型的前提條件。TI 平臺的多模態(tài)數(shù)據(jù)集管理和數(shù)據(jù)標(biāo)注能力，可提升大模型精調(diào)的數(shù)據(jù)準(zhǔn)備效率和訓(xùn)練數(shù)據(jù)質(zhì)量，從而提升大模型訓(xùn)練效率和最終效果。

在精調(diào)數(shù)據(jù)準(zhǔn)備層面，TI平臺全新支持面向多模態(tài)大模型的數(shù)據(jù)集管理和數(shù)據(jù)標(biāo)注，首創(chuàng)了基于Schema的標(biāo)注方法，支持用戶自動生成個性化標(biāo)注工作臺，支持文生文、圖生文、圖文改寫、圖文混合問答等主流場景下的全部細(xì)分任務(wù)類型。

落地加速，場景創(chuàng)新更豐富、更縱深

大模型要貼近場景創(chuàng)造價值已經(jīng)是業(yè)界的共識。騰訊目前已經(jīng)有700多款產(chǎn)品接入混元大模型，實現(xiàn)用戶體驗的提升。騰訊全矩陣的大模型產(chǎn)品目前已經(jīng)在知識管理、智能客服、研發(fā)提效、智能營銷、內(nèi)容生成、辦公協(xié)同、風(fēng)險管控等落地。

在智能客服與知識管理場景中，基于大模型的生成能力，可以顯著提升復(fù)雜問題的解決效率，提升回答質(zhì)量。長安汽車與騰訊利用大模型知識引擎，整合汽車使用手冊等資料，有效解決了客戶在車輛使用和維護(hù)中的疑問，顯著提升了客戶服務(wù)體驗。

在智能營銷場景，大模型可以提升廣告素材的生產(chǎn)效率，增強營銷活動的趣味性和互動性。比如蒙牛集團(tuán)利用圖生圖技術(shù)，將用戶上傳的全家福轉(zhuǎn)化生成為特制的卡通畫風(fēng)，助力會員拉新、提升用戶活躍。

在內(nèi)容創(chuàng)意場景，大模型可以讓內(nèi)容生產(chǎn)的周期大幅縮短，提供更多的創(chuàng)意玩法。比如，媒體結(jié)合混元的文生視頻能力進(jìn)行視頻創(chuàng)作。過去，視頻內(nèi)容需要一幀幀進(jìn)行設(shè)計和制作，制作周期短則數(shù)天，長則數(shù)月。現(xiàn)在借助視頻生成能力，只需一段文字或者幾張圖片，就能在幾分鐘內(nèi)生成優(yōu)質(zhì)視頻內(nèi)容。

在研發(fā)提效領(lǐng)域，騰訊利用TI平臺等工具，幫助易車、閱文等企業(yè)搭建自己的大模型，顯著降低了模型構(gòu)建的時間和成本；另一方面，通過騰訊云AI代碼助手等工具，輔助開發(fā)者提升研發(fā)的效率，幫助企業(yè)提升整體研發(fā)效能。

在辦公協(xié)同場景中，騰訊旗下的企業(yè)微信、騰訊會議、騰訊文檔都已經(jīng)接入了混元大模型。在大模型的助力下，企業(yè)微信可對英文郵件進(jìn)行智能檢查，輔助英文郵件糾錯，騰訊會議可以自動總結(jié)會議紀(jì)要，騰訊文檔能夠自動生成各類文檔。

在風(fēng)險管控領(lǐng)域，風(fēng)控大模型可以解決傳統(tǒng)風(fēng)控中建模時間長、效率低的難題。通過打包豐富的反欺詐知識，實現(xiàn)“小樣本”訓(xùn)練遷移，快速構(gòu)建契合業(yè)務(wù)需求的風(fēng)控模型體系。比如，東風(fēng)日產(chǎn)汽車金融，基于少量提示樣本遷移，就完成了適配自身業(yè)務(wù)場景的風(fēng)控模型定制。相比于傳統(tǒng)的建模方式，模型KS性能提升超過20%，在跨場景的泛化性測試上性能提升53%。

訊優(yōu)圖實驗室投稿
量子位 | 公眾號 QbitAI

隨著大模型的快速發(fā)展，指令調(diào)優(yōu)在提升模型性能和泛化能力方面發(fā)揮著至關(guān)重要的作用。

然而，對于指令調(diào)優(yōu)數(shù)據(jù)集的數(shù)據(jù)評估和選擇方法尚未形成統(tǒng)一的體系，且缺乏全面深入的綜述。

為了填補這一空白，騰訊優(yōu)圖實驗室發(fā)布一篇完整綜述進(jìn)行梳理。

長度超過了萬字，涉及的文獻(xiàn)多達(dá)400余篇。

這項研究涵蓋了質(zhì)量、多樣性和重要性三個主要方面的數(shù)據(jù)評估和選擇方法，對每個方面都進(jìn)行了詳細(xì)的分類和闡述。

同時，作者還關(guān)注了該領(lǐng)域的最新進(jìn)展和趨勢，包括一些新興的技術(shù)和方法，如利用GPT等強大語言模型進(jìn)行數(shù)據(jù)評分、基于雙層優(yōu)化的Coreset采樣等。

全方位評估指令調(diào)優(yōu)數(shù)據(jù)集

LLMs的發(fā)展目標(biāo)是解鎖對自然語言處理（NLP）任務(wù)的泛化能力，指令調(diào)優(yōu)在其中發(fā)揮重要作用，而數(shù)據(jù)質(zhì)量對指令調(diào)優(yōu)效果至關(guān)重要。

作者深入研究了各種指令調(diào)優(yōu)數(shù)據(jù)集的數(shù)據(jù)評估和選擇方法，從質(zhì)量、多樣性和重要性三個方面進(jìn)行了分類和闡述。

質(zhì)量評估與選擇

“質(zhì)量”主要指指令響應(yīng)數(shù)據(jù)點的完整性、準(zhǔn)確性和合理性，現(xiàn)有方法通常制定統(tǒng)一的評分機(jī)制來綜合考慮這些維度。

針對數(shù)據(jù)集的質(zhì)量，作者主要總結(jié)出了四種測試方法：

一是手工設(shè)計指標(biāo)，如通過詞匯、句法、語義相似性等來方法評估數(shù)據(jù)質(zhì)量，優(yōu)點是指標(biāo)計算明確，但無法檢測不匹配的指令響應(yīng)對。
二是使用基于模型的指標(biāo)，這種方法利用可訓(xùn)練模型（如使用困惑度、多維評分評估器等）進(jìn)行，結(jié)合多種訓(xùn)練感知指標(biāo)（如不確定性、獎勵分?jǐn)?shù)等）的混合技術(shù)，這種方法在選擇無偏高質(zhì)量樣本方面具有潛力。
第三種方法是直接交給GPT，調(diào)用OpenAI APIs對指令調(diào)優(yōu)數(shù)據(jù)集進(jìn)行自動評分，這種方法與人類偏好高度對齊，收集少量GPT評分樣本后微調(diào)開源LLM進(jìn)行質(zhì)量測量，可提高成本效率。
最后是人工評價，這種方法在構(gòu)建偏好對齊數(shù)據(jù)集時不可或缺，可用為模型訓(xùn)練提供高質(zhì)量數(shù)據(jù)，但存在標(biāo)注不一致問題，需制定詳細(xì)指南，并輔以GPT評分等其他措施作為補充。

多樣性評估與選擇

這里的多樣性，是指指令數(shù)據(jù)集的個體多樣性（如詞匯和語義豐富度）和整體多樣性（如數(shù)據(jù)分布），選擇具有多樣性的數(shù)據(jù)集可增強模型的泛化能力。

作者同樣是總結(jié)了四種測試數(shù)據(jù)集多樣性的方式。

手工設(shè)計的指標(biāo)：包括詞匯多樣性（如Type-token ratio、vocd-D、MTLD、HD-D等）和語義多樣性（如通過k - NN圖計算距離、利用BERT嵌入計算方差等）等多種指標(biāo)。
基于模型的指標(biāo)：通過熵相關(guān)方法（如vanilla entropy、Rényi entropy、Simpson’s Index、Vendi Score等）、Task2Vec嵌入、開放標(biāo)簽的多樣性標(biāo)記等方式評估多樣性。
基于幾何特征的Coreset采樣：通過k-center greedy、herding等方法選擇最具信息和多樣性的子集，代表整個數(shù)據(jù)集，使模型在子集上的訓(xùn)練性能接近在整個數(shù)據(jù)集上的訓(xùn)練性能，聚類技術(shù)在其中起到解釋數(shù)據(jù)結(jié)構(gòu)的作用。
基于Bi-level的Coreset采樣：將Coreset采樣視為Bi-level優(yōu)化問題，通過優(yōu)化硬掩碼或軟權(quán)重來選擇子集，涉及到模型內(nèi)部參數(shù)的優(yōu)化和數(shù)據(jù)選擇的外部循環(huán)，一些方法通過引入驗證集、梯度匹配和優(yōu)化技術(shù)等來提高魯棒性和效率。

重要性評估與選擇

重要性是指樣本對模型訓(xùn)練的必要性，與模型任務(wù)相關(guān)，同時也關(guān)乎性能。易樣本可能不需要額外調(diào)優(yōu)，而難樣本對模型訓(xùn)練至關(guān)重要。

對重要性的評估，主要有這樣幾種指標(biāo)和方法：

手工設(shè)計的指標(biāo)：通過可讀性指標(biāo)（如語法、詞匯、推理依賴等）評估文本難度，選擇具有挑戰(zhàn)性的樣本以評估模型魯棒性和構(gòu)建有區(qū)分度的NLP基準(zhǔn)。
基于模型的指標(biāo)：包括不確定性（如prompt uncertainty）、獎勵分?jǐn)?shù)（通過獎勵模型判斷樣本對模型行為的必要性）和數(shù)據(jù)模型（如通過Data model預(yù)測數(shù)據(jù)點對模型行為的影響、DSIR根據(jù)分布相似性估計重要性分?jǐn)?shù)、MATES連續(xù)選擇最有效子集、Xie等人通過重要性重采樣選擇類似目標(biāo)分布的樣本）等方式。
基于Loss和Error的Coreset采樣：通過記錄訓(xùn)練中樣本的錯誤（如forgetting score、memorization、influence等）來估計重要性，選擇對損失貢獻(xiàn)大或?qū)е滦阅懿畹臉颖荆恍┭芯客ㄟ^迭代近似和小代理模型加速計算邊際效應(yīng)。
基于梯度的Coreset采樣：利用梯度直接影響語言模型優(yōu)化的特性，通過梯度匹配（如逼近整個數(shù)據(jù)集的梯度）和梯度基于的影響（如通過上加權(quán)梯度乘法測量樣本對模型參數(shù)的影響）來選擇數(shù)據(jù)，一些技術(shù)（如低秩梯度相似性搜索、移動樣本近似等）用于加速計算和提高效率，同時需要考慮近似的精度和效率。

現(xiàn)有挑戰(zhàn)和未來方向

作者發(fā)現(xiàn)，數(shù)據(jù)選擇的有效性與模型在基準(zhǔn)測試上的性能報告之間存在差距，原因包括評估損失與基準(zhǔn)性能相關(guān)性不強、測試集污染等。

未來需要構(gòu)建專門的基準(zhǔn)來評估指令調(diào)優(yōu)模型和所選數(shù)據(jù)點，并解耦數(shù)據(jù)選擇和模型評估以排除數(shù)據(jù)污染的影響。

目前也沒有統(tǒng)一標(biāo)準(zhǔn)來區(qū)分“好”“壞”指令，現(xiàn)有質(zhì)量測量方法具有特定任務(wù)導(dǎo)向性且缺乏解釋性，未來需要更統(tǒng)一、通用的定義和提高選擇管道的可解釋性，以適應(yīng)不同下游任務(wù)的需求。

隨著數(shù)據(jù)集的擴(kuò)大，確定最佳選擇比例也變得困難，原因包括噪聲增加、過擬合和遺忘問題，建議通過質(zhì)量測量方案、強調(diào)多樣性和考慮與預(yù)訓(xùn)練數(shù)據(jù)的相似性來確定最佳選擇比例，并優(yōu)化數(shù)據(jù)評估和選擇的可擴(kuò)展性pipeline。

除了數(shù)據(jù)集，大模型本身的規(guī)模也在增大，數(shù)據(jù)評估和選擇的成本效率降低，需要發(fā)展高效的代理模型，同時重新思考傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)，如優(yōu)化技巧和降維方法。

項目主頁：
https://github.com/yuleiqin/fantastic-data-engineering
論文地址：
https://arxiv.org/abs/2408.02085

— 完 —

量子位 QbitAI · 頭條號簽約

關(guān)注我們，第一時間獲知前沿科技動態(tài)

操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

6顆攝像頭加持，10年前的手機(jī)就這么卷了？

高度定制化的FireOS：精致，但并不好用

Fire Phone為何不能復(fù)刻Kindle的成功？

全方位評估指令調(diào)優(yōu)數(shù)據(jù)集

質(zhì)量評估與選擇

多樣性評估與選擇

重要性評估與選擇

現(xiàn)有挑戰(zhàn)和未來方向