者使用DALL-E3生成
蘋果再次發(fā)布了兩篇人工智能研究論文,其中包含了對(duì)他們關(guān)于生成式人工智能戰(zhàn)略的重要見解。
毫無(wú)疑問(wèn),在蘋果產(chǎn)品中,迫切需要升級(jí)的其中之一就是Siri,它糟糕透頂?shù)恼Z(yǔ)音助手。
令人驚訝的是,ChatGPT發(fā)布一年多之后,Siri仍然像往常一樣遲鈍和有限,幾乎感覺像是史前時(shí)代的產(chǎn)物。
但是,有了蘋果的ReALM和Ferret-UI模型,我們現(xiàn)在對(duì)Siri的未來(lái)有了更清晰的認(rèn)識(shí),而且非常有希望。
一個(gè)期待已久的問(wèn)題有待解決
在人工智能競(jìng)賽的這個(gè)階段,許多人可能會(huì)想:“為什么蘋果沒(méi)有更新它的語(yǔ)音助手Siri?”
當(dāng)然,他們有許多原因,因?yàn)橄窆雀柽@樣的公司已經(jīng)用大型語(yǔ)言模型(LLM)Gemini替換了他們的助手。
但與谷歌不同,蘋果在不確定自己的產(chǎn)品是否優(yōu)秀的情況下很少會(huì)進(jìn)行大規(guī)模發(fā)布。
問(wèn)題在于,實(shí)際上,今天大多數(shù)LLM,即使是我們最好的LLM,都是糟糕的語(yǔ)音助手,原因有兩個(gè):數(shù)據(jù)和大小。
缺失的數(shù)據(jù)
在人工智能領(lǐng)域,數(shù)據(jù) >>> 架構(gòu)。
無(wú)論你的體系結(jié)構(gòu)設(shè)計(jì)有多好,如果沒(méi)有合適的數(shù)據(jù)來(lái)完成任務(wù),模型都會(huì)失敗。作為語(yǔ)音助手的關(guān)鍵組成部分,參考分辨率數(shù)據(jù)可能是最差的。
但是什么是參考解析?
引用解析涉及到在考慮各種類型的上下文的情況下,確定語(yǔ)言中模糊引用所指向的特定實(shí)體或項(xiàng)目的過(guò)程。
例如,在下面的圖片中,用戶要求語(yǔ)音助手顯示附近的藥店。一旦代理助手顯示列表,用戶可能會(huì)間接地引用列表中的元素(如下面顯示的三個(gè)示例),這需要代理能夠從非常模糊的框架中識(shí)別引用。
來(lái)源:蘋果公司
如果你仔細(xì)想想,你與Siri或任何其他語(yǔ)音助手的大多數(shù)互動(dòng)都是這樣構(gòu)建的,你希望助手能夠檢測(cè)到這些關(guān)系。
但你也可以讓Siri的情況變得更加困難,例如“你能把音量調(diào)低嗎?”這可能是指你的iPhone揚(yáng)聲器…或者房間的揚(yáng)聲器,也碰巧連接到了代理。
而且Siri還必須處理另一個(gè)問(wèn)題:屏幕上的引用,這意味著它不僅必須處理文本引用,還必須處理視覺引用。
總的來(lái)說(shuō),盡管我們目前最好的模型應(yīng)該能夠完成所有這些,但它們?nèi)狈︶槍?duì)此任務(wù)進(jìn)行優(yōu)化的數(shù)據(jù),表現(xiàn)非常糟糕。
但情況變得更糟。
小硬件需要小模型
如果你要在LLM上運(yùn)行Siri,你需要它非常非常小。
由于Transformer的權(quán)重文件(存儲(chǔ)其信息的地方)必須在RAM中,即使是最高級(jí)的智能手機(jī)也無(wú)法運(yùn)行中等大小的模型,因?yàn)槟壳爸悄苁謾C(jī)提供的最大RAM約為24GB。
這意味著你最多只能運(yùn)行一個(gè)大小為10GB的LLM,這是非常樂(lè)觀的。
如果你想在電腦上本地嘗試一個(gè)LLM(我顯然是在指稱像LLaMa這樣的開放權(quán)重模型),最簡(jiǎn)單的方法是進(jìn)入HuggingFace并搜索你想要的模型的“文件和版本”選項(xiàng)卡,查找一個(gè)“.bin”或“.safetensor”文件。這就是權(quán)重文件。
因此,你需要運(yùn)行模型所需的RAM大約將等于該文件的重量加上大約20%的額外RAM,以應(yīng)對(duì)KV緩存,盡管對(duì)于極長(zhǎng)的序列,后者可能會(huì)急劇上升,這在今天的智能手機(jī)等消費(fèi)者端硬件中顯然不是一個(gè)選擇。
Mistral 最后一個(gè) MoE 模型 Mixtral-8x22B 的權(quán)重文件(底部)
那么,蘋果是如何克服這些問(wèn)題的呢?
有目的創(chuàng)建數(shù)據(jù)和專門的模型
考慮到對(duì)于這一高度特定任務(wù)而言數(shù)據(jù)和臨時(shí)模型的迫切需求,蘋果正是這樣做的。
他們訓(xùn)練了兩個(gè)模型:
ReALM,征服參考分辨率
蘋果通過(guò)以下方式訓(xùn)練了ReALM:
其結(jié)果如何呢?
有趣的是,ReALM的性能與GPT-4相比具有令人印象深刻的競(jìng)爭(zhēng)力,盡管它是一個(gè)更輕的模型,在針對(duì)合成、屏幕、對(duì)話和零樣本數(shù)據(jù)的多個(gè)數(shù)據(jù)集測(cè)量參考分辨率時(shí),參數(shù)少了幾個(gè)數(shù)量級(jí)。
來(lái)源:蘋果公司
作為參考,假設(shè)GPT-4的大小約為傳言中的1.7萬(wàn)億個(gè)參數(shù),而ReALM的最大模型大小為30億個(gè)參數(shù),盡管大小相差500倍,但ReALM仍然與GPT-4競(jìng)爭(zhēng)。
然而,盡管 ReALM 取得了令人鼓舞的結(jié)果,但Siri的未來(lái)顯然是他們最新的多模式LLM——Ferret-UI。
Ferret-UI,
或者我們現(xiàn)在應(yīng)該稱它為Siri嗎?
上周,蘋果宣布了一個(gè)專注于屏幕檢測(cè)的多模式LLM,名為Ferret-UI。如下所示,該模型可以將iPhone和Android的屏幕理解為任何所需的粒度。
重要的是,與ReALM不同,后者與GPT-4競(jìng)爭(zhēng),F(xiàn)erret-UI完全超越了在屏幕任務(wù)中的任何其他MLLM,包括GPT-4V。
令人印象深刻,但Ferret-UI是如何工作的呢?
來(lái)源:蘋果公司
Ferret-UI與我在一月份介紹過(guò)的Ferret模型非常相似,只是添加了一些細(xì)微差別:
來(lái)源:https://arxiv.org/pdf/2310.07704
然而,正如前面提到的,F(xiàn)erret-UI添加了一個(gè)額外的功能:它能夠處理任何分辨率。
有些問(wèn)題需要回答的對(duì)象在屏幕上只占很小一部分,而且大小和分辨率也可能差異很大,所以Ferret-UI除了全局屏幕圖像外,還處理了屏幕的一部分子圖像(如上所示)。
簡(jiǎn)單來(lái)說(shuō),該模型不僅能夠理解全局屏幕,還能理解其不同的部分。如果我們回想一下之前的例子,F(xiàn)erret捕捉到了三件事:
這種子圖像處理效果很好,以至于蘋果的研究人員聲稱,即使只占全屏幕的0.1%的對(duì)象和引用也能被該模型檢測(cè)到。
因此,即使問(wèn)題涉及小對(duì)象,各種子圖像中的一個(gè)也應(yīng)該能夠充分捕捉到它們。
總的來(lái)說(shuō),F(xiàn)erret-UI是一種最先進(jìn)的MLLM,可以識(shí)別并回答屏幕上任何單個(gè)對(duì)象的問(wèn)題,這是Siri必須完成的任務(wù)。
但是這兩個(gè)版本,ReALM和Ferret-UI,純屬巧合嗎?當(dāng)然不是。因此,它們是如何協(xié)同作用的,Siri又能在其中發(fā)揮什么作用呢?
Siri的未來(lái)有目共睹
毫無(wú)疑問(wèn),Siri的升級(jí)將是兩者的結(jié)合。
最有可能的情況是以Ferret-UI為基礎(chǔ),他們將利用他們收集和驗(yàn)證的參考數(shù)據(jù),通過(guò)ReALM進(jìn)行微調(diào),創(chuàng)建一個(gè)能夠完美理解模糊或微妙引用的模型,同時(shí)能夠解釋屏幕上呈現(xiàn)的每個(gè)對(duì)象和命令。
話雖如此,我預(yù)計(jì)在升級(jí)之前會(huì)有此架構(gòu)的更新版本,原因有兩個(gè):
在通常的混合精度或每個(gè)參數(shù)2字節(jié)的情況下,一個(gè)70億參數(shù)的模型占據(jù)14GB的RAM,而這還沒(méi)有考慮KV緩存。
然而,就在本周,蘋果已經(jīng)確認(rèn)iOS的改進(jìn)將“在設(shè)備上”進(jìn)行。換句話說(shuō),如果他們真的在考慮使用MLLM來(lái)增強(qiáng)iPhone,我可以向你保證他們確實(shí)在考慮,他們幾個(gè)月前發(fā)布的一項(xiàng)關(guān)于蘋果對(duì)Flash LLM的研究將一如既往地突出。
與大多數(shù)當(dāng)前需要存儲(chǔ)在智能手機(jī)RAM中的LLMs不同,F(xiàn)lash LLMs存儲(chǔ)在閃存中(閃存大一個(gè)數(shù)量級(jí),但訪問(wèn)速度慢得多),而專門的預(yù)測(cè)器會(huì)將預(yù)測(cè)所需的內(nèi)存部分加載到RAM中。在前述研究中,他們通過(guò)這種技巧成功地將模型的大小增加了兩倍。
蘋果開始獲得關(guān)注
總的來(lái)說(shuō),隨著每一次新的發(fā)布,蘋果的GenAI戰(zhàn)略都變得日益清晰:
正在構(gòu)建的一切都集中在iPhone的下一次重大更新iOS 18上。
與其他大型科技公司試圖創(chuàng)建下一個(gè)大的AI飛躍不同,蘋果似乎致力于選擇由競(jìng)爭(zhēng)對(duì)手留下的唾手可得的果實(shí),并試圖朝相反的方向創(chuàng)新:
與其讓人工智能變得更大更好,不如讓它更小但更高效,這對(duì)消費(fèi)者端用例至關(guān)重要,而消費(fèi)者端用例是蘋果商業(yè)模式的精髓。
初代 iPhone 問(wèn)世以來(lái),許多人都疑惑于蘋果為何一開始就明確表達(dá)了反對(duì) Adobe Flash 的立場(chǎng)。不過(guò)前 iOS 開發(fā)主管 Scott Forstall 卻在 Epic 與蘋果訴訟案件中的錄音中透露,該公司還是曾經(jīng)考慮過(guò)在 iOS 操作系統(tǒng)的底層建立無(wú)所不包的軟件支持。至于最終未能讓 Adobe Flash 在 iOS 上運(yùn)行的原因,還是因?yàn)楹笳叩男阅芴^(guò)拉胯。
(圖 via 9to5Mac)
雖然 Forstall 未透露確切的時(shí)間節(jié)點(diǎn),但他還是提到了蘋果曾試圖與 Adobe 達(dá)成相關(guān)合作,以讓 Flash 在 iOS 上運(yùn)行,只是最終未能如愿。
我們?cè)噲D讓 Flash 正常工作,并且向 Adobe 提供了一定的幫助。我們確實(shí)對(duì)此很感興趣,如果能夠?qū)崿F(xiàn)這一點(diǎn),顯然是再好不過(guò)的。但可惜,相關(guān)工作最終未能如愿。
據(jù)悉,早在 2010 年,蘋果聯(lián)合創(chuàng)始人史蒂夫·喬布斯就曾發(fā)表過(guò)猛烈抨擊 Adobe Flash 的觀點(diǎn)(Thoughts on Flash),稱之未能順應(yīng)時(shí)代的發(fā)展。
此時(shí)距離預(yù)裝 iPhoneOS 的蘋果初代智能機(jī)發(fā)布已過(guò)去三年,且蘋果在當(dāng)年采用了當(dāng)前被廣大用戶所熟知的 iOS 品牌。
Apple Insider 推測(cè),F(xiàn)orstall 提到的這項(xiàng)合作,很可能發(fā)生在 iPhone OS 誕生之后、以及在 iOS 正式到來(lái)之前的這段時(shí)間。
果公司在 Safari 技術(shù)預(yù)覽版 99 隨附的一組發(fā)行說(shuō)明中宣布 Flash 即將在 Safari 上淘汰。除了對(duì) WebKit 代碼和資產(chǎn)的大量增強(qiáng)之外,在「舊版插件」下還提到了一個(gè)棄用項(xiàng),簡(jiǎn)要地指出「已刪除對(duì) Adobe Flash 的支持」。
Safari 技術(shù)預(yù)覽版于 2016 年面向開發(fā)人員推出,作為 Safari 的獨(dú)立測(cè)試版,它上面的 Web 技術(shù)最終會(huì) iOS 和 macOS 中實(shí)現(xiàn),也就意味著下一版本的 Mac 版 Safari 將正式放棄對(duì) Adobe Flash 的支持,用戶將不能再在 Safari 瀏覽器中安裝或使用 Adobe Flash。
鑒于多數(shù)主流瀏覽器已不再使用該格式,因而取消支持 Flash 不會(huì)對(duì)用戶產(chǎn)生重大影響。
Flash 曾經(jīng)是互聯(lián)網(wǎng)分發(fā)富媒體的普遍標(biāo)準(zhǔn),現(xiàn)在被視為過(guò)時(shí)且不適用于移動(dòng)優(yōu)先世界。繼蘋果,谷歌和其他瀏覽器制造商的競(jìng)爭(zhēng)加劇和壓制之后,2017 年 7 月,Adobe 宣布終止 Flash 瀏覽器插件的計(jì)劃。Adobe 表示,將在 2020 年底停止該軟件的開發(fā)和發(fā)布,并鼓勵(lì)內(nèi)容創(chuàng)建者將 Flash 內(nèi)容遷移到 HTML5、WebGL 和 WebAssembly 格式。
對(duì)于 iOS 設(shè)備用戶而言,F(xiàn)lash 的終結(jié)不會(huì)帶來(lái)任何影響,因?yàn)?iOS 平臺(tái)從未支持 Flash。而蘋果的桌面操作系統(tǒng)自 macOS Sierra 之后,就給 Safari 附加了默認(rèn) Flash 禁用功能,由用戶根據(jù)情況手動(dòng)激活。