操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    者使用DALL-E3生成

    蘋果再次發(fā)布了兩篇人工智能研究論文,其中包含了對(duì)他們關(guān)于生成式人工智能戰(zhàn)略的重要見解。

    毫無(wú)疑問(wèn),在蘋果產(chǎn)品中,迫切需要升級(jí)的其中之一就是Siri,它糟糕透頂?shù)恼Z(yǔ)音助手。

    令人驚訝的是,ChatGPT發(fā)布一年多之后,Siri仍然像往常一樣遲鈍和有限,幾乎感覺像是史前時(shí)代的產(chǎn)物。

    但是,有了蘋果的ReALM和Ferret-UI模型,我們現(xiàn)在對(duì)Siri的未來(lái)有了更清晰的認(rèn)識(shí),而且非常有希望。

    一個(gè)期待已久的問(wèn)題有待解決

    在人工智能競(jìng)賽的這個(gè)階段,許多人可能會(huì)想:“為什么蘋果沒(méi)有更新它的語(yǔ)音助手Siri?”

    當(dāng)然,他們有許多原因,因?yàn)橄窆雀柽@樣的公司已經(jīng)用大型語(yǔ)言模型(LLM)Gemini替換了他們的助手。

    但與谷歌不同,蘋果在不確定自己的產(chǎn)品是否優(yōu)秀的情況下很少會(huì)進(jìn)行大規(guī)模發(fā)布。

    問(wèn)題在于,實(shí)際上,今天大多數(shù)LLM,即使是我們最好的LLM,都是糟糕的語(yǔ)音助手,原因有兩個(gè):數(shù)據(jù)和大小。

    缺失的數(shù)據(jù)

    在人工智能領(lǐng)域,數(shù)據(jù) >>> 架構(gòu)。

    無(wú)論你的體系結(jié)構(gòu)設(shè)計(jì)有多好,如果沒(méi)有合適的數(shù)據(jù)來(lái)完成任務(wù),模型都會(huì)失敗。作為語(yǔ)音助手的關(guān)鍵組成部分,參考分辨率數(shù)據(jù)可能是最差的。

    但是什么是參考解析?

    引用解析涉及到在考慮各種類型的上下文的情況下,確定語(yǔ)言中模糊引用所指向的特定實(shí)體或項(xiàng)目的過(guò)程。

    例如,在下面的圖片中,用戶要求語(yǔ)音助手顯示附近的藥店。一旦代理助手顯示列表,用戶可能會(huì)間接地引用列表中的元素(如下面顯示的三個(gè)示例),這需要代理能夠從非常模糊的框架中識(shí)別引用。

    來(lái)源:蘋果公司

    如果你仔細(xì)想想,你與Siri或任何其他語(yǔ)音助手的大多數(shù)互動(dòng)都是這樣構(gòu)建的,你希望助手能夠檢測(cè)到這些關(guān)系。

    但你也可以讓Siri的情況變得更加困難,例如“你能把音量調(diào)低嗎?”這可能是指你的iPhone揚(yáng)聲器…或者房間的揚(yáng)聲器,也碰巧連接到了代理。

    而且Siri還必須處理另一個(gè)問(wèn)題:屏幕上的引用,這意味著它不僅必須處理文本引用,還必須處理視覺引用。

    總的來(lái)說(shuō),盡管我們目前最好的模型應(yīng)該能夠完成所有這些,但它們?nèi)狈︶槍?duì)此任務(wù)進(jìn)行優(yōu)化的數(shù)據(jù),表現(xiàn)非常糟糕。

    但情況變得更糟。

    小硬件需要小模型

    如果你要在LLM上運(yùn)行Siri,你需要它非常非常小。

    由于Transformer的權(quán)重文件(存儲(chǔ)其信息的地方)必須在RAM中,即使是最高級(jí)的智能手機(jī)也無(wú)法運(yùn)行中等大小的模型,因?yàn)槟壳爸悄苁謾C(jī)提供的最大RAM約為24GB。

    這意味著你最多只能運(yùn)行一個(gè)大小為10GB的LLM,這是非常樂(lè)觀的。

    如果你想在電腦上本地嘗試一個(gè)LLM(我顯然是在指稱像LLaMa這樣的開放權(quán)重模型),最簡(jiǎn)單的方法是進(jìn)入HuggingFace并搜索你想要的模型的“文件和版本”選項(xiàng)卡,查找一個(gè)“.bin”或“.safetensor”文件。這就是權(quán)重文件。

    因此,你需要運(yùn)行模型所需的RAM大約將等于該文件的重量加上大約20%的額外RAM,以應(yīng)對(duì)KV緩存,盡管對(duì)于極長(zhǎng)的序列,后者可能會(huì)急劇上升,這在今天的智能手機(jī)等消費(fèi)者端硬件中顯然不是一個(gè)選擇。

    Mistral 最后一個(gè) MoE 模型 Mixtral-8x22B 的權(quán)重文件(底部)

    那么,蘋果是如何克服這些問(wèn)題的呢?

    有目的創(chuàng)建數(shù)據(jù)和專門的模型

    考慮到對(duì)于這一高度特定任務(wù)而言數(shù)據(jù)和臨時(shí)模型的迫切需求,蘋果正是這樣做的。

    他們訓(xùn)練了兩個(gè)模型:

    • ReALM:基于大型語(yǔ)言模型的專家級(jí)參考解析模型
    • Ferret-UI:一種多模式LLM,專門用于屏幕數(shù)據(jù)的基礎(chǔ)和引用任務(wù)

    ReALM,征服參考分辨率

    蘋果通過(guò)以下方式訓(xùn)練了ReALM:

    1. 創(chuàng)建多樣化數(shù)據(jù)集,其中包含對(duì)話、合成場(chǎng)景和實(shí)際屏幕內(nèi)容。
    2. 通過(guò)教導(dǎo)大型語(yǔ)言模型(FLAN-T5)理解這些示例。他們將所有不同的實(shí)體和情景轉(zhuǎn)換成了模型可以學(xué)習(xí)的文本格式。
    3. 創(chuàng)新了一種只用文本描述屏幕上內(nèi)容的方式,使模型可以“可視化”屏幕布局和實(shí)體,就像它真的看到了它們一樣,幫助它確定“頂部”或“左側(cè)”等引用的含義。

    其結(jié)果如何呢?

    有趣的是,ReALM的性能與GPT-4相比具有令人印象深刻的競(jìng)爭(zhēng)力,盡管它是一個(gè)更輕的模型,在針對(duì)合成、屏幕、對(duì)話和零樣本數(shù)據(jù)的多個(gè)數(shù)據(jù)集測(cè)量參考分辨率時(shí),參數(shù)少了幾個(gè)數(shù)量級(jí)。

    來(lái)源:蘋果公司

    作為參考,假設(shè)GPT-4的大小約為傳言中的1.7萬(wàn)億個(gè)參數(shù),而ReALM的最大模型大小為30億個(gè)參數(shù),盡管大小相差500倍,但ReALM仍然與GPT-4競(jìng)爭(zhēng)。

    然而,盡管 ReALM 取得了令人鼓舞的結(jié)果,但Siri的未來(lái)顯然是他們最新的多模式LLM——Ferret-UI。

    Ferret-UI,

    或者我們現(xiàn)在應(yīng)該稱它為Siri嗎?

    上周,蘋果宣布了一個(gè)專注于屏幕檢測(cè)的多模式LLM,名為Ferret-UI。如下所示,該模型可以將iPhone和Android的屏幕理解為任何所需的粒度。

    重要的是,與ReALM不同,后者與GPT-4競(jìng)爭(zhēng),F(xiàn)erret-UI完全超越了在屏幕任務(wù)中的任何其他MLLM,包括GPT-4V。

    令人印象深刻,但Ferret-UI是如何工作的呢?

    來(lái)源:蘋果公司

    Ferret-UI與我在一月份介紹過(guò)的Ferret模型非常相似,只是添加了一些細(xì)微差別:

    • 圖像編碼器捕獲要處理的屏幕數(shù)據(jù)
    • 文本嵌入器將用戶的請(qǐng)求轉(zhuǎn)換為詞嵌入,這是LLM處理它們所需的轉(zhuǎn)換。
    • 將Ferret與其他MLLM區(qū)分開的一個(gè)關(guān)鍵組成部分是視覺采樣器。如果用戶在特定對(duì)象周圍繪制引用,或者詢問(wèn)特定位置的對(duì)象,這個(gè)元素會(huì)接受用戶提供的框、點(diǎn)或自由形式的草圖,并處理內(nèi)部對(duì)象,識(shí)別它是什么以及它的作用,例如下面來(lái)自原始Ferret論文的例子:

    來(lái)源:https://arxiv.org/pdf/2310.07704

    • 一個(gè)LLM,它接受所有前面組件的輸入并生成響應(yīng)。

    然而,正如前面提到的,F(xiàn)erret-UI添加了一個(gè)額外的功能:它能夠處理任何分辨率。

    有些問(wèn)題需要回答的對(duì)象在屏幕上只占很小一部分,而且大小和分辨率也可能差異很大,所以Ferret-UI除了全局屏幕圖像外,還處理了屏幕的一部分子圖像(如上所示)

    簡(jiǎn)單來(lái)說(shuō),該模型不僅能夠理解全局屏幕,還能理解其不同的部分。如果我們回想一下之前的例子,F(xiàn)erret捕捉到了三件事:

    • 全局屏幕指的是提醒應(yīng)用
    • 屏幕的頂部部分允許你打開應(yīng)用程序,顯示它的評(píng)論,如何分享它等等
    • 屏幕的底部顯示應(yīng)用程序的屏幕截圖等內(nèi)容

    這種子圖像處理效果很好,以至于蘋果的研究人員聲稱,即使只占全屏幕的0.1%的對(duì)象和引用也能被該模型檢測(cè)到。

    因此,即使問(wèn)題涉及小對(duì)象,各種子圖像中的一個(gè)也應(yīng)該能夠充分捕捉到它們。

    總的來(lái)說(shuō),F(xiàn)erret-UI是一種最先進(jìn)的MLLM,可以識(shí)別并回答屏幕上任何單個(gè)對(duì)象的問(wèn)題,這是Siri必須完成的任務(wù)。

    但是這兩個(gè)版本,ReALM和Ferret-UI,純屬巧合嗎?當(dāng)然不是。因此,它們是如何協(xié)同作用的,Siri又能在其中發(fā)揮什么作用呢?

    Siri的未來(lái)有目共睹

    毫無(wú)疑問(wèn),Siri的升級(jí)將是兩者的結(jié)合。

    最有可能的情況是以Ferret-UI為基礎(chǔ),他們將利用他們收集和驗(yàn)證的參考數(shù)據(jù),通過(guò)ReALM進(jìn)行微調(diào),創(chuàng)建一個(gè)能夠完美理解模糊或微妙引用的模型,同時(shí)能夠解釋屏幕上呈現(xiàn)的每個(gè)對(duì)象和命令。

    話雖如此,我預(yù)計(jì)在升級(jí)之前會(huì)有此架構(gòu)的更新版本,原因有兩個(gè):

    1. 他們使用了GPT-4生成數(shù)據(jù),這意味著他們不能商業(yè)化使用Ferret-UI,因?yàn)槟菢訒?huì)違反OpenAI的條款和條件。
    2. Ferret-UI的大小仍然至少為70億個(gè)參數(shù),所以除非他們考慮將LLMs存儲(chǔ)在閃存中,否則他們將需要它變得更小。

    在通常的混合精度或每個(gè)參數(shù)2字節(jié)的情況下,一個(gè)70億參數(shù)的模型占據(jù)14GB的RAM,而這還沒(méi)有考慮KV緩存。

    然而,就在本周,蘋果已經(jīng)確認(rèn)iOS的改進(jìn)將“在設(shè)備上”進(jìn)行。換句話說(shuō),如果他們真的在考慮使用MLLM來(lái)增強(qiáng)iPhone,我可以向你保證他們確實(shí)在考慮,他們幾個(gè)月前發(fā)布的一項(xiàng)關(guān)于蘋果對(duì)Flash LLM的研究將一如既往地突出。

    與大多數(shù)當(dāng)前需要存儲(chǔ)在智能手機(jī)RAM中的LLMs不同,F(xiàn)lash LLMs存儲(chǔ)在閃存中(閃存大一個(gè)數(shù)量級(jí),但訪問(wèn)速度慢得多),而專門的預(yù)測(cè)器會(huì)將預(yù)測(cè)所需的內(nèi)存部分加載到RAM中。在前述研究中,他們通過(guò)這種技巧成功地將模型的大小增加了兩倍。

    蘋果開始獲得關(guān)注

    總的來(lái)說(shuō),隨著每一次新的發(fā)布,蘋果的GenAI戰(zhàn)略都變得日益清晰:

    正在構(gòu)建的一切都集中在iPhone的下一次重大更新iOS 18上。

    與其他大型科技公司試圖創(chuàng)建下一個(gè)大的AI飛躍不同,蘋果似乎致力于選擇由競(jìng)爭(zhēng)對(duì)手留下的唾手可得的果實(shí),并試圖朝相反的方向創(chuàng)新:

    與其讓人工智能變得更大更好,不如讓它更小但更高效,這對(duì)消費(fèi)者端用例至關(guān)重要,而消費(fèi)者端用例是蘋果商業(yè)模式的精髓。

    初代 iPhone 問(wèn)世以來(lái),許多人都疑惑于蘋果為何一開始就明確表達(dá)了反對(duì) Adobe Flash 的立場(chǎng)。不過(guò)前 iOS 開發(fā)主管 Scott Forstall 卻在 Epic 與蘋果訴訟案件中的錄音中透露,該公司還是曾經(jīng)考慮過(guò)在 iOS 操作系統(tǒng)的底層建立無(wú)所不包的軟件支持。至于最終未能讓 Adobe Flash 在 iOS 上運(yùn)行的原因,還是因?yàn)楹笳叩男阅芴^(guò)拉胯。

    (圖 via 9to5Mac)

    雖然 Forstall 未透露確切的時(shí)間節(jié)點(diǎn),但他還是提到了蘋果曾試圖與 Adobe 達(dá)成相關(guān)合作,以讓 Flash 在 iOS 上運(yùn)行,只是最終未能如愿。

    我們?cè)噲D讓 Flash 正常工作,并且向 Adobe 提供了一定的幫助。我們確實(shí)對(duì)此很感興趣,如果能夠?qū)崿F(xiàn)這一點(diǎn),顯然是再好不過(guò)的。但可惜,相關(guān)工作最終未能如愿。

    據(jù)悉,早在 2010 年,蘋果聯(lián)合創(chuàng)始人史蒂夫·喬布斯就曾發(fā)表過(guò)猛烈抨擊 Adobe Flash 的觀點(diǎn)(Thoughts on Flash),稱之未能順應(yīng)時(shí)代的發(fā)展。

    此時(shí)距離預(yù)裝 iPhoneOS 的蘋果初代智能機(jī)發(fā)布已過(guò)去三年,且蘋果在當(dāng)年采用了當(dāng)前被廣大用戶所熟知的 iOS 品牌。

    Apple Insider 推測(cè),F(xiàn)orstall 提到的這項(xiàng)合作,很可能發(fā)生在 iPhone OS 誕生之后、以及在 iOS 正式到來(lái)之前的這段時(shí)間。

    果公司在 Safari 技術(shù)預(yù)覽版 99 隨附的一組發(fā)行說(shuō)明中宣布 Flash 即將在 Safari 上淘汰。除了對(duì) WebKit 代碼和資產(chǎn)的大量增強(qiáng)之外,在「舊版插件」下還提到了一個(gè)棄用項(xiàng),簡(jiǎn)要地指出「已刪除對(duì) Adobe Flash 的支持」。

    Safari 技術(shù)預(yù)覽版于 2016 年面向開發(fā)人員推出,作為 Safari 的獨(dú)立測(cè)試版,它上面的 Web 技術(shù)最終會(huì) iOS 和 macOS 中實(shí)現(xiàn),也就意味著下一版本的 Mac 版 Safari 將正式放棄對(duì) Adobe Flash 的支持,用戶將不能再在 Safari 瀏覽器中安裝或使用 Adobe Flash。

    鑒于多數(shù)主流瀏覽器已不再使用該格式,因而取消支持 Flash 不會(huì)對(duì)用戶產(chǎn)生重大影響。

    Flash 曾經(jīng)是互聯(lián)網(wǎng)分發(fā)富媒體的普遍標(biāo)準(zhǔn),現(xiàn)在被視為過(guò)時(shí)且不適用于移動(dòng)優(yōu)先世界。繼蘋果,谷歌和其他瀏覽器制造商的競(jìng)爭(zhēng)加劇和壓制之后,2017 年 7 月,Adobe 宣布終止 Flash 瀏覽器插件的計(jì)劃。Adobe 表示,將在 2020 年底停止該軟件的開發(fā)和發(fā)布,并鼓勵(lì)內(nèi)容創(chuàng)建者將 Flash 內(nèi)容遷移到 HTML5、WebGL 和 WebAssembly 格式。

    對(duì)于 iOS 設(shè)備用戶而言,F(xiàn)lash 的終結(jié)不會(huì)帶來(lái)任何影響,因?yàn)?iOS 平臺(tái)從未支持 Flash。而蘋果的桌面操作系統(tǒng)自 macOS Sierra 之后,就給 Safari 附加了默認(rèn) Flash 禁用功能,由用戶根據(jù)情況手動(dòng)激活。

網(wǎng)站首頁(yè)   |    關(guān)于我們   |    公司新聞   |    產(chǎn)品方案   |    用戶案例   |    售后服務(wù)   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區(qū)    電話:010-     郵箱:@126.com

備案號(hào):冀ICP備2024067069號(hào)-3 北京科技有限公司版權(quán)所有