報(bào)告出品方/作者:東吳證券,王紫敬、王世杰)
鯤鵬計(jì)算產(chǎn)業(yè)是基于 Kunpeng 處理器構(gòu)建的全棧 IT 基礎(chǔ)設(shè)施、行業(yè)應(yīng)用及服務(wù)生 態(tài)。產(chǎn)業(yè)生態(tài)包括 PC、服務(wù)器、存儲(chǔ)、操作系統(tǒng)、中間件、虛擬化、數(shù)據(jù)庫(kù)、云服務(wù)、 行業(yè)應(yīng)用以及咨詢管理服務(wù)等。鯤鵬通用計(jì)算平臺(tái)提供基于鯤鵬處理器的 TaiShan 服務(wù) 器、鯤鵬主板及開(kāi)發(fā)套件。硬件廠商可以基于鯤鵬主板發(fā)展自有品牌的產(chǎn)品和解決方案; 軟件廠商基于 openEuler 開(kāi)源 OS 以及配套的數(shù)據(jù)庫(kù)、中間件等平臺(tái)軟件發(fā)展應(yīng)用軟件 和服務(wù);鯤鵬開(kāi)發(fā)套件可幫助開(kāi)發(fā)者加速應(yīng)用遷移和算力升級(jí)。生態(tài)伙伴按照所處產(chǎn)業(yè) 鏈環(huán)節(jié)不同可以分為整機(jī)伙伴、一體機(jī)解決方案伙伴、基礎(chǔ)軟件(OS、數(shù)據(jù)庫(kù)、云平臺(tái)、 大數(shù)據(jù)平臺(tái)、分布式存儲(chǔ)和中間件)伙伴等。
分三階段實(shí)現(xiàn)構(gòu)建全行業(yè)、全場(chǎng)景鯤鵬計(jì)算產(chǎn)業(yè)目標(biāo)。第一階段:通過(guò)在政務(wù)、電 信、金融和互聯(lián)網(wǎng)等行業(yè)選取典型場(chǎng)景進(jìn)行產(chǎn)業(yè)使能、孵化和試點(diǎn),通過(guò)試點(diǎn)建立產(chǎn)業(yè) 界上下游廠家和用戶的信心。第二階段:面向政務(wù)、電信、互聯(lián)網(wǎng)、廣電、金融證券、 電力、能源、交通等行業(yè)全面打通產(chǎn)業(yè)體系,為行業(yè)數(shù)字化業(yè)務(wù)創(chuàng)新提供基礎(chǔ)。第三階 段:面向全行業(yè)、全場(chǎng)景,打通產(chǎn)業(yè)鏈,構(gòu)筑基于 Kunpeng 處理器的產(chǎn)業(yè)體系。
構(gòu)建生態(tài),讓利伙伴。鯤鵬秉持“硬件開(kāi)放、軟件開(kāi)源、使能伙伴、發(fā)展人才”策 略,旨在通過(guò)構(gòu)建強(qiáng)大的生態(tài)體系,應(yīng)對(duì)西方的技術(shù)封鎖。華為正在讓利給自己的生態(tài) 伙伴,幫助其成長(zhǎng)起來(lái),例如華為建立 openEuler 和 openGauss 開(kāi)源社區(qū),承諾自己不 發(fā)行商業(yè)版本,只維護(hù)根社區(qū)的發(fā)展,為生態(tài)伙伴賦能。 硬件開(kāi)放,華為利用自己的硬件能力,對(duì)外提供鯤鵬主板、SSD、網(wǎng)卡、模組和板 卡,優(yōu)先支持合作伙伴發(fā)展服務(wù)器和 PC 等計(jì)算產(chǎn)品。 軟件開(kāi)源,華為通過(guò)軟件開(kāi)源的方式,共享在基礎(chǔ)軟件領(lǐng)域的多年積累,使能伙伴 發(fā)行 openEuler 和 openGauss 商業(yè)版,繁榮基礎(chǔ)軟件產(chǎn)業(yè)生態(tài),提升硬件產(chǎn)品的使用體 驗(yàn)和附加值。 使能伙伴,華為提供鯤鵬開(kāi)發(fā)套件與應(yīng)用使能套件,幫助開(kāi)發(fā)者加速原生應(yīng)用開(kāi)發(fā), 使能應(yīng)用極致性能,構(gòu)建競(jìng)爭(zhēng)力領(lǐng)先的行業(yè)解決方案。 發(fā)展人才,華為提供產(chǎn)教融合服務(wù),支持高校基于鯤鵬、歐拉、高斯等計(jì)算產(chǎn)業(yè)根 技術(shù)開(kāi)展教學(xué)改革,建立人才培養(yǎng)新模式,孕育新一代產(chǎn)業(yè)亟需人才。
美國(guó)制裁中國(guó)高端芯片,華為鯤鵬是國(guó)內(nèi)具有極限生存能力的芯片。10 月 7 日,美 國(guó)商務(wù)部工業(yè)和安全局(BIS)公布了一系列更全面的出口管制新規(guī),限制中國(guó)獲得先 進(jìn)計(jì)算芯片、開(kāi)發(fā)和維護(hù)超級(jí)計(jì)算機(jī)以及制造先進(jìn)半導(dǎo)體的能力。我們預(yù)計(jì)華為 28nm 去美化產(chǎn)線有望調(diào)通,鯤鵬將是在美國(guó)制裁下少數(shù)具有流片能力的中國(guó)芯片廠商。
2.1. 鯤鵬芯片是硬件算力底座
華為聚焦 Kunpeng 處理器研發(fā),帶動(dòng)各廠商發(fā)展。華為作為鯤鵬計(jì)算產(chǎn)業(yè)的成員, 聚焦于發(fā)展 Kunpeng 處理器的核心能力,構(gòu)筑 Kunpeng 處理器的業(yè)界領(lǐng)先地位,為產(chǎn) 業(yè)提供算力底座。上下游廠商基于 Kunpeng 處理器發(fā)展自有品牌的產(chǎn)品和解決方案,和 系統(tǒng)軟件及行業(yè)應(yīng)用廠商一起打造有競(jìng)爭(zhēng)力的差異化解決方案。 華為圍繞 Kunpeng 處理器打造了“算、存、傳、管、智”五個(gè)子系統(tǒng)的芯片族。 針對(duì)于 Kunpeng 處理器,華為推出了用于通用計(jì)算、存儲(chǔ)、傳輸、管理和 AI 計(jì)算五大 不同用途的芯片。歷經(jīng) 10 多年,目前已累計(jì)投入超過(guò) 2 萬(wàn)名工程師。在鯤鵬生態(tài)建設(shè) 上,與海內(nèi)外生態(tài)廠家合作,重點(diǎn)投入了操作系統(tǒng)、編譯器、工具鏈、算法優(yōu)化庫(kù)等的 開(kāi)發(fā)和維護(hù),同時(shí)針對(duì)數(shù)據(jù)中心大數(shù)據(jù)、分布式存儲(chǔ)、云原生應(yīng)用等場(chǎng)景,開(kāi)發(fā)基于 Kunpeng 處理器的解決方案產(chǎn)品和參考設(shè)計(jì)。
2.2. 全球 ARM 最強(qiáng)芯片,國(guó)產(chǎn)化突破口
鯤鵬芯片基于 Armv8 架構(gòu)永久授權(quán)。Kunpeng 處理器基于 Armv8 架構(gòu)永久授權(quán), 處理器核、微架構(gòu)和芯片均由華為自主研發(fā)設(shè)計(jì),鯤鵬計(jì)算產(chǎn)業(yè)兼容全球 Arm 生態(tài),二 者共享生態(tài)資源,Arm 的繁榮生態(tài)將賦能鯤鵬,幫助鯤鵬更好地推廣與使用。 ARM 架構(gòu)在高并發(fā)應(yīng)用場(chǎng)景具有比較優(yōu)勢(shì)。ARM 處理器是英國(guó) Acorn 有限公司 設(shè)計(jì)的低功耗成本的第一款 RISC 微處理器,全稱為 Advanced RISC Machine。ARM 芯 片比 Intel x86 芯片具有更高的功率效率,并且功耗更低,性價(jià)比更高。以 ARM 為代表 的 RISC 通用架構(gòu)處理器在場(chǎng)景多樣化計(jì)算時(shí)代具備明顯的優(yōu)勢(shì)。例如在分布式數(shù)據(jù)庫(kù)、 大數(shù)據(jù)、Web 前端等高并發(fā)應(yīng)用場(chǎng)景,單芯片核數(shù)更多的 ARM 架構(gòu)處理器相比傳統(tǒng)處 理器擁有更好的并發(fā)處理效率。 ARM 生態(tài)繁榮。在移動(dòng)設(shè)備領(lǐng)域,ARM 架構(gòu)有著壓倒性的市場(chǎng)和技術(shù)優(yōu)勢(shì),根據(jù)軟銀 2017 年世界大會(huì)的數(shù)據(jù),ARM 在智能手機(jī)、調(diào)制解調(diào)器、車載信息設(shè)備、可穿戴 設(shè)備等領(lǐng)域都占據(jù)統(tǒng)治地位。基于海量的市場(chǎng)空間,目前芯片領(lǐng)域的新工藝、新制程和 新材料都率先在 ARM 架構(gòu)上得以實(shí)現(xiàn)。可以預(yù)見(jiàn)未來(lái) ARM 架構(gòu)的 CPU 在并發(fā)性能、 功耗、集成度等方面都會(huì)長(zhǎng)期保持領(lǐng)先優(yōu)勢(shì)。
ARM 是最活躍的體系架構(gòu)生態(tài)。對(duì)于一些不太活躍的 CPU 架構(gòu),發(fā)行版就慢慢減 少支持,甚至有不再支持的風(fēng)險(xiǎn),由此會(huì)給軟件開(kāi)發(fā)、移植部署等帶來(lái)諸多困難。根據(jù) 《從端到云基于飛騰平臺(tái)的全棧解決方案白皮書(shū)》數(shù)據(jù),Linux 內(nèi)核對(duì)于幾種 CPU 架構(gòu) 的維護(hù)活躍程度(選取較新的穩(wěn)定版 5.3.7 內(nèi)核,分別對(duì)比了六種 CPU 架構(gòu)相關(guān)代碼維 護(hù)活躍程度)和代碼維護(hù)活躍度,由高到底依次為 ARM64(1468 次)、x86(1329 次)、 PowerPC(879 次)、MIPS(310 次)、SPARC(114 次)和 ALPHA(64 次)。
西方也在轉(zhuǎn)向采用 ARM 架構(gòu)。PC 方面,在 Mercury Research 的 2021 年第四季度 PC 統(tǒng)計(jì)中,基于 ARM 處理器的 PC 在所有 PC 總出貨銷量中的占比達(dá)到了 9.5%的新高, 同比增加了 6.1pct,環(huán)比增加 1.2pct。2020 年蘋(píng)果旗下 MacBook 筆記本電腦、Mac 一 體機(jī)和平板電腦配置的 M1 芯片表現(xiàn)出 ARM 架構(gòu)性能的潛力和低能耗優(yōu)勢(shì)。服務(wù)器領(lǐng)域, 華為已經(jīng)于 2019 年推出基于 ARM 架構(gòu)的鯤鵬 920 服務(wù)器芯片,性能對(duì)標(biāo) Intel 至強(qiáng) 8180。英偉達(dá)也在 2020 年推出了基于 ARM 架構(gòu)的 Grace 服務(wù)器芯片。 鯤鵬 920 性能可比 Intel 至強(qiáng)(Xeon)8180,滿足中高端市場(chǎng)需求。華為 2019 年 1 月對(duì)外發(fā)布鯤鵬 920 處理器,是業(yè)界最高性能 ARM-based 處理器,采用國(guó)產(chǎn)芯片唯一、 最先進(jìn)的 7nm 工藝,集成 64 個(gè)核心。在 SPEC 測(cè)試中,48 核的鯤鵬 920 與 Intel 至強(qiáng) 8180 的性能相當(dāng),功耗低 20%,而 64 核的測(cè)試性能要優(yōu)于至強(qiáng) 8180。Intel 至強(qiáng) 8180 是 Intel 于 2017 年 Q3 推出的至強(qiáng)鉑金系列產(chǎn)品,定位于高負(fù)荷的云端計(jì)算。總體來(lái)看, 鯤鵬 920 滿足除互聯(lián)網(wǎng)等高性能要求場(chǎng)景外的中高端市場(chǎng)需求,如金融、電信等行業(yè)信 創(chuàng)需求,與海外一線水平代差在 3 年左右。
鯤鵬 920 芯片取得多項(xiàng)世界第一。2019 年,高性能鯤鵬 920 處理器在 SPECint benchmark 測(cè)試成績(jī)超過(guò) 930 分,位居全球第一,超越業(yè)界主流 CPU 25%。2020 年 11 月 19 日,基于華為鯤鵬 920 架構(gòu)的高性能計(jì)算系統(tǒng)的“鵬城云腦 Ⅱ”在 IO500 測(cè)試 中,分別以 7043.99 分和 1129.75 分同時(shí)獲得全球 IO500 總榜第一名與 10 節(jié)點(diǎn)榜單第一 名。 信創(chuàng)事業(yè)發(fā)展可以更多利用 ARM。隨著中美科技脫鉤,CPU 架構(gòu)也會(huì)成為博弈的焦 點(diǎn)。ARM 架構(gòu)是未來(lái)芯片主流技術(shù)方向,目前芯片領(lǐng)域的新工藝、新制程和新材料都率 先在 ARM 架構(gòu)上得以實(shí)現(xiàn)。可以預(yù)見(jiàn)未來(lái) ARM 架構(gòu)的 CPU 在并發(fā)性能、功耗、集成度、 場(chǎng)景多樣化具備明顯優(yōu)勢(shì)。西方由于原有技術(shù)路徑拖累以及現(xiàn)有利益沖突,較難完全擁 抱 ARM 架構(gòu),中國(guó)從 0 到 1 選擇布局 ARM 架構(gòu),歷史包袱較小,有望借助 ARM 架構(gòu)奪得 CPU 技術(shù)高地。
基礎(chǔ)軟件平臺(tái)是服務(wù)行業(yè)客戶以及做大計(jì)算產(chǎn)業(yè)的“黑土地”。產(chǎn)業(yè)鏈上下游廠商 共同構(gòu)建一個(gè)開(kāi)放、合作、共贏的鯤鵬計(jì)算產(chǎn)業(yè)基礎(chǔ)軟件生態(tài)至關(guān)重要。基礎(chǔ)軟件將有 效的提升華為鯤鵬芯片的出貨量和用戶體驗(yàn)。操作系統(tǒng)和數(shù)據(jù)庫(kù)是基礎(chǔ)軟件中最關(guān)鍵的 兩個(gè)環(huán)節(jié),其中操作系統(tǒng)是所有軟件的基礎(chǔ),是做大鯤鵬計(jì)算產(chǎn)業(yè)的關(guān)鍵,統(tǒng)一的技術(shù) 路線和演進(jìn)節(jié)奏有助于避免生態(tài)分裂,形成合力做大鯤鵬計(jì)算產(chǎn)業(yè);數(shù)據(jù)庫(kù)是信息系統(tǒng) 的核心,先進(jìn)的數(shù)據(jù)庫(kù)技術(shù)可以大大提高數(shù)據(jù)的存儲(chǔ)、計(jì)算效率。 操作系統(tǒng)方面,華為開(kāi)源了服務(wù)器操作系統(tǒng)歐拉。華為宣布將于 2019 年 12 月 31 日開(kāi)源服務(wù)器操作系統(tǒng) openEuler,華為通過(guò)建立 openeuler.org 社區(qū),開(kāi)源 OS 源代碼, 并貢獻(xiàn)經(jīng)過(guò)調(diào)優(yōu)的 Kunpeng 處理器驅(qū)動(dòng)代碼等方式,統(tǒng)一代碼來(lái)源,縮短廠家構(gòu)建基于 openEuler 的發(fā)行版 OS 的開(kāi)發(fā)周期。華為將支持基于 openEuler 的合作伙伴發(fā)行商業(yè)版 操作系統(tǒng),支持各行業(yè)主流應(yīng)用和軟件開(kāi)發(fā)商把軟件和應(yīng)用遷移到基于 openEuler 的操 作系統(tǒng)上,截至 2022 年 11 月,麒麟軟件、統(tǒng)信軟件和中科方德等國(guó)產(chǎn)頭部操作系統(tǒng)廠 商已經(jīng)發(fā)布 openEuler 商用版本。
數(shù)據(jù)庫(kù)方面,華為開(kāi)源了數(shù)據(jù)庫(kù) openGauss。2020 年 7 月 1 日,華為正式宣布開(kāi)源 數(shù)據(jù)庫(kù)能力,開(kāi)放 openGauss 數(shù)據(jù)庫(kù)源代碼,并成立 openGauss 開(kāi)源社區(qū)。openGauss 基 于開(kāi)源數(shù)據(jù)庫(kù),關(guān)鍵內(nèi)核代碼自研,代碼自主率高達(dá) 80%。openGauss 的源代碼、根社 區(qū)放在中國(guó)境內(nèi),獲取方便,安全性高。相比其他國(guó)際主流數(shù)據(jù)庫(kù),openGauss 不受美 國(guó) EAR(出口管制條例)管制,實(shí)現(xiàn)了完全的自主可控,具備獨(dú)立演進(jìn)的能力,是國(guó)內(nèi) 少數(shù)技術(shù)不受制于人,具備極限生存能力的數(shù)據(jù)庫(kù)產(chǎn)品。 openGauss 性能領(lǐng)先。根據(jù)官方公眾號(hào)數(shù)據(jù),截至 2021 年 11 月,openGauss 的性能對(duì)比 MySQL 和 PostgreSQL 均大幅領(lǐng)先,約有高于 1 倍多的性能優(yōu)勢(shì)。openGauss 每年保持迭代兩個(gè)版本,一個(gè)創(chuàng)新版本,一個(gè)長(zhǎng)期版本。2022 年 4 月,華為更新的 openGauss 3.0 版本,單機(jī)鯤鵬 64 核 2P TPCC 滿足 150 萬(wàn) tpmC,單機(jī)鯤鵬 32 核 2P TPCC 達(dá)到 100 萬(wàn) tpmC。
4.1. 供給端:28nm 產(chǎn)線有望突破
我國(guó)半導(dǎo)體流片生產(chǎn)工藝與境外仍有較大差距。例如中芯國(guó)際 14nm 生產(chǎn)工藝正在 成熟,但與國(guó)際最先進(jìn)的 7nm、5nm 工藝仍存在代差,且去美化難度較高。并且中芯國(guó) 際的 14nm 工藝也需要用到大量美國(guó)專利和技術(shù),華為被“卡脖子”,主要就是在先進(jìn)流 片工藝環(huán)節(jié)。 28nm 制程芯片可以滿足大部分領(lǐng)域國(guó)內(nèi)發(fā)展需求。28nm 是芯片領(lǐng)域成熟制程與 先進(jìn)制程的分界點(diǎn),28nm 除了對(duì)功耗、尺寸要求比較苛刻的手機(jī)、電腦芯片,已能滿 足當(dāng)前市場(chǎng)上的大部分需求,像是物聯(lián)網(wǎng)、家電、通信、交通、航空航天等領(lǐng)域的工業(yè) 制造。這意味著一旦完全掌握 28nm 芯片制造技術(shù),我們?cè)诤芏囝I(lǐng)域就能滿足國(guó)內(nèi)發(fā)展 所需。 華為鯤鵬有望成為最先獲得自主流片能力的廠商。早在 2020 年 5 月被美國(guó)無(wú)限追 溯以后,華為鯤鵬就開(kāi)始了獲得自主流片能力的探索,在進(jìn)度上較為超前,同時(shí)華為本 身在半導(dǎo)體領(lǐng)域有深厚的積淀,因此我們預(yù)計(jì)華為鯤鵬可以率先擺脫美國(guó)制裁的影響。
4.2. 需求端:信創(chuàng)產(chǎn)業(yè)放量在即
信創(chuàng)產(chǎn)業(yè)發(fā)展刻不容緩。中美關(guān)系持續(xù)惡化,自 2022 年 8 月以來(lái)美國(guó)先后限制中 國(guó)獲取先進(jìn) EDA、GPU 和高端半導(dǎo)體的能力,中美關(guān)系持續(xù)惡化,中美科技脫鉤已成 必然。年初的俄烏戰(zhàn)爭(zhēng)啟示中國(guó)必須確保 IT 設(shè)施全部環(huán)節(jié)國(guó)產(chǎn)化,無(wú)論是芯片的設(shè)計(jì)、制造、封裝,還是操作系統(tǒng)的自主開(kāi)發(fā)、社區(qū)開(kāi)源,都需要有自主可控的后手準(zhǔn)備。
5.1. 卓易信息
卓易信息是國(guó)內(nèi) BIOS 和 BMC 固件龍頭企業(yè)。公司以云服務(wù)業(yè)務(wù)起家,自 2012 年收 購(gòu)百敖軟件 100%股權(quán)后,即形成了“云服務(wù)+固件”的雙線格局。百敖軟件是國(guó)內(nèi)少數(shù) 同時(shí)掌握 X86、ARM、MIPS 等多架構(gòu) BIOS 技術(shù)及 BMC 固件開(kāi)發(fā)廠商,也是中國(guó)大陸唯 一、全球四家之一取得英特爾授權(quán)的 X86 架構(gòu) BIOS 獨(dú)立供應(yīng)商。 云計(jì)算設(shè)備核心固件業(yè)務(wù)營(yíng)收穩(wěn)步增長(zhǎng),毛利率維持高位。2021 年實(shí)現(xiàn)營(yíng)收 2.37 億元,同比增長(zhǎng) 19.70%;歸母凈利潤(rùn) 0.42 億元,同比下降 27.59%,主要系公司加大研 發(fā)投入以及人力成本上升。云計(jì)算設(shè)備核心固件業(yè)務(wù)收入增長(zhǎng)強(qiáng)健,2017-2021 復(fù)合增 速高達(dá) 43.38%;毛利率水平較高,自 2018 年以來(lái)基本維持在 60%上下。
華為固件技術(shù)服務(wù)最強(qiáng)合作伙伴。2008 年,公司首次與華為開(kāi)展技術(shù)合作開(kāi)發(fā),之 后,陸續(xù)承擔(dān)了華為海思 ARM 和 X86 服務(wù)器芯片的 BIOS 和 BMC 固件開(kāi)發(fā)工作。2022 年 5 月,百敖軟件正式加入歐拉開(kāi)源社區(qū),將聯(lián)合華為共同推進(jìn)開(kāi)源操作系統(tǒng)和計(jì)算平 臺(tái)核心安全 BIOS 固件的兼容適配和融合發(fā)展。 中國(guó)固件市場(chǎng)約為 14 億元,有望受益于華為鯤鵬崛起。根據(jù)公司招股書(shū)數(shù)據(jù),每 臺(tái) X86 服務(wù)器 BIOS 固件及 BMC 固件 200 元,每臺(tái) X86 架構(gòu) PC 的 BIOS 固件 10 元, 我們測(cè)算 2021 年中國(guó)固件市場(chǎng)約 14 億元。卓易信息與華為合作關(guān)系緊密,有望隨著信 創(chuàng)加快推進(jìn),華為鯤鵬出貨量增加而快速提升市場(chǎng)份額。
以 Taishan 服務(wù)器為標(biāo)桿,支持生態(tài)伙伴發(fā)展自有品牌服務(wù)器。鯤鵬計(jì)算產(chǎn)業(yè)在整 機(jī)領(lǐng)域的發(fā)展目標(biāo)是形成多廠家的格局,優(yōu)先支持有意愿有能力的廠家發(fā)展基于 Kunpeng 處理器主板的自有品牌整機(jī)。華為開(kāi)發(fā) TaiShan 服務(wù)器的根本目的是立標(biāo)桿, 使能產(chǎn)業(yè)鏈。條件成熟時(shí),華為將逐步停止 TaiShan 服務(wù)器銷售業(yè)務(wù),轉(zhuǎn)為以主板和部 件等方式全面支持和服務(wù)更多整機(jī)廠商共同發(fā)展。
6.1. 神州數(shù)碼
神州數(shù)碼與華為合作關(guān)系深厚。神州數(shù)碼是華為全球第九大經(jīng)銷商、國(guó)內(nèi)第一大經(jīng) 銷商。在成為華為全球經(jīng)銷商以來(lái),神州數(shù)碼已經(jīng)連續(xù)兩年獲得華為“全球優(yōu)秀經(jīng)銷商” 大獎(jiǎng),且業(yè)務(wù)成績(jī)、能力建設(shè)、資源管理和質(zhì)量把控等方面,在華為優(yōu)選 CSSP 伙伴中 名列前茅。隨著“大華為”戰(zhàn)略的不斷推進(jìn),公司與華為在云計(jì)算、海外市場(chǎng)、鯤鵬生 態(tài)合作等諸多業(yè)務(wù)領(lǐng)域都取得了非常大的突破和重要落地成果。 神州數(shù)碼自主品牌業(yè)務(wù) 2022 年?duì)I收超 30 億元。公司主要有 IT 分銷、云計(jì)算及數(shù) 字化轉(zhuǎn)型、自主品牌三大類業(yè)務(wù),其中自主品牌業(yè)務(wù)主要是針對(duì)華為鯤鵬計(jì)算生態(tài)提供 整機(jī)和服務(wù)器制造解決方案。公司自主品牌業(yè)務(wù) 2021 年實(shí)現(xiàn)營(yíng)收 16.50 億元,我們預(yù)計(jì) 2022 年自主品牌業(yè)務(wù)實(shí)現(xiàn)營(yíng)收 33.01 億元,同比增長(zhǎng) 100%。
鯤鵬產(chǎn)線整裝待發(fā),產(chǎn)能有保障。2020 年 5 月,神州數(shù)碼首個(gè)基于鯤鵬處理器的自 主品牌服務(wù)器和 PC 生產(chǎn)基地廈門生產(chǎn)基地正式落地投產(chǎn),預(yù)計(jì)可實(shí)現(xiàn)年產(chǎn)量 40-60 萬(wàn) 臺(tái)/套設(shè)備(包括 PC 和服務(wù)器)。2021 年 8 月,神州信創(chuàng)合肥生產(chǎn)基地一期項(xiàng)目順利動(dòng) 工建設(shè),主要生產(chǎn)“神州鯤泰”系列產(chǎn)品,年產(chǎn)能預(yù)計(jì)可達(dá) 90 萬(wàn)臺(tái)(包括 PC 和服務(wù) 器)。我們預(yù)計(jì) 2021 年神州數(shù)碼在鯤鵬下游整機(jī)出貨量占比接近 20%。 自主品牌業(yè)務(wù)產(chǎn)品系列齊全,合肥政府投資 20 億元。公司旗下神州鯤泰基于“鯤 鵬+昇騰”打造的全線“神州鯤泰”自有品牌產(chǎn)品體系,已經(jīng)推出了神州鯤泰系列服務(wù)器 和臺(tái)式機(jī)產(chǎn)品。2020 年底,神州數(shù)碼與合肥市簽訂戰(zhàn)略合作協(xié)議,將在合肥打造神州數(shù) 碼信創(chuàng)產(chǎn)業(yè)總部。項(xiàng)目估值 100 億元,合肥市政府?dāng)M投資 20 億元,持股 20%用于項(xiàng)目 的運(yùn)營(yíng)建設(shè)。
神州鯤泰系列產(chǎn)品已獲得行業(yè)突破,產(chǎn)品溢價(jià)明顯。截至 2022 年 2 月,神州鯤泰 系列產(chǎn)品已經(jīng)在金融、運(yùn)營(yíng)商、互聯(lián)網(wǎng)、能源、政企等多個(gè)領(lǐng)域獲得應(yīng)用,客戶包括交 通銀行、中國(guó)移動(dòng)、京東、國(guó)家電網(wǎng)等大型客戶。2022 年 10 月,中移動(dòng)招標(biāo),神州數(shù) 碼中標(biāo) 1.59 億元,單價(jià) 7.70 萬(wàn)元,溢價(jià)明顯。
6.2. 拓維信息
拓維信息卡位華為全方位戰(zhàn)略合作,與華為在華為云、鯤鵬、昇騰、鴻蒙四大領(lǐng)域 進(jìn)行了全產(chǎn)業(yè)鏈的合作。 布局鯤鵬服務(wù)器。2021 年,公司順應(yīng)自主創(chuàng)新國(guó)家戰(zhàn)略,依托湘江鯤鵬、云上鯤鵬、 九霄鯤鵬等控股子公司,加碼布局鯤鵬生態(tài)。2021 年 4 月,公司收購(gòu)湘江鯤鵬 35%股 權(quán),成為湘江鯤鵬控股股東;同月,公司成為華為首批昇騰整機(jī)合作伙伴,并面向全國(guó) 發(fā)布“兆瀚”智能計(jì)算產(chǎn)品品牌及 AI 推理服務(wù)器。 布局鴻蒙生態(tài)。2021 年 12 月,拓維信息成立全資子公司——湖南開(kāi)鴻智谷數(shù)字產(chǎn) 業(yè)發(fā)展有限公司,致力于基于 OpenHarmony 打造操作系統(tǒng)發(fā)行版。面向行業(yè),公司聚 焦交通、教育、運(yùn)營(yíng)商、工業(yè)等重點(diǎn)行業(yè),基于 OpenHarmony 技術(shù)研發(fā)具有競(jìng)爭(zhēng)力的操 作系統(tǒng)發(fā)行版(在鴻 OS)。面向消費(fèi)者,公司為生態(tài)伙伴提供鴻蒙智聯(lián)接入服務(wù)和基于 OpenHarmony 的消費(fèi)類智能硬件使能服務(wù),提升 OpenHarmony 裝機(jī)量。
鯤鵬相關(guān)業(yè)務(wù) 2021 年?duì)I收增速約 400%,毛利率提升快速。拓維信息 2021 年實(shí)現(xiàn) 營(yíng)收 22.30 億元,同比增長(zhǎng) 49.76%;歸母凈利潤(rùn) 0.83 億元,同比增長(zhǎng) 72.92%。公司主 要業(yè)務(wù)分為軟件云服務(wù)、國(guó)產(chǎn)自主品牌服務(wù)器及 PC、手機(jī)游戲三大板塊,拓維信息鯤 鵬相關(guān)業(yè)務(wù)主要在國(guó)產(chǎn)自主品牌服務(wù)器及 PC 業(yè)務(wù)中。2021 年,該業(yè)務(wù)實(shí)現(xiàn)營(yíng)收 7.10 億 元,同比增長(zhǎng) 381.58%,營(yíng)收占比為 31.85%,毛利率為 24%,同比增加 16pct。
湘江鯤鵬生態(tài)基地于 2020 年 4 月投產(chǎn),最高年產(chǎn)設(shè)備 50 萬(wàn)臺(tái)、產(chǎn)值 100 億元。湘 江鯤鵬多次中標(biāo)三大運(yùn)營(yíng)商服務(wù)器集采項(xiàng)目,2022 年 9 月,中移動(dòng)招標(biāo),湘江鯤鵬中標(biāo) 947 萬(wàn)元,單價(jià) 5.68 萬(wàn)元。
6.3. 廣電運(yùn)通
廣電運(yùn)通是國(guó)內(nèi)領(lǐng)先的人工智能行業(yè)應(yīng)用企業(yè),深耕金融科技和城市智能兩大業(yè)務(wù) 主線。公司主營(yíng)業(yè)務(wù)覆蓋智能金融、公共安全、交通出行、政務(wù)、大文旅、新零售及教 育等領(lǐng)域,為全球客戶提供具有競(jìng)爭(zhēng)力的智能終端、運(yùn)營(yíng)服務(wù)及大數(shù)據(jù)解決方案。2021 年實(shí)現(xiàn)營(yíng)收 67.82 億元,同比增長(zhǎng) 6%;歸母凈利潤(rùn) 8.24 億元,同比增長(zhǎng) 18%。公司積 極布局金融信創(chuàng),其中廣電鯤鵬服務(wù)器是重要組成部分。
廣電運(yùn)通已推出廣電鯤鵬服務(wù)器系列產(chǎn)品,與華為共建計(jì)算產(chǎn)業(yè)。公司基于華為“鯤 鵬”和“昇騰”處理器進(jìn)行人工智能物聯(lián)網(wǎng)(AIoT)戰(zhàn)略算力布局,已經(jīng)推出廣電鯤鵬 服務(wù)器和基于鯤鵬云支持的一系列行業(yè)解決方案。2020 年 3 月,廣電運(yùn)通與華為簽約共 建“鯤鵬+昇騰”計(jì)算產(chǎn)業(yè),成立生態(tài)創(chuàng)新中心,已發(fā)布廣電鯤鵬服務(wù)器及全棧信創(chuàng)解決 方案。 廣電鯤鵬服務(wù)器已實(shí)現(xiàn)量產(chǎn)和行業(yè)客戶突破,重點(diǎn)布局廣東地區(qū)和金融領(lǐng)域。2020 年的鯤鵬生態(tài)伙伴大會(huì)上,公司宣布廣電鯤鵬服務(wù)器產(chǎn)線下線,標(biāo)志該產(chǎn)品正式批量投 產(chǎn);同年 7 月,廣電運(yùn)通新一代 AI 智能設(shè)備產(chǎn)業(yè)基地正式奠基動(dòng)工,將承擔(dān)起該產(chǎn)品 整機(jī)量產(chǎn)任務(wù),為市場(chǎng)提供強(qiáng)大產(chǎn)能支撐。廣電鯤鵬服務(wù)器在政府、財(cái)政、交通和民生 等領(lǐng)域持續(xù)推進(jìn)產(chǎn)品落地,在銀行已實(shí)現(xiàn)首單突破;2021 年 1 月與廣發(fā)銀行達(dá)成合作, 在智慧算力領(lǐng)域進(jìn)一步突破。
6.4. 同方股份
同方股份是由清華大學(xué)出資成立的高科技公司,數(shù)字信息業(yè)務(wù)布局信創(chuàng)領(lǐng)域。2021 年實(shí)現(xiàn)營(yíng)收 284.56 億元,同比增長(zhǎng) 9.86%;歸母凈利潤(rùn)-18.97 億元,同比下降 1932.81%; 主營(yíng)業(yè)務(wù)中數(shù)字信息產(chǎn)業(yè)收入 157.07 億元,占比 54%,為第一大營(yíng)收來(lái)源。數(shù)字信息業(yè) 務(wù)布局信創(chuàng)領(lǐng)域,已推出基于龍芯、飛騰、鯤鵬等五大技術(shù)路線的系列產(chǎn)品。
清華同方已推出基于鯤鵬處理器的超強(qiáng)服務(wù)器系列產(chǎn)品并完善配套設(shè)施。2021 年 的華為全連接大會(huì)上,清華同方榮獲“鯤鵬最佳實(shí)踐伙伴獎(jiǎng)”。同方基于鯤鵬硬件的超強(qiáng) K620 和 K640 服務(wù)器于 2021 年 5 月相繼完成與華為 openEuler 的兼容性認(rèn)證;清華同 方已相繼設(shè)立了鯤鵬專用生產(chǎn)線、工程實(shí)驗(yàn)室、創(chuàng)新適配基地,以及定制化的專屬生產(chǎn) 工藝流程,助力鯤鵬計(jì)算產(chǎn)業(yè)生態(tài)做大做強(qiáng)。
清華同方的超強(qiáng)服務(wù)器系列已在多個(gè)行業(yè)實(shí)現(xiàn)規(guī)模落地。同方基于鯤鵬技術(shù)的超強(qiáng) 服務(wù)器及臺(tái)式機(jī)在政府、運(yùn)營(yíng)商、金融、政法等行業(yè)獲得規(guī)模突破,2021 年 7 月,近百 臺(tái)超強(qiáng) K620 中標(biāo)浙江首個(gè)金融信創(chuàng)服務(wù)器項(xiàng)目,在區(qū)域金融行業(yè)實(shí)現(xiàn)重要突破;2021 年 12 月,該服務(wù)器中標(biāo)中國(guó)民航核心數(shù)據(jù)中心建設(shè)項(xiàng)目,統(tǒng)一構(gòu)建運(yùn)算資源池,助力 民航數(shù)字化建設(shè)加速發(fā)展。
6.5. 四川長(zhǎng)虹
四川長(zhǎng)虹是從家電拓展到信息電子產(chǎn)業(yè)的綜合型跨國(guó)集團(tuán)。公司集消費(fèi)電子、核心 器件研發(fā)與制造為一體,主營(yíng)除傳統(tǒng)家電外,還提供IT綜合服務(wù)業(yè)務(wù)和以電子制造(EMS)為代表的精益制造服務(wù)業(yè)務(wù)等。2021 年實(shí)現(xiàn)營(yíng)收 996.32 億元,同比增長(zhǎng) 5.49%;歸母凈 利潤(rùn) 2.85 億元,同比增長(zhǎng) 527.36%。公司 ICT 業(yè)務(wù)布局鯤鵬服務(wù)器,2020 年 6 月,成 立華鯤振宇,全面負(fù)責(zé)基于華為“鯤鵬&昇騰”處理器的“天宮”自主品牌服務(wù)器、PC 等系列產(chǎn)品的設(shè)計(jì)、生產(chǎn)、銷售及服務(wù)。
四川長(zhǎng)虹已推出基于“鯤鵬+昇騰”的天宮服務(wù)器和 PC 系列產(chǎn)品。2019 年,長(zhǎng)虹 與華為簽署《鯤鵬生態(tài)戰(zhàn)略合作協(xié)議》,明確長(zhǎng)虹基于鯤鵬芯片打造完全自主可控的天 宮品牌系列服務(wù)器和 PC 終端機(jī)相關(guān)生態(tài),率先聯(lián)合建成擁有中國(guó)自主知識(shí)產(chǎn)權(quán)的信息 技術(shù)應(yīng)用創(chuàng)新體系,并于同年發(fā)布了天宮系列產(chǎn)品及示范應(yīng)用。長(zhǎng)虹至今已推出 6 大系 列 22 款主型號(hào)服務(wù)器和 2 款主型號(hào) PC 產(chǎn)品,其中天宮服務(wù)器已于 2020 年 9 月進(jìn)入信 創(chuàng)名錄。
天宮服務(wù)器已在多行業(yè)落地,產(chǎn)能有望進(jìn)一步提高。天宮服務(wù)器陸續(xù)在四川省醫(yī)療 保障局、成都電子信息智慧功能區(qū)、保稅區(qū)、德陽(yáng)“智慧公安”等落地,規(guī)模服務(wù)于金 融、政府、公檢法司、醫(yī)療、教育、稅務(wù)、智能制造等行業(yè)。2020 年,華為與四川進(jìn)行 產(chǎn)業(yè)化項(xiàng)目簽約,將在四川建設(shè)總投資超過(guò) 10 億元的華為鯤鵬整機(jī)制造總部項(xiàng)目,擁 有 30 萬(wàn)臺(tái)服務(wù)器年產(chǎn)能,四川長(zhǎng)虹與鯤鵬產(chǎn)業(yè)鏈將進(jìn)一步融合。2021 年,天宮服務(wù)器 成功中標(biāo)中國(guó)郵儲(chǔ)銀行云平臺(tái)項(xiàng)目。
我國(guó)操作系統(tǒng)國(guó)產(chǎn)化率較低。根據(jù)新思界產(chǎn)業(yè)研究中心發(fā)布的《2019-2024 年中國(guó) 操作系統(tǒng)行業(yè)市場(chǎng)深度調(diào)研及發(fā)展前景預(yù)測(cè)報(bào)告》顯示,2018 年,我國(guó)操作系統(tǒng)行業(yè)市 場(chǎng)規(guī)模為 186 億元,其中國(guó)產(chǎn)操作系統(tǒng)市場(chǎng)規(guī)模為 14.8 億元,僅占全國(guó)市場(chǎng)份額的 8%。 openEuler 是一個(gè)開(kāi)源、免費(fèi)的 Linux 發(fā)行版平臺(tái)。openEuler 是基于 CentOS 的 Linux 發(fā)行版,openEuler 項(xiàng)目來(lái)源于華為服務(wù)器操作系統(tǒng) EulerOS,2019 年 9 月 18 日 宣布開(kāi)源,同時(shí)上線了其開(kāi)源社區(qū),12 月 31 日,華為宣布開(kāi)放 openEuler 源碼。
7.1. 麒麟軟件(中國(guó)軟件)
背靠 CEC,央企身份。麒麟軟件是中國(guó)電子集團(tuán)旗下上市公司中國(guó)軟件的國(guó)產(chǎn)操 作系統(tǒng)公司,由中標(biāo)軟件和天津麒麟于 2019 年 12 月整合而成。麒麟軟件注重核心技術(shù) 創(chuàng)新,2018 年榮獲“國(guó)家科技進(jìn)步一等獎(jiǎng)”,2020 年發(fā)布的銀河麒麟操作系統(tǒng) V10 被國(guó) 資委評(píng)為“2020 年度央企十大國(guó)之重器”。根據(jù)賽迪顧問(wèn)統(tǒng)計(jì),麒麟軟件旗下操作系統(tǒng) 產(chǎn)品,連續(xù) 10 年位列中國(guó) Linux 市場(chǎng)占有率第一名。在開(kāi)源建設(shè)上,麒麟軟件在 OpenStack 社區(qū)貢獻(xiàn)位列國(guó)內(nèi)第一、全球第三;作為 openEuler 開(kāi)源社區(qū)發(fā)起者,以 Maintainer 身份承擔(dān) 80 個(gè)項(xiàng)目,除華為公司外貢獻(xiàn)第一。 麒麟軟件是國(guó)產(chǎn)操作系統(tǒng)龍頭。2022 年 H1,麒麟軟件實(shí)現(xiàn)營(yíng)收 4.11 億,凈利潤(rùn) 1.02 億元。相比同業(yè)同期營(yíng)收為 6323 萬(wàn)元、凈利潤(rùn)為-3.74 億元,麒麟軟件與同業(yè)營(yíng)收 比例從 2021 底的 1.7:1 提升到 6.5:1,市占率大幅提升。
麒麟與國(guó)產(chǎn) ARM 芯片企業(yè)飛騰、華為鯤鵬關(guān)系更加緊密。芯片與操作系統(tǒng)之間隱 含協(xié)同發(fā)展關(guān)系,飛騰和麒麟同屬于中國(guó)電子旗下 PK 體系,飛騰的崛起帶來(lái)麒麟產(chǎn)品 的放量。同時(shí)麒麟已經(jīng)成為開(kāi)源歐拉社區(qū)華為之外貢獻(xiàn)最多的廠家,也是開(kāi)源歐拉社區(qū) 的副理事長(zhǎng)單位。 麒麟操作系統(tǒng)生態(tài)適配數(shù)量更多,服務(wù)支持更完善。截至 2022 年 11 月 6 日,麒麟 與統(tǒng)信完成生態(tài)適配數(shù)量分別為 1,104,565 和 914,593 件。 麒麟軟件與華為強(qiáng)強(qiáng)聯(lián)合,多項(xiàng)世界第一驗(yàn)證麒麟實(shí)力。公司在 2020 年 3 月的華 為開(kāi)發(fā)者大會(huì)上發(fā)布基于 openEuler 的麒麟服務(wù)器操作系統(tǒng),同年 7 月,麒麟操作系統(tǒng) V10 和華為鯤鵬在 SPEC CPU2017 測(cè)試中排名第 11,獲得非 x86 架構(gòu)芯片性能全球第 一。2021 年 7 月,基于鯤鵬服務(wù)器、搭載銀河麒麟服務(wù)器操作系統(tǒng) V10 的“鵬城云腦 II”蟬聯(lián)全系統(tǒng)輸入輸出和 10 節(jié)點(diǎn)規(guī)模系統(tǒng)兩項(xiàng)第一,驗(yàn)證了“鯤鵬+銀河麒麟 V10” 創(chuàng)新技術(shù)基座的實(shí)力。
7.2. 統(tǒng)信軟件(誠(chéng)邁科技)
國(guó)內(nèi)頭部操作系統(tǒng)廠商。統(tǒng)信軟件是國(guó)內(nèi)領(lǐng)先的操作系統(tǒng)廠家,于 2019 年成立, 總部設(shè)立在北京,同時(shí)在武漢、上海、廣州、南京等地設(shè)立了地方技術(shù)支持機(jī)構(gòu)、研發(fā) 中心和通用軟硬件適配中心。未來(lái)十年,統(tǒng)信軟件將用三年時(shí)間完成國(guó)家各關(guān)鍵行業(yè)的 支撐需求,成為中國(guó)操作系統(tǒng)領(lǐng)軍企業(yè);用三年達(dá)到國(guó)際主流水平,使用場(chǎng)景全產(chǎn)業(yè)覆 蓋;用四年時(shí)間實(shí)現(xiàn)全球范圍的基礎(chǔ)軟件生態(tài)、爭(zhēng)做世界名列前茅的操作系統(tǒng)。
國(guó)際化布局,全球排名領(lǐng)先。統(tǒng)信 deepin 全球下載超過(guò) 8500 萬(wàn),海外用戶超過(guò) 300 萬(wàn),向國(guó)際開(kāi)源項(xiàng)目 307 個(gè)項(xiàng)目提交超過(guò) 1000 個(gè)貢獻(xiàn)。同時(shí)支持全球 33 種語(yǔ)言,在全 球 35 個(gè)國(guó)家 100 余個(gè)鏡像站點(diǎn),擁有西班牙、捷克、法國(guó)、巴西等多國(guó)用戶社區(qū)。統(tǒng) 信 deepin 在全球開(kāi)源操作系統(tǒng)排行榜上位居前列,也是排名最高的來(lái)自中國(guó)的社區(qū)發(fā)行 版,并在 2019 年、2020 年、2021 年連續(xù)三年榮獲最受歡迎中國(guó)開(kāi)源軟件第一名。 逐步融入鯤鵬產(chǎn)業(yè)生態(tài),取得多個(gè)重大生態(tài)合作成果。公司于 2019 年起就深度參 與鯤鵬生態(tài)建設(shè),生態(tài)合作廠商基于統(tǒng)信 UOS+鯤鵬平臺(tái)的整機(jī)、應(yīng)用、外設(shè)的適配超 過(guò) 1000 款。2020 年,公司獲華為開(kāi)發(fā)者大賽 2020 秋季賽"混合云應(yīng)用創(chuàng)新大賽金獎(jiǎng)"和 "openEuler 應(yīng)用遷移大賽銀獎(jiǎng)";2021 年統(tǒng)信容器支撐平臺(tái) UCC 2.0 獲得 2021 信創(chuàng)“大 比武”鯤鵬基礎(chǔ)軟件開(kāi)發(fā)賽道總決賽銀牌。統(tǒng)信軟件與華為在黨政、金融、交通、能源、 電信等行業(yè)領(lǐng)域具有廣泛的合作空間。2021 年統(tǒng)信 UOS 與華為及浙江移動(dòng)合作,在電 信行業(yè)內(nèi)首次完成統(tǒng)信 UOS 操作系統(tǒng)在運(yùn)營(yíng)商核心系統(tǒng)投產(chǎn)。
7.3. 麒麟信安
麒麟信安是關(guān)鍵領(lǐng)域操作系統(tǒng)產(chǎn)品提供商。公司主要產(chǎn)品有國(guó)產(chǎn)操作系統(tǒng)、信息安 全產(chǎn)品、云計(jì)算產(chǎn)品,主要應(yīng)用于國(guó)防、電力和政務(wù)等領(lǐng)域。公司的基礎(chǔ)核心技術(shù)是操 作系統(tǒng),產(chǎn)品特色是安全。目前公司形成了“操作系統(tǒng)-云計(jì)算-信息安全”三位一體的 產(chǎn)品體系,即以操作系統(tǒng)技術(shù)為根技術(shù),操作系統(tǒng)產(chǎn)品為基石,信息安全產(chǎn)品和云計(jì)算 產(chǎn)品為延伸的緊相關(guān)產(chǎn)品結(jié)構(gòu)。公司 2021 年實(shí)現(xiàn)營(yíng)收 3.38 億元,同比增長(zhǎng) 46%;歸母 凈利潤(rùn) 1.12 億元,同比增長(zhǎng) 13%;主營(yíng)業(yè)務(wù)中信息安全和云計(jì)算比重較高,分別占比 50%和 27%,其中云計(jì)算占比逐步擴(kuò)大。
麒麟信安積極擁抱鯤鵬生態(tài),已研發(fā)出基于鯤鵬的操作系統(tǒng)和云桌面。公司加大在 鯤鵬生態(tài)的投入,成功研發(fā)了基于鯤鵬平臺(tái)的麒麟信安操作系統(tǒng)(歐拉版)、 麒麟信安 云桌面系統(tǒng),豐富用戶在鯤鵬生態(tài)中云、服務(wù)器、桌面等應(yīng)用領(lǐng)域的產(chǎn)品。公司是湖南 鯤鵬生態(tài)構(gòu)建的重要參與者,并與北京、山西、重慶、江蘇和河南等鯤鵬生態(tài)中心完成 簽約,共同推動(dòng)鯤鵬平臺(tái)的軟硬件配套等各項(xiàng)工作。
麒麟信安與華為長(zhǎng)期合作,推動(dòng)鯤鵬平臺(tái)在關(guān)鍵領(lǐng)域的商業(yè)應(yīng)用。2020 年 4 月,麒 麟信安操作系統(tǒng) V3 通過(guò)華為云(鯤鵬)認(rèn)證,正式加入了華為凌云伙伴計(jì)劃。同年 9 月,公司華為優(yōu)選級(jí) ISV 合作伙伴參加華為 2020 全聯(lián)接大會(huì),獲“openEuler 商業(yè)應(yīng)用 遷移賽道金獎(jiǎng)”和“超級(jí)用戶獎(jiǎng)”。截止 2021 年,麒麟信安率先推出的基于華為 openEuler 的商業(yè)發(fā)行版本已在能源、政務(wù)等關(guān)鍵領(lǐng)域部署應(yīng)用。
8.1. 海量數(shù)據(jù)
從海外數(shù)據(jù)庫(kù)代銷轉(zhuǎn)型自研數(shù)據(jù)庫(kù)銷售,聚焦華為 openGauss 路線。海量數(shù)據(jù)成立 于 2007 年,從金融、電力行業(yè)入手,主營(yíng)海外數(shù)據(jù)庫(kù)產(chǎn)品代銷及系統(tǒng)集成服務(wù)。 2020 年公司開(kāi)始基于華為 openGuass 開(kāi)發(fā)第二代數(shù)據(jù)庫(kù)產(chǎn)品 Vastbase G100,逐步從代銷海 外產(chǎn)品轉(zhuǎn)型為自研產(chǎn)品服務(wù)提供商。 自研轉(zhuǎn)型與疫情影響短期業(yè)績(jī)表現(xiàn),數(shù)據(jù)庫(kù)核心業(yè)務(wù)帶動(dòng)公司業(yè)績(jī)重回快車道。公 司 2017 年之前營(yíng)收增速較快,2017-2021 年?duì)I收和歸母凈利潤(rùn)增速都有所下降,主要系 轉(zhuǎn)型自主數(shù)據(jù)庫(kù)產(chǎn)品,以及逐步剔除代理和實(shí)施業(yè)務(wù),轉(zhuǎn)型決心堅(jiān)定。2020-2022H1,自 主數(shù)據(jù)庫(kù)產(chǎn)品 Vastbase 海量數(shù)據(jù)庫(kù)產(chǎn)品系列為公司業(yè)務(wù)核心,2022H1 數(shù)據(jù)庫(kù)營(yíng)收占比 為 48%。隨著公司向自研產(chǎn)品服務(wù)商轉(zhuǎn)型進(jìn)度加快,數(shù)據(jù)庫(kù)營(yíng)收占比有望快速提升。
海量數(shù)據(jù)是 openGauss第一大商業(yè)發(fā)行版廠商與第二大代碼貢獻(xiàn)者。海量數(shù)據(jù) 2020 年開(kāi)始依托自身技術(shù)融入華為生態(tài)。2021 年,公司出任華為 openGauss 社區(qū)理事單位, 積極推動(dòng)社區(qū)建設(shè),成為獲得 openGauss 認(rèn)可的最佳伙伴,是獲此榮譽(yù)的唯一廠商。截 至 2022 年 9 月,海量數(shù)據(jù)在社區(qū)貢獻(xiàn)度排名第二,僅次于華為;海量數(shù)據(jù)也是 openGauss 的第一大商業(yè)發(fā)行版廠商。我們預(yù)計(jì)海量數(shù)據(jù)占 openGauss 下游商業(yè)版本營(yíng)收比例為 60%。
海量數(shù)據(jù)產(chǎn)品基于 openGauss 自研,亦具備極限生存能力。Vastbase G100 是海量 數(shù)據(jù)基于對(duì) openGauss 核心架構(gòu)的深刻理解和強(qiáng)大的源碼能力,深度結(jié)合各行業(yè)應(yīng)用 場(chǎng)景特點(diǎn)和需求,推出的企業(yè)級(jí)關(guān)系型數(shù)據(jù)庫(kù)。其自主代碼率接近 100%。 海量數(shù)據(jù)產(chǎn)品性能業(yè)內(nèi)領(lǐng)先。海量數(shù)據(jù) Vastbase G100 基于鯤鵬 BoostKit 全棧 優(yōu)化后,在性能、安全性及可用性上有著較大的提升。在使用 BenchmarkSQL 5.0 進(jìn)行 TPCC 測(cè)試過(guò)程中,海量數(shù)據(jù) Vastbase G100 充分利用資源,各項(xiàng)指標(biāo)平穩(wěn),TPMC 較 調(diào)優(yōu)前性能提升 39%,較業(yè)界主流方案性能提升 39%。 依托華為生態(tài),構(gòu)建自主生態(tài)。海量數(shù)據(jù)產(chǎn)品基于 openGauss,在依托華為強(qiáng)大生 態(tài)的同時(shí),支持鯤鵬、飛騰、因特爾等多種 CPU,適配麒麟 V10 等多版本操作系統(tǒng), 在應(yīng)用系統(tǒng)所涉及到的各方面功能上均實(shí)現(xiàn)了對(duì) Oracle、MySQL 和 PostgreSQL 的高度 兼容。企業(yè)現(xiàn)有的應(yīng)用程序代碼只需要做少量甚至不需要修改,即可以穩(wěn)定運(yùn)行在 Vastbase G100 之上,大幅降低了業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)國(guó)產(chǎn)化替代的風(fēng)險(xiǎn)。
Vastbase G100 榮獲鯤鵬認(rèn)證,入圍央采名錄。2021 年,海量數(shù)據(jù)與華為鯤鵬共同發(fā)布聯(lián)合生態(tài)互認(rèn)證項(xiàng)目,達(dá)成生態(tài)合作伙伴關(guān)系的企業(yè)達(dá)到 176 家,生態(tài)適配中的產(chǎn) 品達(dá)到 312 件。海量數(shù)據(jù) 2021 年 3 月入圍 2021 年中央國(guó)家機(jī)關(guān)數(shù)據(jù)庫(kù)軟件協(xié)議供貨采 購(gòu)項(xiàng)目。央采是中國(guó)政府采購(gòu)領(lǐng)域級(jí)別最高、覆蓋面最廣的采購(gòu)項(xiàng)目之一,同時(shí)也是地 方政府采購(gòu)的風(fēng)向標(biāo),被行業(yè)默認(rèn)為廠商產(chǎn)品技術(shù)硬實(shí)力和品牌軟實(shí)力的標(biāo)尺。 關(guān)鍵行業(yè)應(yīng)用廣泛,性能表現(xiàn)優(yōu)異。公司基于 openGauss 內(nèi)核研發(fā)的產(chǎn)品 VastBase G100 已經(jīng)在中芯國(guó)際、比亞迪、國(guó)家電網(wǎng)、中信證券等頭部行業(yè)客戶替代了原有數(shù)據(jù)庫(kù), 落地商用。海量數(shù)據(jù)產(chǎn)品在比亞迪替換后,性能總體比原來(lái) MySQL 提升約 50.7%。
8.2. 達(dá)夢(mèng)數(shù)據(jù)
四十年磨一劍,致力于成為國(guó)際頂尖的全棧數(shù)據(jù)產(chǎn)品及解決方案提供商。達(dá)夢(mèng)數(shù)據(jù) 是國(guó)內(nèi)領(lǐng)先的數(shù)據(jù)庫(kù)產(chǎn)品開(kāi)發(fā)服務(wù)商,創(chuàng)始人馮裕才從 70 年代末開(kāi)始從事自主研發(fā)數(shù) 據(jù)庫(kù)的原型研究,于 1988 年成功研制出我國(guó)第一個(gè)自主版權(quán)的國(guó)產(chǎn)數(shù)據(jù)庫(kù)管理系統(tǒng)原 型 CRDS。1992 年達(dá)夢(mèng)數(shù)據(jù)庫(kù)研究所成立;2000 年公司成立,專注于數(shù)據(jù)庫(kù)及相關(guān)配套 產(chǎn)品與服務(wù)的研發(fā)與銷售,主要產(chǎn)品線從通用關(guān)系型數(shù)據(jù)庫(kù)產(chǎn)品向全棧數(shù)據(jù)產(chǎn)品延伸。 公司產(chǎn)品基本為軟件,自研率高。目前除軟硬一體的數(shù)據(jù)庫(kù)一體機(jī)外,公司產(chǎn)品均 為軟件。公司軟件產(chǎn)品主要包括達(dá)夢(mèng)數(shù)據(jù)庫(kù)管理系統(tǒng)(DM)、數(shù)據(jù)庫(kù)集群軟件、云計(jì)算與 大數(shù)據(jù)產(chǎn)品三大類。其中達(dá)夢(mèng)數(shù)據(jù)庫(kù)管理系統(tǒng)是公司具有自主知識(shí)產(chǎn)權(quán)的大型通用關(guān)系 型數(shù)據(jù)庫(kù),其核心源代碼為 100%全自主研發(fā),不依賴開(kāi)源數(shù)據(jù)庫(kù)。 數(shù)據(jù)庫(kù)國(guó)產(chǎn)化推動(dòng)業(yè)績(jī)快速增長(zhǎng),盈利能力大幅提升。2021 年達(dá)夢(mèng)數(shù)據(jù)實(shí)現(xiàn)營(yíng)收 7.43 億元,同比增長(zhǎng) 65%;實(shí)現(xiàn)扣非歸母凈利潤(rùn) 3.48 億元,同比增長(zhǎng) 164%。2019-2021 年,公司營(yíng)收的高速增長(zhǎng)得益于國(guó)內(nèi)數(shù)字化建設(shè)和國(guó)產(chǎn)數(shù)據(jù)庫(kù)軟件行業(yè)的發(fā)展,營(yíng)收年 均復(fù)合增長(zhǎng)率達(dá) 57%。橫向比較來(lái)看,2019-2021 年公司營(yíng)業(yè)收入規(guī)模處于行業(yè)較高水 平,公司盈利能力突出。
軟件產(chǎn)品使用授權(quán)為公司營(yíng)收最主要來(lái)源。2019-2021 年,軟件產(chǎn)品使用授權(quán)業(yè)務(wù) 收入占比持續(xù)提升,分別為 69%/82%/87%,為公司主營(yíng)業(yè)務(wù)收入的最主要來(lái)源。其中, 達(dá)夢(mèng)數(shù)據(jù)庫(kù)管理系統(tǒng)作為公司核心產(chǎn)品,2019-2021 年在軟件產(chǎn)品使用授權(quán)業(yè)務(wù)中收入 占比分別為 86%/93%/92%,是其最主要收入來(lái)源。
公司數(shù)據(jù)庫(kù)產(chǎn)品自主研發(fā),代碼安全性高。公司擁有主要產(chǎn)品全部核心源代碼自主 知識(shí)產(chǎn)權(quán),不采用開(kāi)源代碼,代碼安全性高。公司參與起草信息安全領(lǐng)域國(guó)家標(biāo)準(zhǔn),從 軟件內(nèi)核設(shè)計(jì)層面即充分考慮安全策略,建立達(dá)夢(mèng)數(shù)據(jù)庫(kù)安全訪問(wèn)控制半形式化模型, 形成基于數(shù)據(jù)庫(kù)軟件內(nèi)核的安全防護(hù)體系。產(chǎn)品已通過(guò)信息安全等級(jí)保護(hù)四級(jí)認(rèn)證、信 息安全評(píng)估保證級(jí) EAL4+級(jí)等權(quán)威安全認(rèn)證測(cè)試,可提供高級(jí)別的信息安全保障。 產(chǎn)品性能優(yōu)異,獲得多個(gè)行業(yè)客戶認(rèn)可。公司核心產(chǎn)品功能、性能等方面表現(xiàn)出色, 在金融、能源、電信、黨政等數(shù)十領(lǐng)域得到廣泛應(yīng)用。通過(guò)“以用促研,以研保用”持續(xù)深化正反饋,公司憑借產(chǎn)品成熟度構(gòu)建顯著市場(chǎng)優(yōu)勢(shì)地位。 市占率領(lǐng)先。根據(jù)賽迪顧問(wèn)報(bào)告,2019-2021 年中國(guó)國(guó)產(chǎn)數(shù)據(jù)庫(kù)管理軟件市占率, 達(dá)夢(mèng)連續(xù)三年位列第一,公司憑借多年的市場(chǎng)積累,銷售額保持了快速增長(zhǎng)。墨天輪參 考 Gartner 魔力象限模型,選取 2021 年度平均分排行前 40 的數(shù)據(jù)庫(kù)產(chǎn)品,通過(guò) 2021 年 平均分、最新得分、三方評(píng)測(cè)、生態(tài)以及論文和專利數(shù)量綜合評(píng)定,制成 2021 年中國(guó) 數(shù)據(jù)庫(kù)魔力象限,達(dá)夢(mèng)數(shù)據(jù)位于領(lǐng)導(dǎo)者象限。
8.3. 人大金倉(cāng)
國(guó)內(nèi)領(lǐng)先的國(guó)產(chǎn)數(shù)據(jù)庫(kù)廠商,聚焦信創(chuàng)市場(chǎng)。人大金倉(cāng)成立于 1999 年,由中國(guó)人 民大學(xué)最早從事數(shù)據(jù)庫(kù)學(xué)科理論研究的專家學(xué)者發(fā)起創(chuàng)建,是中國(guó)第一家國(guó)產(chǎn)數(shù)據(jù)庫(kù)廠 商。公司基于 PostgreSQL 數(shù)據(jù)庫(kù),構(gòu)建了覆蓋數(shù)據(jù)管理全生命周期、全技術(shù)棧的產(chǎn)品以 及解決方案體系。主要聚焦中央政府、省、地市級(jí)政府、各軍兵種、中央企業(yè)、地方國(guó) 有企業(yè)等信創(chuàng)市場(chǎng)。 人大金倉(cāng)擁有數(shù)據(jù)管理全生命周期產(chǎn)品。公司產(chǎn)品包括通用型數(shù)據(jù)庫(kù)及分析型數(shù)據(jù) 庫(kù),數(shù)據(jù)同步軟件以及聯(lián)合合作伙伴的各類場(chǎng)景解決方案,覆蓋了從數(shù)據(jù)存儲(chǔ),遷移,故障診斷和整合管理的全流程生態(tài)。 受益于國(guó)內(nèi)信創(chuàng)產(chǎn)業(yè)發(fā)展,人大金倉(cāng)業(yè)績(jī)?cè)鲩L(zhǎng)迅速。2021 年,人大金倉(cāng)實(shí)現(xiàn)營(yíng)收 3.41 億元,凈利潤(rùn) 0.31 億元,同比增長(zhǎng) 400%,凈利率為 9.18%。公司于 2021 年被太極 股份增資,持股比例達(dá)到 51%。在資金支持下,公司進(jìn)一步強(qiáng)化研發(fā)創(chuàng)新能力,提升產(chǎn) 品競(jìng)爭(zhēng)力并擴(kuò)大市場(chǎng)份額,加強(qiáng)在信創(chuàng)領(lǐng)域的市場(chǎng)地位。
性能業(yè)內(nèi)領(lǐng)先,關(guān)鍵應(yīng)用領(lǐng)域銷售套數(shù)占比第一。作為國(guó)產(chǎn)數(shù)據(jù)庫(kù)的先行者,人大 金倉(cāng)早在 2009 年就已經(jīng)走進(jìn)電力行業(yè)入駐華北電網(wǎng),并行一年多后替換掉了 Oracle 數(shù) 據(jù)庫(kù)。據(jù)公司官方公眾號(hào),人大金倉(cāng) KES 數(shù)據(jù)庫(kù)管理系統(tǒng)在信創(chuàng)三期市場(chǎng)份額超過(guò) 50%, 國(guó)內(nèi)數(shù)據(jù)庫(kù)關(guān)鍵應(yīng)用領(lǐng)域銷售套數(shù)占比第一,在特定場(chǎng)景下的性能已超越 Oracle 等國(guó)際 數(shù)據(jù)庫(kù)領(lǐng)先廠商。 黨政信創(chuàng)領(lǐng)域占率保持領(lǐng)先,協(xié)同上下游企業(yè)擴(kuò)展行業(yè)生態(tài)。據(jù)公司年報(bào),自信創(chuàng) 工程啟動(dòng)以來(lái),人大金倉(cāng)進(jìn)入了 70%以上的中央部委,在中石油、中海油和中石化的國(guó) 產(chǎn)化升級(jí)項(xiàng)目中市占率分別達(dá)到 100%、75%和 50%。2021 年,人大金倉(cāng)與華為、 麒麟軟件、統(tǒng)信軟件等十多家廠商圍繞數(shù)據(jù)庫(kù)生態(tài)建設(shè)發(fā)起“金蘭生態(tài)聯(lián)盟”, 聚合產(chǎn)業(yè)生態(tài)力量搭建行業(yè)生態(tài),為信創(chuàng)和國(guó)產(chǎn)數(shù)字化發(fā)展帶來(lái)了新的發(fā)展 機(jī)遇。
人大金倉(cāng)已經(jīng)與鯤鵬適配,推出基于鯤鵬的解決方案。人大金倉(cāng)推出以華為云鯤鵬 云服務(wù)為底座,結(jié)合高成熟度國(guó)產(chǎn)數(shù)據(jù)庫(kù)產(chǎn)品 KingbaseES,性能強(qiáng)勁。技術(shù)深度適配, 進(jìn)行了 Oracle 遷移到 KingBase on Kunpeng 的全方位技術(shù)適配,包括單機(jī)/集群架構(gòu)的安 裝部署等。
中間件市場(chǎng)規(guī)模保持較快增長(zhǎng)。根據(jù)計(jì)世資訊的統(tǒng)計(jì),國(guó)內(nèi) 2019 年中間件市場(chǎng)規(guī) 模是 72.4 億元,同比增長(zhǎng) 11%;根據(jù)華為《鯤鵬計(jì)算產(chǎn)業(yè)發(fā)展白皮書(shū)》預(yù)測(cè),2023 年 全球中間件市場(chǎng)空間 434 億美元,2018-2023 年 5 年復(fù)合增長(zhǎng)率 10.3%。中國(guó)中間件市 場(chǎng)空間 13.6 億美元,2018-2023 年 5 年復(fù)合增長(zhǎng)率 15.7%。 政府、金融和電信行業(yè)采購(gòu)是國(guó)內(nèi)中間件的市場(chǎng)主體。國(guó)產(chǎn)中間件市場(chǎng)主要是政府、 金融和電信行業(yè),合計(jì)占到整個(gè)中間件市場(chǎng)的七成左右。
IBM 和 Oracle 仍然占據(jù)國(guó)內(nèi)中間件市場(chǎng)過(guò)半份額。由于中間件在國(guó)內(nèi)的發(fā)展時(shí)間 相對(duì)較短,國(guó)內(nèi)市場(chǎng)仍主要由國(guó)際知名 IT 廠商 IBM 和 Oracle 占據(jù)主導(dǎo)地位。國(guó)內(nèi)廠商 與 IBM 和 Oracle 相比,在品牌影響力、資金實(shí)力、技術(shù)研發(fā)實(shí)力、市場(chǎng)占有率等方面 均存在一定差距。在產(chǎn)品方面,國(guó)內(nèi)產(chǎn)品在某些方面依然存在差距。對(duì)于電信、金融等 行業(yè)用戶來(lái)講,更看重產(chǎn)品的性能和穩(wěn)定性。在產(chǎn)品性能有差距的情況下,不會(huì)輕易替 換已經(jīng)成熟的系統(tǒng)和產(chǎn)品。因此在這些行業(yè)中實(shí)現(xiàn)國(guó)產(chǎn)產(chǎn)品替代是循序漸進(jìn)的過(guò)程。 中間件國(guó)產(chǎn)化趨勢(shì)明顯。近年國(guó)產(chǎn)軟件基礎(chǔ)設(shè)施類產(chǎn)品由弱到強(qiáng),不但逐漸站穩(wěn)了 市場(chǎng),而且產(chǎn)品的性能已經(jīng)逐漸追上 IBM、Oracle 等國(guó)外產(chǎn)品,甚至在有些領(lǐng)域還強(qiáng)于 國(guó)外產(chǎn)品。目前國(guó)產(chǎn)產(chǎn)品已經(jīng)得到了用戶廣泛的認(rèn)可,在部分領(lǐng)域中已經(jīng)完全具備替代 國(guó)外產(chǎn)品的能力。相比國(guó)外廠商,國(guó)內(nèi)廠商有著本地化研發(fā)及服務(wù)的優(yōu)勢(shì)。本土的軟件 廠商更容易與客戶建立起暢通的溝通渠道,保證了國(guó)產(chǎn)軟件能及時(shí)跟蹤、定位客戶真正的需求,可以加快開(kāi)發(fā)周期,降低開(kāi)發(fā)成本,從而在激烈的產(chǎn)品競(jìng)爭(zhēng)中通過(guò)高性價(jià)比來(lái) 贏得客戶。
9.1. 東方通
國(guó)產(chǎn)中間件龍頭。東方通主營(yíng)業(yè)務(wù)分為基礎(chǔ)安全和行業(yè)安全兩部分,其中基礎(chǔ)安全 即為企業(yè)級(jí)用戶提供基礎(chǔ)軟件中的中間件產(chǎn)品及相關(guān)技術(shù)服務(wù),2021 年收入占比約 39%, 近年來(lái)毛利率穩(wěn)定在 90%左右;公司通過(guò)外延并購(gòu)形成了行業(yè)安全業(yè)務(wù)板塊,主要是為 電信運(yùn)營(yíng)商等行業(yè)用戶提供信息安全、網(wǎng)絡(luò)安全、業(yè)務(wù)安全、應(yīng)急安全等產(chǎn)品及解決方 案,收入占比約 61%,毛利率穩(wěn)定在 65%附近。
東方通與華為鯤鵬合作不斷深化。公司與華為不斷加強(qiáng)加深在鯤鵬計(jì)算領(lǐng)域的戰(zhàn)略 合作,是首批華為鯤鵬凌云生態(tài)合作伙伴,金融開(kāi)放創(chuàng)新聯(lián)盟首批創(chuàng)始會(huì)員之一,湘江 鯤鵬軟硬件戰(zhàn)略合作伙伴等。在鯤鵬架構(gòu)的市場(chǎng)推廣及多產(chǎn)品適配認(rèn)證等方面,東方通 全線中間件產(chǎn)品已經(jīng)完成鯤鵬兼容適配認(rèn)證,并積極面向政務(wù)、金融領(lǐng)域開(kāi)展鯤鵬計(jì)算 領(lǐng)域的深度合作。 東方通中間件產(chǎn)品已經(jīng)獲得華為認(rèn)證。2019 年 12 月,華為 TaiShan 服務(wù)器與東方 通消息中間件 TongLINK/Q、交易中間件 TongEASY 兩款應(yīng)用支撐類中間件正式完成互 認(rèn)證測(cè)試。2021 年 10 月東方通應(yīng)用服務(wù)器中間件 Tongweb 獲得華為鯤鵬 Validated 認(rèn) 證。 東方通應(yīng)用服務(wù)器中間件上架華為云商城嚴(yán)選自營(yíng)產(chǎn)品。華為云市場(chǎng)將商品分為三 個(gè)類別:普通商品、嚴(yán)選商品和嚴(yán)選自營(yíng)商品。其中,嚴(yán)選自營(yíng)商品是華為云針對(duì)已經(jīng) 入駐的嚴(yán)選商品及供應(yīng)商在技術(shù)能力、服務(wù)交付、流程規(guī)范等方面進(jìn)行多項(xiàng)嚴(yán)格的測(cè)試 驗(yàn)證以后,發(fā)布并標(biāo)記為“嚴(yán)選自營(yíng)”的商品。2021 年 12 月,華為云選擇 TongWeb 進(jìn) 入嚴(yán)選自營(yíng)商品。
9.2. 寶蘭德
寶蘭德是國(guó)內(nèi)領(lǐng)先的中間件軟件提供商。寶蘭德主要有基礎(chǔ)設(shè)施軟件、智能運(yùn)維軟 件和技術(shù)服務(wù)三大類產(chǎn)品,其中基礎(chǔ)設(shè)施軟件為中間件軟件,包括應(yīng)用服務(wù)器 BES Application Server、交易中間件 BES VBroker 和消息中間件 BES MQ。2021 年寶蘭德?tīng)I(yíng) 收為 2.00 億元,同比增長(zhǎng) 10%,歸母凈利潤(rùn)為 0.27 億元,同比降低 56%,基礎(chǔ)設(shè)施軟 件和技術(shù)服務(wù)為主要收入來(lái)源,2021 年?duì)I收占比分別為 54%/39%。
寶蘭德積極融入鯤鵬生態(tài)。寶蘭德應(yīng)用服務(wù)器中間件不僅通過(guò)華為“一云兩翼”戰(zhàn) 略相關(guān)產(chǎn)品兼容認(rèn)證,包括華為公有云、私有云、泰山服務(wù)器、高斯數(shù)據(jù)庫(kù),也在不斷 參與鯤鵬編譯器、畢昇 JDK、Boostkit 優(yōu)化,挖掘鯤鵬算力。2021 年 11 月,寶蘭德的應(yīng) 用服務(wù)器軟件通過(guò)鯤鵬 Validated 認(rèn)證寶蘭德是鯤鵬計(jì)算產(chǎn)業(yè)生態(tài)重要伙伴,作為 openEuler、openGauss 社區(qū)的早期成員,已經(jīng)完全融入鯤鵬生態(tài)鏈。
10.1. 品高股份
國(guó)內(nèi)領(lǐng)先的企業(yè)級(jí)云平臺(tái)及行業(yè)信息化解決方案服務(wù)提供商。公司主要有云計(jì)算和 行業(yè)信息化業(yè)務(wù)兩大業(yè)務(wù)。云計(jì)算業(yè)務(wù)主要由云租賃服務(wù)和云解決方案業(yè)務(wù)構(gòu)成,行業(yè) 信息化業(yè)務(wù)主要是為軌交、電信、政府、汽車等行業(yè)客戶提供管理、運(yùn)營(yíng)和業(yè)務(wù)領(lǐng)域的 信息化解決方案。公司 2021 年實(shí)現(xiàn)營(yíng)收 4.71 億元,同比增長(zhǎng) 2.03%;歸母凈利潤(rùn)為 0.56 億元,同比增長(zhǎng) 15.78%;主營(yíng)業(yè)務(wù)中行業(yè)信息化業(yè)務(wù)占比正逐年提升。
品高股份眾多產(chǎn)品與基于鯤鵬架構(gòu)的產(chǎn)品完成兼容互認(rèn)證。2019 年 6 月,云操作 系統(tǒng)納管使用鯤鵬 920CPU 的泰山 2280 服務(wù)器。2020 年云系列產(chǎn)品與麒麟信安操作系 統(tǒng)(V3.3 鯤鵬版),云操作系統(tǒng) V9.0 先后與鯤鵬架構(gòu)的 Huanghe 2280 V2、銀河麒麟高 級(jí)服務(wù)器操作系統(tǒng)(鯤鵬版)V10 完成產(chǎn)品互認(rèn)。2021 年 7 月,云操作系統(tǒng) V9.0 獲得 華為鯤鵬 Validated 認(rèn)證;9 月,企業(yè)級(jí)敏捷開(kāi)發(fā)平臺(tái) XCreator 和品高集約化門戶網(wǎng) 站軟件 V2.0 相繼與銀河麒麟高級(jí)服務(wù)器操作系統(tǒng)(鯤鵬版)V10 完成兼容性測(cè)試。
10.2. 優(yōu)刻得
優(yōu)刻得是國(guó)內(nèi)領(lǐng)先的中立第三方云計(jì)算服務(wù)商。公司主要通過(guò)公有云、私有云、混 合云三種模式,為用戶提供計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等 IaaS 和基礎(chǔ) PaaS 產(chǎn)品,以及大數(shù)據(jù)、 人工智能等產(chǎn)品。公司 2021 年實(shí)現(xiàn)營(yíng)收 29.01 億元,同比增長(zhǎng) 18%;歸母凈利潤(rùn)為-6.33 億元,同比下降 84.74%;主營(yíng)業(yè)務(wù)中公有云業(yè)務(wù)是核心業(yè)務(wù)。
公司云產(chǎn)品與華為鯤鵬完成產(chǎn)品兼容性互認(rèn)證。企業(yè)級(jí)專有云產(chǎn)品 UCloudStack 是 優(yōu)刻得企業(yè)級(jí)專有云 IaaS+PaaS 平臺(tái),兼容 X86 和 ARM 架構(gòu),支持已有設(shè)備及傳統(tǒng)商 業(yè)存儲(chǔ)的異構(gòu)及統(tǒng)一管理,提供一整套云資源管理能力。2019 年 8 月,UCloudStack 已 與華為鯤鵬完成產(chǎn)品兼容性互認(rèn)證,并獲得 HuaweiCompatible 技術(shù)認(rèn)證證書(shū)。 UCloudStack 與鯤鵬的兼容性認(rèn)證將為國(guó)產(chǎn)操作系統(tǒng)用戶業(yè)務(wù)上提供更多的選擇和支持。
10.3. 青云科技
青云科技在混合云市場(chǎng)上極具優(yōu)勢(shì)的云服務(wù)提供商。青云科技的主營(yíng)業(yè)務(wù)主要是云 產(chǎn)品業(yè)務(wù)、云服務(wù)業(yè)務(wù),其公有云和私有云都具有一定規(guī)模和影響力,在交付形態(tài)上, 以統(tǒng)一架構(gòu)形成云產(chǎn)品、云服務(wù)兩大標(biāo)準(zhǔn)化業(yè)務(wù)模塊,根據(jù)客戶需要滿足私有云、公有 云和混合云的部署需求,在混合云市場(chǎng)上極具優(yōu)勢(shì)。公司 2021 年實(shí)現(xiàn)營(yíng)收為 4.24 億元, 同比下降 1%;歸母凈利潤(rùn)為-2.83 億元,同比下降 73%。
青云科技云平臺(tái)已完成與華為鯤鵬處理器及相關(guān)服務(wù)器的兼容適配。2019 年 12 月, 青云科技旗的 QingCloud 云平臺(tái)、QingStor NeonSAN 分布式塊存儲(chǔ)、KubeSphere 容器 平臺(tái)均已完成與基于鯤鵬處理器的華為 TaiShan 200 服務(wù)器的兼容性測(cè)試與認(rèn)證,此次 認(rèn)證同時(shí)標(biāo)志著青云 QingCloud 成為華為智能計(jì)算認(rèn)證解決方案伙伴。 青云科技聯(lián)合鯤鵬等共同成立“繁星”信創(chuàng)生態(tài)聯(lián)盟。2021 年 7 月,青云科技聯(lián)合 鯤鵬、中科曙光、麒麟軟件、統(tǒng)信軟件等共同成立“繁星”生態(tài)聯(lián)盟,在芯片、服務(wù)器、 操作系統(tǒng)、數(shù)據(jù)庫(kù)、中間件等層面展開(kāi)合作,加速協(xié)同研發(fā)、產(chǎn)品兼容、應(yīng)用對(duì)接、標(biāo) 準(zhǔn)化建立等,攜手幫助用戶實(shí)現(xiàn)向信息技術(shù)應(yīng)用創(chuàng)新平滑過(guò)渡,更安全、自主地完成數(shù) 字化轉(zhuǎn)型。
11.1. 星環(huán)科技
深耕大數(shù)據(jù)基礎(chǔ)軟件,核心團(tuán)隊(duì)技術(shù)實(shí)力雄厚。公司業(yè)務(wù)主要有兩類,第一類是大 數(shù)據(jù)基礎(chǔ)軟件業(yè)務(wù),包含基礎(chǔ)軟件產(chǎn)品(分布式數(shù)據(jù)庫(kù),圖數(shù)據(jù)庫(kù),時(shí)空數(shù)據(jù)庫(kù),搜索 引擎和數(shù)據(jù)治理工具等)和技術(shù)服務(wù);第二類是應(yīng)用與解決方案,主要針對(duì)大數(shù)據(jù)應(yīng)用 場(chǎng)景,提供大數(shù)據(jù)存儲(chǔ)、處理以及分析等相關(guān)場(chǎng)景下的咨詢及定制開(kāi)發(fā)等服務(wù)的解決方 案。核心團(tuán)隊(duì)多人來(lái)自于南京大學(xué),董事長(zhǎng)曾任英特爾數(shù)據(jù)中心軟件部亞太區(qū) CTO,技 術(shù)實(shí)力雄厚。
營(yíng)收快速增長(zhǎng),高研發(fā)投入短期影響盈利能力。2019-2021 年,公司營(yíng)收增長(zhǎng)迅速, 年復(fù)合增速高達(dá) 38%。大數(shù)據(jù)基礎(chǔ)軟件技術(shù)壁壘高、研發(fā)周期長(zhǎng)、研發(fā)投入高昂,星環(huán) 收入規(guī)模相對(duì)較小,公司凈利潤(rùn)持續(xù)為負(fù),規(guī)模效應(yīng)形成需要時(shí)間。
大數(shù)據(jù)基礎(chǔ)軟件與技術(shù)服務(wù)是公司營(yíng)收主體,毛利率維持在較高水平。隨著公司逐 步由開(kāi)源體系成功轉(zhuǎn)型自研技術(shù),大數(shù)據(jù)與云基礎(chǔ)平臺(tái)軟件業(yè)務(wù)規(guī)模有所收縮,分布式 關(guān)系型數(shù)據(jù)庫(kù)軟件業(yè)務(wù)以及應(yīng)用解決方案營(yíng)收占比迅速上升。伴隨公司產(chǎn)品的不斷完善 及技術(shù)水平的持續(xù)提高,公司軟件產(chǎn)品與技術(shù)服務(wù)毛利率穩(wěn)步增長(zhǎng)。
星環(huán)是中國(guó)大數(shù)據(jù)基礎(chǔ)軟件廠商第一梯隊(duì)。大數(shù)據(jù)基礎(chǔ)軟件是新興科技領(lǐng)域,公司 是國(guó)內(nèi)較早專注于大數(shù)據(jù)基礎(chǔ)軟件研發(fā)的公司,自主研發(fā)的大數(shù)據(jù)基礎(chǔ)平臺(tái)、分布式分 析型數(shù)據(jù)庫(kù)已達(dá)到業(yè)界先進(jìn)水平。根據(jù) IDC 報(bào)告,2021 年上半年,公司在中國(guó)大數(shù)據(jù) 平臺(tái)軟件的市場(chǎng)份額排名第七。公司綜合能力較強(qiáng),2020 年 10 月,IDC 發(fā)布 《MarketScape:中國(guó)大數(shù)據(jù)管理平臺(tái)廠商評(píng)估,2020》,公司綜合能力排名市場(chǎng)第四, 是中國(guó)大數(shù)據(jù)管理平臺(tái)市場(chǎng)的領(lǐng)導(dǎo)者。 鯤鵬生態(tài)應(yīng)用軟件領(lǐng)域認(rèn)證級(jí)合作伙伴,星環(huán)科技&鯤鵬聯(lián)合解決方案性能卓越。 基于鯤鵬的星環(huán)科技大數(shù)據(jù)平臺(tái) Transwarp Data Hub(TDH)是大數(shù)據(jù)領(lǐng)域首個(gè)獲得鯤 鵬 Validated 認(rèn)證的平臺(tái),斬獲 2022 鯤鵬應(yīng)用創(chuàng)新大賽上海賽區(qū)金獎(jiǎng)。星環(huán)大數(shù)據(jù)鯤鵬 一體機(jī)解決方案在 2021 鯤鵬應(yīng)用創(chuàng)新大賽中榮膺銀獎(jiǎng)。2021 年星環(huán)科技榮獲 Powered by Kunpeng 精選解決方案授牌。
12.1. 東方國(guó)信
東方國(guó)信是專注大數(shù)據(jù)領(lǐng)域的高科技軟件企業(yè)。公司主營(yíng)業(yè)務(wù)是為客戶提供企業(yè)級(jí) 大數(shù)據(jù)、云計(jì)算、工業(yè)互聯(lián)網(wǎng)等平臺(tái)、產(chǎn)品、服務(wù)及行業(yè)整體解決方案。公司 2021 年實(shí) 現(xiàn)營(yíng)收為 24.70 億元,同比增長(zhǎng) 18%;歸母凈利潤(rùn)為 3.02 億元。公司在技術(shù)產(chǎn)品方面依 托于自身大數(shù)據(jù)前沿技術(shù)的優(yōu)勢(shì)開(kāi)發(fā)技術(shù)產(chǎn)品,在行業(yè)解決方案方面基于公司多年的業(yè) 務(wù)經(jīng)驗(yàn)為客戶提供定制軟件開(kāi)發(fā)及服務(wù),其占主營(yíng)業(yè)務(wù)收入較高。
東方國(guó)信聯(lián)合華為聯(lián)合推出基于鯤鵬的聯(lián)合大數(shù)據(jù)集成系列解決方案。2019 年 10 月,東方國(guó)信和華為聯(lián)合推出包含東方國(guó)信自主研發(fā)的多個(gè)大數(shù)據(jù)領(lǐng)域重點(diǎn)產(chǎn)品,包 括大數(shù)據(jù)平臺(tái)企業(yè)版、安全與門戶平臺(tái)、數(shù)據(jù)治理平臺(tái)、數(shù)據(jù)交換共享平臺(tái)、數(shù)據(jù)可 視化 BI 分析平臺(tái)等。東方國(guó)信致力于在鯤鵬產(chǎn)業(yè)方面,落實(shí) TaiShan 服務(wù)器與大數(shù)據(jù) 應(yīng)用集成測(cè)試,改造東方國(guó)信大數(shù)據(jù)應(yīng)用系統(tǒng)支持華為 TaiShan 服務(wù)器。 東方國(guó)信研發(fā)分布式數(shù)據(jù)庫(kù) CirroData 完成與華為鯤鵬的兼容認(rèn)證。2020 年,東 方國(guó)信自主研發(fā)的高性能分布式數(shù)據(jù)庫(kù) CirroData 以及數(shù)據(jù)科學(xué)云平臺(tái)圖靈引擎先后完 成了與華為 TaiShan 服務(wù)器的兼容互認(rèn)證。2021 年 1 月東方國(guó)信 CirroData-TimeS 時(shí)序 數(shù)據(jù)庫(kù)和 CirroData-Graph 分布式圖數(shù)據(jù)庫(kù)分別與華為鯤鵬芯片完成了兼容性測(cè)試,獲 得華為鯤鵬計(jì)算領(lǐng)域 OpenLab 授予的鯤鵬技術(shù)認(rèn)證書(shū)。
供給瓶頸解決,市場(chǎng)需求打開(kāi),鯤鵬產(chǎn)業(yè)鏈迎來(lái)機(jī)遇。我們預(yù)計(jì)華為去美化 28nm 制程產(chǎn)線有望突破,鯤鵬芯片產(chǎn)能問(wèn)題有望得到解決。鯤鵬計(jì)算生態(tài)產(chǎn)業(yè)鏈有望受益, 各環(huán)節(jié)廠商有望迎來(lái)加速發(fā)展。我們看好華為“硬件開(kāi)放,軟件開(kāi)源”策略下的產(chǎn)業(yè)鏈 投資機(jī)會(huì)。
(本文僅供參考,不代表我們的任何投資建議。如需使用相關(guān)信息,請(qǐng)參閱報(bào)告原文。)
精選報(bào)告來(lái)源:【未來(lái)智庫(kù)】。系統(tǒng)發(fā)生錯(cuò)誤
源:市場(chǎng)資訊
(報(bào)告出品方/作者:華泰證券,謝春生、袁澤世)
大模型復(fù)盤:全球格局與模型特點(diǎn)基本明晰
2023 年是大模型(LLM)技術(shù)和應(yīng)用快速迭代的一年。重要催化劑是 22 年 11 月底發(fā)布的 ChatGPT。ChatGPT 雖然在技術(shù)基座上是之前已經(jīng)問(wèn)世的 GPT-3 和 InstructGPT,但它給 了全球用戶一個(gè)與 LLM 交互的自然語(yǔ)言界面,極大拉近了 LLM 與普通大眾的距離,引起了 資本的關(guān)注,成為大模型技術(shù)加速迭代的導(dǎo)火索。微軟、Google、Meta、Nvidia 等龍頭大 廠,OpenAI、Anthropic、Mistra 等初創(chuàng)公司,以及斯坦福、清華、上交等學(xué)術(shù)機(jī)構(gòu),引領(lǐng) 了 23 年的 LLM 發(fā)展。LLM 技術(shù)也從模型本身擴(kuò)展到端側(cè)、AI Agent、具身智能等更廣泛 的領(lǐng)域。此外,在大模型技術(shù)應(yīng)用上,一方面,云 SaaS 廠商將 AI 賦能于傳統(tǒng) SaaS 軟件, 如微軟 Copilot 和 Adobe Firefly;另一方面,以 AI 為核心的應(yīng)用興起,如 AI 搜索 Perplexity, 文生圖 Stable Diffusion、Midjourney、DALL-E,文生視頻 Runway、Pika、Sora 等。
全球格局:海外技術(shù)收斂,國(guó)內(nèi)百花齊放
海外閉源大模型已經(jīng)形成 OpenAI 為首,Google、Anthropic 等模型緊隨的格局。閉源模 型中,雖然 Google Gemini 和 Anthropic 分別于 24 年 2 月和 3 月更新了 1.5 Pro(Gemini 1.0 是在 23 年 12 月)和 Claude 3,在上下文長(zhǎng)度、數(shù)學(xué)、編碼、專業(yè)領(lǐng)域等能力測(cè)評(píng)上超過(guò) 了 GPT-4,但是考慮到:1)GPT-4 和 4 Turbo 實(shí)質(zhì)上為 23 年 3 月 GPT-4 系列的迭代,比 Gemini 和 Claude 3 早推出近一年;2)ChatGPT 對(duì)多模態(tài)、App 語(yǔ)音交互、工具調(diào)用(聯(lián) 網(wǎng)、高級(jí)數(shù)據(jù)分析)、智能體(GPTs)等能力進(jìn)行了有機(jī)整合;3)根據(jù) UC 伯克利大學(xué) Chatbot Arena 的榜單(該榜單為用戶盲測(cè)模型評(píng)價(jià)的結(jié)果,較為客觀),GPT-4 的用戶體驗(yàn)仍是頭 部頂尖水平;4)GPT-5 已在訓(xùn)練中;5)GPT-4o 的端到端能力再次提升。因此,我們認(rèn) 為,OpenAI 的技術(shù)仍處于暫時(shí)領(lǐng)先。
Meta 的 Llama 系列作為開(kāi)源模型,具有格局上的特殊性和分界性。海外模型廠商如果在 模型性能上無(wú)法超越同代的開(kāi)源 Llama 模型(據(jù) Meta 官網(wǎng) 4 月 18 日信息,Llama 3 的 8B 和 70B 先行版小模型已經(jīng)發(fā)布,最大的 400B 參數(shù)正在訓(xùn)練),則很難在海外基礎(chǔ)模型中占 據(jù)一席之地,除非模型具有差異化應(yīng)用場(chǎng)景,典型的如陪伴類應(yīng)用 Character.ai。此外,除 了頭部大參數(shù)模型,能夠超過(guò)同代 Llama 的較小參數(shù)或者有獨(dú)特使用體驗(yàn)的模型,也會(huì)得 到用戶青睞,典型的如:1)馬斯克旗下 xAI 的 Grok-1(已開(kāi)源)、Grok-1.5(未開(kāi)源),能 夠獨(dú)家使用 X 平臺(tái)上的數(shù)據(jù),較好的響應(yīng)用戶實(shí)時(shí)信息查詢需求;2)法國(guó)大模型初創(chuàng)公司 Mistral,開(kāi)源了 Mistral 7B、Mixtral 8x7B-MoE 小模型,適配算力受限的端側(cè)等平臺(tái),隨后 又轉(zhuǎn)入閉源模型,更新了性能更強(qiáng)的 Mistral-medium 和 large,并與微軟合作,在 Azure 上為用戶提供 API。
國(guó)內(nèi)模型百花齊放,互聯(lián)網(wǎng)大廠、初創(chuàng)公司、科技企業(yè)均有代表性模型產(chǎn)品。國(guó)內(nèi)模型技 術(shù)辨識(shí)度不高,據(jù) SuperCLUE 測(cè)評(píng)結(jié)果榜單,頭部的國(guó)內(nèi)模型在得分上相差并不顯著。在 國(guó)內(nèi)主流的模型中,互聯(lián)網(wǎng)廠商和科技企業(yè)在大模型上起步較早,如百度在 GPT-4 發(fā)布的 后一天即 23 年 3 月 15 日發(fā)布文心一言,23 年 3 月 29 日 360 智腦 1.0 發(fā)布,23 年 4 月通 義千問(wèn)上線,23 年 5 月 6 日訊飛星火 1.0 發(fā)布。進(jìn)入 24 年,初創(chuàng)公司的大模型產(chǎn)品得到 了更廣泛的關(guān)注,例如 24 年 3 月月之暗面更新 Kimi 智能助手 200 萬(wàn)字的上下文支持能力, 直接引發(fā)了百度、360 等廠商對(duì)長(zhǎng)上下文的適配。同月階躍星辰 STEP 模型發(fā)布,其 STEP 2 宣稱為萬(wàn)億參數(shù) MoE 模型,直接對(duì)標(biāo) GPT-4 的參數(shù)(一般認(rèn)為是 1.8 T 參數(shù)的 MoE), 在大多數(shù)國(guó)內(nèi)模型以千億參數(shù)為主的環(huán)境下,將參數(shù)量率先提升到萬(wàn)億級(jí)別。4 月,MiniMax 也發(fā)布了萬(wàn)億參數(shù) MoE 架構(gòu)的 abab 6.5。
特點(diǎn)#1:大模型與小模型同步發(fā)展
根據(jù) Scaling Law,更大參數(shù)、更多數(shù)據(jù)和更多算力能夠得到更好的模型智能。2020 年 1 月,OpenAI 發(fā)布論文《Scaling Laws for Neural Language Models》,奠定了 Scaling Law (縮放定律)的基礎(chǔ),為后續(xù) GPT 的迭代指明了大參數(shù)、大算力方向。Scaling Laws 是一 種經(jīng)驗(yàn)性質(zhì)的結(jié)論,并非完備的數(shù)學(xué)理論推導(dǎo)。OpenAI 在 decoder-only Transformer 架構(gòu) 的特定配置下進(jìn)行了詳盡的實(shí)驗(yàn),摸清了模型性能(用模型 Loss 衡量,Loss 越小性能越 好)與參數(shù)(N)、數(shù)據(jù)集 token(D)和投入訓(xùn)練算力(C)的關(guān)系——N、D、C 是影響 Loss 最顯著的因素,三者增加將帶來(lái)更好的模型性能。Transformer 架構(gòu)中的層數(shù)、向量 寬度等其它參數(shù)并不構(gòu)成主要影響因素。
根據(jù) Scaling Law 論文,可以用 6ND 來(lái)估算模型所需要的訓(xùn)練算力(以 FLOPs 為單位)。 Transformer 架構(gòu)涉及了多種參數(shù),包括層數(shù)(nlayer)、殘差流維數(shù)(dmodel)、前饋層維數(shù) (dff)、注意力機(jī)制輸出維數(shù)(dattn)、每層注意力頭數(shù)(nhead)、輸入上下文 token 數(shù)(nctx) 等。在訓(xùn)練數(shù)據(jù)進(jìn)入 Transformer 解碼器后,每一步運(yùn)算都會(huì)涉及相應(yīng)的參數(shù),并對(duì)應(yīng)有需 求的算力。據(jù) OpenAI 測(cè)算,單個(gè) token 訓(xùn)練時(shí)在 Transformer 解碼器中正向傳播,所需 FLOPs(每秒浮點(diǎn)運(yùn)算數(shù))為 2N+2nlayernctxdattn。由于在論文寫(xiě)作于 2020 年,當(dāng)時(shí)模型上 下文長(zhǎng)度 nctx并不長(zhǎng),滿足 dmodel> nctx/12,因此 2N+2nlayernctxdattn可約等于 2N。在訓(xùn)練中 反向傳播時(shí),所需算力約為正向的 2 倍(即 4N),因此單個(gè) token 訓(xùn)練全過(guò)程需要算力總 共 6N FLOPs,考慮全部的訓(xùn)練 token 數(shù) D,共需算力近似 6ND FLOPs。在推理時(shí),為了 計(jì)算方便,通常采用正向訓(xùn)練算力需求 2ND 來(lái)計(jì)算所需 FLOPs。 值得注意的是,目前 Claude 3、Gemini 1.5 Pro、Kimi 智能助手等大模型支持的上下文 長(zhǎng)度遠(yuǎn)超當(dāng)年,dmodel > nctx/12 不再滿足,因此 2nlayernctxdattn 應(yīng)予以考慮。即上下文長(zhǎng)度 更長(zhǎng)時(shí),訓(xùn)練需求的算力是高于 6ND 的。
在 Scaling Law 指導(dǎo)下,OpenAI 延續(xù)了大參數(shù)模型的路線。2020 年 1 月 Scaling Laws 論文發(fā)表后不久,2020 年 5 月 GPT-3 系列問(wèn)世,將參數(shù)從 GPT-2 的 15 億提升到 1750 億, 訓(xùn)練數(shù)據(jù)大小從 40G 提升到 570G(數(shù)據(jù)處理后,處理前數(shù)據(jù)量更大),分別提升了 100+ 倍和 14 倍。到了 GPT-4,雖然 OpenAI 官方未公布參數(shù)大小,但是根據(jù) SemiAnalysis 的 信息,目前業(yè)界基本默認(rèn)了 GPT-4 是 1.8 萬(wàn)億參數(shù)的 MoE 模型,訓(xùn)練數(shù)據(jù)集包含約 13 萬(wàn) 億個(gè) token,使用了約 25,000 個(gè) A100 GPU,訓(xùn)練了 90 到 100 天,參數(shù)量、數(shù)據(jù)集和訓(xùn) 練所需算力相比 GPT-3 又有數(shù)量級(jí)的提升。OpenAI 在不斷踐行 Scaling Law,將模型的參 數(shù)以及模型的智能提升到新的層級(jí)。
從 Google 和 Anthropic 的模型布局看,印證了大參數(shù)能帶來(lái)模型性能的提升。Google 的 Gemini 和 Anthropic 的 Claude 3 系列均分別提供了“大中小”三款模型,雖然兩家廠商并 未給出模型參數(shù)、訓(xùn)練數(shù)據(jù)細(xì)節(jié),但是均表示更大的模型智能更強(qiáng), 推理速度相對(duì)較慢,所需的算力和訓(xùn)練數(shù)據(jù)也相應(yīng)更多,是對(duì) Scaling Law 的印證。此外, 我們梳理了全球主流模型廠商的參數(shù)情況,同樣發(fā)現(xiàn)旗艦?zāi)P偷膮?shù)量仍在變大。
我們認(rèn)為,全球頭部閉源模型的參數(shù)目前呈現(xiàn)的規(guī)律是:跨代際更新,模型參數(shù)進(jìn)一步加 大;同代際更新,隨著模型技術(shù)架構(gòu)優(yōu)化和軟硬件資源協(xié)同能力提高,在模型性性能不降 的情況下,參數(shù)或做的更小。Google 和 OpenAI 的最新模型都呈現(xiàn)了這個(gè)趨勢(shì)。24 年 5 月 13 日,OpenAI 發(fā)布了 GPT-4o 模型,在多模態(tài)端到端的架構(gòu)基礎(chǔ)上,實(shí)現(xiàn)了更快的推 理速度,以及相比于 GPT-4 Turbo 50%的成本下降,我們推測(cè)其模型參數(shù)或在下降。5 月 14 日 Google 發(fā)布了 Gemini 1.5 Flash,官方明確指出 Flash 是在 Pro 的基礎(chǔ)上,通過(guò)在線 蒸餾的方式得到,即 Flash 的參數(shù)小于 Pro。
大參數(shù)并不是唯一選擇,小參數(shù)模型更好適配了終端算力受限的場(chǎng)景。Google 的 Gemini 系列是典型代表,其最小的 Nano 包括 1.8B 和 3.25B 兩個(gè)版本,并且已經(jīng)在其 Pixel 8 Pro 和三星 Galaxy S24 上實(shí)現(xiàn)部署,取得了不錯(cuò)的終端 AI 效果。此外,Google 在 24 年 2 月 開(kāi)源了輕量級(jí)、高性能 Gemma(2B 和 7B 兩種參數(shù)版本),與 Gemini 模型技術(shù)同源,支 持商用。Google 指出,預(yù)訓(xùn)練和指令調(diào)整的 Gemma 模型可以在筆記本電腦、工作站、物 聯(lián)網(wǎng)、移動(dòng)設(shè)備或 Google Cloud 上運(yùn)行。微軟同樣在 23 年 11 月的 Ignite 大會(huì)上提出了 SLM(小語(yǔ)言模型)路線,并將旗下的 Phi 模型升級(jí)到 Phi-2,參數(shù)大小僅 2.7B,性能超過(guò) 7B 參數(shù)的 Llama 2。24 年 4 月 Phi-3 發(fā)布,最小參數(shù)僅 3.8B,其性能超過(guò)參數(shù)量大其兩倍 的模型,5 月微軟 Build 大會(huì)上,Phi-3 系列參數(shù)為 7B 和 14B 的模型發(fā)布。
Mistral發(fā)布的 7B和 8x7B 模型也是開(kāi)源小模型的典型代表。法國(guó)人工智能初創(chuàng)公司 Mistral AI 成立于 2023 年 5 月,其高管來(lái)自 DeepMind、Facebook 等核心 AI 團(tuán)隊(duì)。2023 年 9 月 和 12 月,Mistral 分別開(kāi)源了 Mistral-7B(73 億參數(shù))和 Mixtral-8x7B-MoE(467 億參數(shù), 8 個(gè) 專 家 )。 Mistral-7B 在多項(xiàng)測(cè)試基準(zhǔn)中優(yōu)于 130 億 參 數(shù) 的 Llama 2-13B 。 Mixtral-8x7B-MoE 在大多數(shù)測(cè)試基準(zhǔn)上超過(guò) Llama 2,且推理速度提高了 6 倍;與 GPT-3.5 相比,也能在多項(xiàng)測(cè)評(píng)基準(zhǔn)上達(dá)到或超過(guò) GPT-3.5 水平。在小參數(shù)開(kāi)源模型中,Mistral 的 競(jìng)爭(zhēng)力很強(qiáng)。Mistral 推出的平臺(tái)服務(wù) La plateforme 也支持模型的 API 調(diào)用。
小參數(shù)模型的訓(xùn)練算力需求仍在變大,定性看,訓(xùn)推算力需求空間可觀。雖然模型參數(shù)較 小,但是為了提高性能,模型廠商均投入了大量的訓(xùn)練數(shù)據(jù)。如Phi-2有1.4T訓(xùn)練數(shù)據(jù)tokens, Phi-3 為 3.3T tokens,Gemma 為 6T/2T tokens(分別對(duì)應(yīng) 7B 和 2B 模型)。24 年 4 月 Meta 率先開(kāi)源的兩個(gè) Llama 3 系列小模型 8B 和 70B,對(duì)應(yīng)的訓(xùn)練 token 已經(jīng)達(dá)到了 15T,并且 Meta 表示,即使已經(jīng)使用了 15T 的訓(xùn)練數(shù)據(jù),仍能看到模型性能的持續(xù)提升。我們認(rèn)為, 雖然單個(gè)小模型相比于大模型訓(xùn)練算力需求并不大,但是一方面小模型本身的訓(xùn)練數(shù)據(jù)集 在不斷增加,另一方面,未來(lái)在終端 AI PC 和手機(jī),甚至車機(jī)和機(jī)器人上,都有可能部署 終端模型,因此定性看,小模型總體的訓(xùn)練和推理算力需求仍然可觀。
特點(diǎn)#2:原生多模態(tài)逐步成為頭部大模型的標(biāo)配能力
OpenAI 的 GPT 系列在全球閉源大語(yǔ)言模型廠商中率先適配多模態(tài)能力。拋開(kāi)專門的多模 態(tài)模型/產(chǎn)品,如文生圖 Stable Diffusion / Midjourney / DALL-E,文生視頻 Sora / Runway / Pika / Stable Video Diffusion 外,在頭部閉源 LLM 中,OpenAI 的 GPT-4 最先引入多模態(tài) 能力。23 年 3 月,GPT-4 技術(shù)報(bào)告中即展示了 GPT-4 支持文本和圖像兩種模態(tài)作為輸入。 9 月 25 日,OpenAI 官方 Blog 宣布 GPT-4 的 Vision(視覺(jué))能力上線,支持多圖和文本的 交錯(cuò)推理,同時(shí)宣布 ChatGPT App 支持語(yǔ)音交互(語(yǔ)音轉(zhuǎn)文本模型為 Whisper,文本轉(zhuǎn)語(yǔ) 音模型為 Voice Engine)。23 年 10 月 19 日,OpenAI 旗下新一代文生圖模型 DALL-E 3 在 ChatGPT 中實(shí)裝上線,可以通過(guò)與 ChatGPT 對(duì)話來(lái)實(shí)現(xiàn)文生圖。
通過(guò)模型間非端到端協(xié)作,ChatGPT 網(wǎng)頁(yè)端和 App 實(shí)現(xiàn)了完備的多模態(tài)能力支持。隨著 OpenAI 的 GPT-4V、DALL-E 3、Whisper、Voice Engine 等模型的上線和更新,OpenAI 將所有的模型協(xié)同集成成 pipeline 形式,使得 ChatGPT 能夠?qū)崿F(xiàn):1)推理文本;2)理解 圖像;3)生成圖像;4)語(yǔ)音轉(zhuǎn)文本;5)文本轉(zhuǎn)語(yǔ)音。ChatGPT 成為 2023 年支持模態(tài)最 多的 LLM 產(chǎn)品。
Google 從 PaLM 模型開(kāi)始即在探索 LLM 向多模態(tài)領(lǐng)域的拓展。PaLM 是 Google Gemini 的前一代主要模型系列。2022 年 4 月,Google 的 PaLM 模型問(wèn)世。PaLM 自身為大語(yǔ)言 模型,僅支持文本模態(tài),但是在 PaLM 的能力之上,Google 將圖像、機(jī)器人具身數(shù)據(jù)轉(zhuǎn)化 為文本 token 形式,訓(xùn)練出多模態(tài)模型 PaLM-E。此外,還將音頻模態(tài)與 PaLM 模型結(jié)合, 發(fā)布 AudioPaLM。在醫(yī)療領(lǐng)域,Google 先基于 PaLM 訓(xùn)練出醫(yī)療語(yǔ)言模型 Med-PaLM, 隨后在 Med-PaLM 基礎(chǔ)上將醫(yī)療圖像知識(shí)增加到訓(xùn)練數(shù)據(jù)中,訓(xùn)練出醫(yī)療領(lǐng)域多模態(tài)模型 Med-PaLM M。
Gemini 模型問(wèn)世后,端到端原生多模態(tài)能力成為頭部模型廠商的“標(biāo)配”能力。2023 年 5 月的 I/O 大會(huì)上,Google 宣布了下一代模型 Gemini,但未透露細(xì)節(jié)。12 月,Gemini 1.0 模型發(fā)布,配備了 Ultra/Pro/Nano 三種參數(shù)大小依次遞減的型號(hào)。Gemini 同樣支持文本、 圖像、視頻、音頻等多模態(tài),但是其范式和 OpenAI 的 ChatGPT 有很大區(qū)別:ChatGPT 屬于多種不同模型的集合,每個(gè)模型負(fù)責(zé)不同的模態(tài),結(jié)果可以串聯(lián);而 Gemini 具備端 到端的原生多模態(tài)能力,Gemini 模型自身可以處理全部支持的模態(tài)。據(jù) The Decoder 信 息,23 年 OpenAI 內(nèi)部已經(jīng)在考慮一種代號(hào)為“Gobi”的新模型,該模型同樣從一開(kāi)始就 被設(shè)計(jì)為原生多模態(tài)。我們認(rèn)為,這種端到端的原生多模態(tài)范式將成為未來(lái)頭部大模型廠 商實(shí)現(xiàn)多模態(tài)的主流范式。
Anthropic Claude 模型多模態(tài)能力“雖遲但到”,Claude 3 模型科研能力優(yōu)異。Anthropic 的 Claude 系列模型在 2024 年 3 月更新到 Gen 3 后,全系適配了多模態(tài)圖像識(shí)別能力,并 在科學(xué)圖表識(shí)別上大幅超越 GPT-4 和 Gemini 1.0 Ultra。此外,Claude 3 Haiku 有著優(yōu)秀 的成本控制和推理速度優(yōu)勢(shì),據(jù) Anthropic 官方,Haiku 的速度是同類產(chǎn)品的三倍,能夠在 一秒內(nèi)處理約 30 頁(yè)的內(nèi)容(21K token),使企業(yè)能夠快速分析大量文檔,例如季度備案、 合同或法律案件,且一美元就能分析 400 個(gè)最高法院案例或 2500 張圖片。
GPT-4o 在 GPT-5 發(fā)布之前實(shí)現(xiàn)了端到端的多模態(tài)支持,驗(yàn)證了原生多模態(tài)的技術(shù)趨勢(shì)。 24 年 5 月 14 日 Google I/O 大會(huì)前夕,OpenAI 發(fā)布了新版模型 GPT-4o(omni),棄用了 之前 ChatGPT 拼接 GPT-4V、Whisper、DALL-E 的非端到端模式,統(tǒng)一了文本、圖像、音 頻和視頻模態(tài),以端到端的方式,實(shí)現(xiàn)了輸入文本、圖像、音頻和視頻,輸出文本、圖像 和音頻,追上了 Google Gemini 的原生多模態(tài)進(jìn)度,并且模態(tài)支持更加全面(4o 支持音頻 輸出,Gemini 不支持)。4o 在文本、圖像、音頻等各項(xiàng)指標(biāo)上均超越了同等級(jí)現(xiàn)有模型。
Claude 3.5 Sonnet增強(qiáng)了UI交互體驗(yàn),與GPT-4o的語(yǔ)音交互相比朝著差異化路徑發(fā)展。 6 月 21 日,Anthropic 宣布了 Claude 3.5 Sonnet 模型,在價(jià)格相比于 Claude 3 Sonnet 不 變的情況下,在研究生水平推理、代碼等能力(文本層面),以及視覺(jué)數(shù)學(xué)推理、圖表問(wèn)答 等能力(視覺(jué)層面)上超過(guò)了 GPT-4o。Claude 3.5 Sonnet 另一個(gè)突出的性能是 UI 交互能 力的增強(qiáng),主要由 Artifacts 功能實(shí)現(xiàn)。當(dāng)用戶要求 Claude 生成代碼片段、文本文檔或網(wǎng)站 設(shè)計(jì)等內(nèi)容時(shí),對(duì)話旁邊的專用窗口中將實(shí)時(shí)出現(xiàn)相應(yīng)的展示,例如編寫(xiě)的游戲、網(wǎng)頁(yè)等。 Anthropic 指出,Artifacts 交互方式未來(lái)將會(huì)從個(gè)人拓展到團(tuán)隊(duì)和整個(gè)組織協(xié)作,將知識(shí)、 文檔和正在進(jìn)行的工作集中在一個(gè)共享空間中。我們認(rèn)為,GPT-4o 和 Claude 3.5 Sonnet 均在優(yōu)化用戶交互上下功夫,但是兩者的方向存在差異化,GPT-4o 更注重語(yǔ)音交互,而 Sonnet 更注重 UI 界面交互。
國(guó)內(nèi)模型廠商積極適配多模態(tài),以圖像理解能力為主。在 GPT-4 宣布支持多模態(tài)后,國(guó)內(nèi) 廠商也積極適配多模態(tài)圖片的識(shí)別、理解和推理。截至 2024 年 4 月,國(guó)產(chǎn)主流模型多模態(tài) 支持情況如下:1)百度文心一言,說(shuō)圖解畫(huà)支持單張圖像推理,支持圖像生成。2)阿里 通義千問(wèn),支持單張圖片推理,支持圖像生成。阿里開(kāi)源的模型 Qwen-VL 支持圖像推理。 3)騰訊混元助手,支持圖像生成,以及單張圖像推理。3)訊飛星火,支持單張圖像推理, 支持圖像生成。4)智譜 ChatGLM 4,支持單張圖像推理,支持圖像生成。5)360 智腦, 支持圖像生成。6)字節(jié)豆包,支持圖像生成。7)Kimi 智能助手,支持圖片中的文字識(shí)別。 月之暗面官方表示 24 年下半年將支持多模態(tài)推理。8)階躍星辰基于 Step 模型的助手躍問(wèn), 支持多圖推理。
特點(diǎn)#3:上下文作為 LLM 的內(nèi)存,是實(shí)現(xiàn)模型通用化的關(guān)鍵
國(guó)外 LLM 廠商較早實(shí)現(xiàn)長(zhǎng)上下文,國(guó)內(nèi)廠商通過(guò)長(zhǎng)上下文找到差異化競(jìng)爭(zhēng)優(yōu)勢(shì)。國(guó)外較早 實(shí)現(xiàn)長(zhǎng)上下文的廠商是 Anthropic,旗下 Claude 模型在 23 年 11 月,將支持的上下文從 100K tokens 提升到 200K,同時(shí)期的 GPT-4 維持在 128K。24 年 2 月,Google 更新 Gemini 到 1.5 Pro 版本,將上下文長(zhǎng)度擴(kuò)展到 1M(5 月更新中擴(kuò)展到 2M),并在內(nèi)部實(shí)現(xiàn)了 10M, 是目前已知最大上下文長(zhǎng)度。國(guó)內(nèi)方面,23 年 10 月由月之暗面發(fā)布的 Kimi 智能助手(原 名 Kimi Chat),率先提供 20 萬(wàn)字的長(zhǎng)上下文,并在 24 年迎來(lái)了用戶訪問(wèn)量的大幅提升。 24 年 3 月,阿里通義千問(wèn)和 Kimi 先后宣布支持 1000 萬(wàn)字和 200 萬(wàn)字上下文,引發(fā)國(guó)內(nèi)百 度文心一言、360 智腦等廠商紛紛跟進(jìn)長(zhǎng)上下文能力迭代。我們認(rèn)為,國(guó)內(nèi) LLM 廠商以長(zhǎng) 上下文為契機(jī),尋找到了細(xì)分領(lǐng)域差異化的競(jìng)爭(zhēng)路線,或有助于指導(dǎo)后續(xù)的模型迭代。
長(zhǎng)上下文使得模型更加通用化。據(jù)月之暗面官方信息,長(zhǎng)上下文能夠解決 90%的模型微調(diào) 定制問(wèn)題。對(duì)于短上下文模型,在執(zhí)行具體的下游任務(wù)前,其已具備的能力往往仍有欠缺, 需要針對(duì)下游任務(wù)進(jìn)行微調(diào)。微調(diào)的基本步驟包括數(shù)據(jù)集的準(zhǔn)備、微調(diào)訓(xùn)練等,中間可能 還涉及微調(diào)結(jié)果不理想,需要重新梳理微調(diào)過(guò)程。而上下文長(zhǎng)度足夠的情況下,可以將數(shù) 據(jù)作為提示詞的一部分,直接用自然語(yǔ)言輸入給大模型,讓模型從上下文中學(xué)習(xí),達(dá)到微 調(diào)效果,使得模型本身更具有通用性。以 Google Gemini 1.5 Pro 為例,將 250K token 的 Kalamang 語(yǔ)(全球使用人數(shù)小于 200 人,幾乎不存在于 LLM 的訓(xùn)練集中)直接作為上下 文輸入給模型,實(shí)現(xiàn)了接近人類的翻譯水平。而 GPT-4 和 Claude 2.1 由于上下文支持長(zhǎng)度 不夠,無(wú)法通過(guò)上下文學(xué)習(xí)到全部的知識(shí)。
長(zhǎng)上下文還能很好的適配虛擬角色、開(kāi)發(fā)者、AI Agent、垂類場(chǎng)景等需求。1)虛擬角色 Chatbot:長(zhǎng)文本能力幫助虛擬角色記住更多的重要用戶信息,提高使用體驗(yàn)。2)開(kāi)發(fā)者: 基于大模型開(kāi)發(fā)劇本殺等游戲或應(yīng)用時(shí),需要將數(shù)萬(wàn)字甚至超過(guò)十萬(wàn)字的劇情設(shè)定以及游 戲規(guī)則作為 prompt 輸入,對(duì)長(zhǎng)上下文能力有著剛性需求。3)AI Agent:Agent 智能體運(yùn) 行需要自主進(jìn)行多輪規(guī)劃和決策,且每步行動(dòng)都可能需要參考?xì)v史記憶信息才能完成。因 此,短上下文會(huì)導(dǎo)致長(zhǎng)流程中的信息遺忘,長(zhǎng)上下文是 Agent 效果的重要保障。4)垂直場(chǎng) 景客戶需求:對(duì)于律師、分析師、咨詢師等專業(yè)用戶群體,有較多長(zhǎng)文本內(nèi)容分析需求, 模型長(zhǎng)上下文能力是關(guān)鍵。
實(shí)現(xiàn)長(zhǎng)上下文有多種方法,優(yōu)化 Transformer 架構(gòu)模塊是核心。拆解 Transformer 解碼器, 可以通過(guò)改進(jìn)架構(gòu)中的各個(gè)模塊來(lái)實(shí)現(xiàn)上下文長(zhǎng)度的拓展。1)高效注意力機(jī)制:高效的注 意力機(jī)制能夠降低計(jì)算成本,甚至實(shí)現(xiàn)線性時(shí)間復(fù)雜度。這樣在訓(xùn)練時(shí)就可以實(shí)現(xiàn)更長(zhǎng)的 序列長(zhǎng)度,相應(yīng)的推理序列長(zhǎng)度也會(huì)更長(zhǎng)。2)實(shí)現(xiàn)長(zhǎng)期記憶:設(shè)計(jì)顯式記憶機(jī)制,如給予 外部存儲(chǔ),解決上下文記憶的局限性。3)改進(jìn)位置編碼 PE:對(duì)現(xiàn)有的位置編碼 PE 進(jìn)行 改進(jìn),實(shí)現(xiàn)上下文外推。4)對(duì)上下文進(jìn)行處理:用額外的上下文預(yù)/后處理,在已有的 LLM (視為黑盒)上改進(jìn),確保每次調(diào)用中給 LLM 的輸入始終滿足最大長(zhǎng)度要求。5)其他方 法:以更廣泛的視角來(lái)增強(qiáng) LLM 的有效上下文窗口,或優(yōu)化使用現(xiàn)成 LLM 時(shí)的效率,例如 MoE(混合專家)、特殊的優(yōu)化目標(biāo)函數(shù)、并行策略、權(quán)重壓縮等。
RAG 與其他長(zhǎng)文本實(shí)現(xiàn)方法相比,并沒(méi)有顯著的優(yōu)劣之分,要結(jié)合場(chǎng)景進(jìn)行選擇。RAG 基本原理是,在用戶提問(wèn)時(shí),retriever(檢索器)會(huì)從外部的知識(shí)庫(kù)中檢索最相關(guān)的信息傳 遞給大模型,作為大模型推理所需知識(shí)的補(bǔ)充。RAG 更像是大模型本身的“外掛”幫手。 而優(yōu)化注意力機(jī)制等其他長(zhǎng)上下文實(shí)現(xiàn)方法,則是大模型的“內(nèi)生”能力,是模型本身能 夠支持輸入更長(zhǎng)的信息,并通過(guò)注意力機(jī)制掌握序列全局關(guān)系。“內(nèi)生”似乎比“外掛”更 高級(jí),因?yàn)槟P蜁?huì)捕捉到用戶提出的所有歷史信息,更適用于 C 端信息量有限場(chǎng)景。但是 對(duì)于 B 端用戶,其企業(yè) Know-How 積累量巨大,且很多知識(shí)也是結(jié)構(gòu)化的 QA(如客服), 而模型上下文長(zhǎng)度不可能無(wú)限延長(zhǎng)(受制于算法、算力、推理時(shí)間等各種因素),因此 RAG 這種“外掛”的形式更加適合。例如,主要面向 B 端的大模型廠商 Cohere,將 RAG 作為 模型重要能力以適配 B 端檢索場(chǎng)景,其 Command R+模型本身上下文長(zhǎng)度僅 128K。 我們認(rèn)為,“內(nèi)生”長(zhǎng)文本技術(shù)是從根本上解決問(wèn)題,是發(fā)展趨勢(shì),但是受制于算力等因素 (未來(lái)或?qū)⒅鸩浇鉀Q),短期內(nèi)將與 RAG 共存,選擇上取決于使用場(chǎng)景。
特點(diǎn)#4:MoE 是模型從千億到萬(wàn)億參數(shù)的關(guān)鍵架構(gòu)
MoE 架構(gòu)有利于預(yù)訓(xùn)練和推理效率的提升,方便模型 scale up 到更大的參數(shù)。據(jù) Hugging Face 信息,在有限的計(jì)算資源預(yù)算下,用更少的訓(xùn)練步數(shù)訓(xùn)練一個(gè)更大的模型,往往比用 更多的步數(shù)訓(xùn)練一個(gè)較小的模型效果更佳。MoE 的一個(gè)顯著優(yōu)勢(shì)是它們能夠在遠(yuǎn)少于稠密 模型所需的計(jì)算資源下進(jìn)行有效的預(yù)訓(xùn)練,當(dāng)計(jì)算資源有限時(shí),MoE 可以顯著擴(kuò)大模型或 數(shù)據(jù)集的規(guī)模,更快地達(dá)到稠密模型相同的質(zhì)量水平。MoE 的引入使得訓(xùn)練具有數(shù)千億甚 至萬(wàn)億參數(shù)的模型成為可能。MoE 特點(diǎn)在于:1)與稠密模型相比,預(yù)訓(xùn)練速度更快;2) 與具有相同參數(shù)數(shù)量的模型相比,具有更快的推理速度(因?yàn)橹恍枰{(diào)用部分參數(shù));3) 需要大量顯存,因?yàn)樗袑<蚁到y(tǒng)都需要加載到內(nèi)存中,而 MoE 架構(gòu)的模型參數(shù)可達(dá)到上 萬(wàn)億;4)MoE 進(jìn)行指令調(diào)優(yōu)具有很大的潛力,方便做 Chatbot 類應(yīng)用。
MoE 由稀疏 MoE 層和門控網(wǎng)絡(luò)/路由組成。MoE 模型仍然基于 Transformer 架構(gòu),組成部 分包括:1)稀疏 MoE 層:這些層代替了傳統(tǒng) Transformer 模型中的稠密前饋網(wǎng)絡(luò)層,包 含若干“專家”(例如 8、16、32 個(gè)),每個(gè)專家本身是一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)。這些專家甚 至可以是 MoE 層本身,形成層級(jí)式的 MoE 結(jié)構(gòu)。稀疏性體現(xiàn)在模型推理時(shí),并非所有參 數(shù)都會(huì)在處理每個(gè)輸入時(shí)被激活或使用,而是根據(jù)輸入的特定特征或需求,只有部分參數(shù) 集合被調(diào)用和運(yùn)行。2)門控網(wǎng)絡(luò)/路由:決定將用戶輸入的 tokens 發(fā)送到哪個(gè)具體的專家。 例如下圖中,“More”對(duì)應(yīng)的 token 被發(fā)送到第二個(gè)專家處理,而“Parameters”送到第一 個(gè)專家。一個(gè) token 也可以被發(fā)送到多個(gè)專家進(jìn)行處理。路由器中的參數(shù)需要學(xué)習(xí),將與 網(wǎng)絡(luò)的其他部分一同進(jìn)行預(yù)訓(xùn)練。
專家數(shù)量存在邊際遞減效應(yīng),MoE 的選擇也要考慮模型的具體應(yīng)用場(chǎng)景。據(jù) Hugging Face 信息,增加更多專家可以加速模型的運(yùn)算速度和推理效率,但這一提升隨著專家數(shù)量的增 加而邊際遞減,尤其是當(dāng)專家數(shù)量達(dá)到 256 或 512 之后更為明顯。另外,雖然推理時(shí)只需 要激活部分參數(shù),但是推理前仍然需要將全量的模型參數(shù)加載到顯存中。據(jù) Switch Transformers 的研究結(jié)果,以上特性在小規(guī)模 MoE 模型下也同樣適用。在架構(gòu)的選擇上, MoE 適用于擁有多臺(tái)機(jī)器(分布式)且要求高吞吐量的場(chǎng)景,在固定的預(yù)訓(xùn)練計(jì)算資源下, 稀疏模型往往能夠?qū)崿F(xiàn)更優(yōu)的效果。在顯存較少且吞吐量要求不高的場(chǎng)景,傳統(tǒng)的稠密模 型則是更合適的選擇。
Google 是 MoE 架構(gòu)的早期探索者之一,OpenAI 實(shí)現(xiàn)了 MoE 的商業(yè)化落地。MoE 的理 念起源于 1991 年的論文《Adaptive Mixture of Local Experts》。在 ChatGPT 問(wèn)世之前, Google 已經(jīng)有了較深入的 MoE 研究,典型代表是 20 年的 Gshard 和 21 年的開(kāi)源 1.6 萬(wàn)億 Switch-Transformer 模型。23 年 3 月 GPT-4 問(wèn)世,OpenAI 繼續(xù)走了閉源路線,沒(méi)有公布 模型參數(shù)。但是據(jù) SemiAnalysis 信息,GPT-4 的參數(shù)約 1.8 萬(wàn)億,采用 MoE 架構(gòu),專家 數(shù)為 16,每次推理調(diào)用兩個(gè)專家,生成 1 個(gè) token 約激活 2800 億參數(shù)(GPT-3 為 1750 億參數(shù)),消耗 560 TFLOPs 算力。在 GTC 2024 演講上,黃仁勛展示了 GB200 訓(xùn)練 GPT 模型示意圖,給出的參數(shù)也是 GPT-MoE-1.8T,交叉印證。
Mistral 引發(fā) MoE 關(guān)注,Google 掀起 MoE 浪潮,國(guó)內(nèi)廠商跟隨發(fā)布 MoE 模型。23 年 12 月,Mistral 開(kāi)源 Mixtral-8x7B-MoE,以近 47 億的參數(shù)在多項(xiàng)測(cè)評(píng)基準(zhǔn)上達(dá)到或超過(guò) 1750 億參數(shù)的 GPT-3.5 水平,引發(fā)了全球開(kāi)發(fā)者對(duì) MoE 架構(gòu)的再次關(guān)注。英偉達(dá)的研究主管 Jim Fan 指出 MoE 將成為未來(lái)模型發(fā)展的重要趨勢(shì)。24 年 2 月,Google 將其最先進(jìn)模型 系列 Gemini 更新到 1.5 Pro,并指出架構(gòu)上從稠密架構(gòu)切換到 MoE 架構(gòu),實(shí)現(xiàn)了 1.5 Pro 模型性能的大幅提升,核心能力超過(guò) Gemini 1.0 Ultra。國(guó)內(nèi)外模型廠商隨即跟進(jìn)發(fā)布 MoE 相關(guān)模型,包括 xAI 開(kāi)源的 Grok-1(23 年 10 月已實(shí)現(xiàn) MoE,24 年開(kāi)源)、MiniMax abab6、 Databricks DBRX、AI21 Jamba、阿里 Qwen-1.5 MoE、昆侖萬(wàn)維天工 3.0、階躍星辰 STEP 2、商湯日日新 5.0 等。
大模型展望:Scaling Law + AI Agent + 具身智能
展望 24 年及之后的大模型發(fā)展方向,我們認(rèn)為,1)Scaling Law 雖然理論上有邊界,但 是實(shí)際上仍遠(yuǎn)未達(dá)到;2)雖然有 Mamba、KAN 等新的架構(gòu)挑戰(zhàn) Transformer,但是 Transformer 仍是主流,短期內(nèi)預(yù)期不會(huì)改變;3)以 Meta Llama 為首的開(kāi)源模型陣營(yíng)日 益強(qiáng)大,占據(jù)了整個(gè)基礎(chǔ)模型的超半數(shù)比重,且與閉源模型差距縮短;4)AI Agent 是實(shí) 現(xiàn) AGI 的重要加速器。5)具身智能隨著與 LLM 技術(shù)的融合,將變得更加可用。
展望#1:Scaling Law 理論上有邊界,但是目前仍未到達(dá)
Scaling Law 的趨勢(shì)終將會(huì)趨于平緩,但是目前公開(kāi)信息看離該邊界尚遠(yuǎn)。OpenAI 在 2020 年 1 月的 Scaling Law 論文中明確指出,整個(gè)研究過(guò)程中 OpenAI 在大算力、大參數(shù)和大訓(xùn) 練數(shù)據(jù)情況下,并沒(méi)有發(fā)現(xiàn) Scaling Law 出現(xiàn)邊界遞減的現(xiàn)象。但也提到,這個(gè)趨勢(shì)終將趨 于平緩(level off),因?yàn)樽匀徽Z(yǔ)言具有非零熵。但是實(shí)際上,根據(jù)斯坦福大學(xué) 2023 年的 AI Index 報(bào)告,2012-2023 年,頭部模型訓(xùn)練消耗的算力仍然在持續(xù)增大。
可預(yù)期的時(shí)間內(nèi),Scaling Law 的上限尚未看到,self-play 是趨勢(shì)。我們認(rèn)為,雖然 OpenAI 從理論上預(yù)測(cè)了 Scaling Law 的趨勢(shì)會(huì)區(qū)域平緩,但是目前全球頭部模型廠商依然遵循更大 的參數(shù)等于更高的智能。Gemini 和 Claude 3 發(fā)布的模型產(chǎn)品矩陣即驗(yàn)證了這一觀點(diǎn),例如 更小的 Claude 3 Haiku 輸出速度快于最大的 Claude 3 Opus,價(jià)格更低,智能情況和測(cè)評(píng) 得分也更低。清華大學(xué)教授、智譜 AI 的技術(shù)牽頭人唐杰教授在 24 年 2 月北京人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展大會(huì)上發(fā)表演講《ChatGLM:從大模型到 AGI 的一點(diǎn)思 考》,也指出了目前很多大模型還在 1000 億參數(shù)左右,“我們還遠(yuǎn)未到 Scaling law 的盡頭, 數(shù)據(jù)量、計(jì)算量、參數(shù)量還遠(yuǎn)遠(yuǎn)不夠。未來(lái)的 Scaling law 還有很長(zhǎng)遠(yuǎn)的路要走。”此外, 唐杰教授還認(rèn)為,“今年的階段性成果,是實(shí)現(xiàn) GPT 到 GPT Zero 的進(jìn)階,即大模型可以 自己教自己”,類似于 AlphaGo 到 Alphazero 的轉(zhuǎn)變,實(shí)現(xiàn)模型 self-play。
展望#2:模型幻覺(jué)短期難消除但可抑制,CoT 是典型方法
大模型的幻覺(jué)來(lái)源包括數(shù)據(jù)、訓(xùn)練過(guò)程、推理過(guò)程等。LLM 的幻覺(jué)(hallucination),即 LLM 輸出內(nèi)容與現(xiàn)實(shí)世界的事實(shí)或用戶輸入不一致,通俗說(shuō)就是“一本正經(jīng)胡說(shuō)”。幻覺(jué)的來(lái)源 主要分為 3 類:1)與訓(xùn)練數(shù)據(jù)相關(guān)的幻覺(jué);2)與訓(xùn)練過(guò)程相關(guān)的幻覺(jué);3)與推理過(guò)程相 關(guān)的幻覺(jué)。 根據(jù)幻覺(jué)來(lái)源的不同,針對(duì)性的有各種解決方法。1)數(shù)據(jù)相關(guān)的幻覺(jué):可以在準(zhǔn)備數(shù)據(jù)時(shí), 減少錯(cuò)誤信息和偏見(jiàn),擴(kuò)展數(shù)據(jù)知識(shí)邊界,減少訓(xùn)練數(shù)據(jù)中的虛假相關(guān)性,或者增強(qiáng) LLM 知識(shí)回憶能力,如使用思維鏈(CoT)。2)訓(xùn)練過(guò)程相關(guān)的幻覺(jué):可以避免有缺陷的模型 架構(gòu),例如改進(jìn)模型架構(gòu)或優(yōu)化注意力機(jī)制;也可以通過(guò)改進(jìn)人類偏好,減輕模型與人類 對(duì)齊時(shí)的奉承性。3)推理過(guò)程相關(guān)的幻覺(jué):主要是在解碼過(guò)程中,增強(qiáng)解碼的事實(shí)性和忠 誠(chéng)性,例如保證上下文和邏輯的一致等。
展望#3:開(kāi)源模型將在未來(lái)技術(shù)生態(tài)中占據(jù)一席之地
2023 年開(kāi)源模型在全球基礎(chǔ)模型中所占的比重大幅提高。根據(jù)斯坦福大學(xué) 2023 年的 AI Index 報(bào)告,2021-2023 年全球發(fā)布的基礎(chǔ)模型數(shù)量持續(xù)增多,且開(kāi)源模型的占比大幅提高, 21-23 年占比分別為 33.3%、44.4%和 65.7%。此外,4 月 OpenAI CEO 和 COO 在接受訪 談時(shí),指出“開(kāi)源模型無(wú)疑將在未來(lái)的技術(shù)生態(tài)中占據(jù)一席之地。有些人會(huì)傾向于使用開(kāi) 源模型,有些人則更偏好于托管服務(wù),當(dāng)然,也會(huì)有許多人選擇同時(shí)使用這兩種方式。”
Meta 持續(xù)開(kāi)源 Llama 系列模型,證明了開(kāi)源模型與閉源模型差距持續(xù)縮小。4 月 19 日, Llama 3-8B 和 70B 小模型發(fā)布,支持文本輸入和輸出,架構(gòu)和 Llama 2 基本類似 (Transformer decoder),上下文長(zhǎng)度 8K,15T 訓(xùn)練 token(Llama 2 是 2T)。評(píng)測(cè)結(jié)果看, Llama-70B 與 Gemini 1.5 Pro 和 Claude 3 Sonnet 相比(這兩個(gè)閉源模型參數(shù)都預(yù)期遠(yuǎn)大 于 70B),在多語(yǔ)言理解、代碼、小學(xué)數(shù)學(xué)等方面領(lǐng)先。Llama 3 繼續(xù)堅(jiān)持開(kāi)源,可商用, 但在月活超 7 億時(shí)需向 Meta 報(bào)備。根據(jù) Mata 官方信息,Llama 3 將開(kāi)源 4000 億參數(shù)版 本,支持多模態(tài),能力或是 GPT-4 級(jí)別。目前訓(xùn)練的階段性 Llama 3-400B 已經(jīng)在 MMLU 測(cè)評(píng)集(多任務(wù)語(yǔ)言理解能力)上得分 85 左右,GPT-4 Turbo 得分是 86.4,差距很小,且 Llama 3 400B 仍將在未來(lái)幾個(gè)月的訓(xùn)練中持續(xù)提升能力。基于 Llama 1 和 2 帶來(lái)的繁榮開(kāi) 源模型生態(tài),我們認(rèn)為,正式版 Llama 3 發(fā)布后,或?qū)⑦M(jìn)一步縮小開(kāi)源模型與閉源模型的 差距,甚至在某些方面繼續(xù)趕超。
大模型的開(kāi)源閉源之爭(zhēng)尚未有定論。開(kāi)源和閉源在各個(gè)領(lǐng)域中誰(shuí)占主導(dǎo),并沒(méi)有定數(shù)。復(fù) 盤來(lái)看,閉源在操作系統(tǒng)、瀏覽器、云基礎(chǔ)設(shè)施、數(shù)據(jù)庫(kù)等領(lǐng)域占據(jù)了主導(dǎo)地位,開(kāi)源在 內(nèi)容管理系統(tǒng)、網(wǎng)絡(luò)服務(wù)器等領(lǐng)域優(yōu)勢(shì)地位明顯。反觀大模型領(lǐng)域,開(kāi)源閉源誰(shuí)將最終勝 出尚未有定論。當(dāng)下,閉源模型的優(yōu)勢(shì)在于:1)資源集中:大模型訓(xùn)練屬于計(jì)算資源密集 型行業(yè),在當(dāng)前各大云廠商算力儲(chǔ)備爬坡階段,只有閉源才能實(shí)現(xiàn)萬(wàn)卡級(jí)別的大規(guī)模分布 式集群;2)人才集中:OpenAI、Google、Anthropic、Mata 等大模型頭部廠商,集中了目 前全球?yàn)閿?shù)不多的大模型訓(xùn)練人才,快速形成了頭部效應(yīng)。那我們的問(wèn)題是,這種優(yōu)勢(shì)持 續(xù)性有多長(zhǎng)?資源方面,未來(lái)隨著算力基礎(chǔ)設(shè)施的逐步完善、單位算力成本的下降、推理 占比逐步超過(guò)訓(xùn)練,大廠的資源密集優(yōu)勢(shì)是否還會(huì)顯著?人才方面,全球已經(jīng)看準(zhǔn)了 LLM 的方向,相關(guān)人才也在加速培養(yǎng),OpenAI 的相關(guān)人才也在快速流失和迭代,人才壁壘是否 也在降低?
展望#4:數(shù)據(jù)將成為模型規(guī)模繼續(xù)擴(kuò)大的瓶頸,合成數(shù)據(jù)或是關(guān)鍵
Epoch 預(yù)測(cè),未來(lái)訓(xùn)練數(shù)據(jù)的缺乏將可能減緩機(jī)器學(xué)習(xí)模型的規(guī)模擴(kuò)展。據(jù) Epoch 預(yù)測(cè), 2030 年到 2050 年,將耗盡低質(zhì)量語(yǔ)言數(shù)據(jù)的庫(kù)存;到 2026 年,將耗盡高質(zhì)量語(yǔ)言數(shù)據(jù)的 庫(kù)存;2030 年到 2060 年,將耗盡視覺(jué)數(shù)據(jù)的庫(kù)存。由于大參數(shù)模型對(duì)數(shù)據(jù)量需求的增長(zhǎng), 到 2040 年,由于缺乏訓(xùn)練數(shù)據(jù),機(jī)器學(xué)習(xí)模型的擴(kuò)展大約有 20%的可能性將顯著減慢。 值得注意的是,以上結(jié)論的前提假設(shè)是,機(jī)器學(xué)習(xí)數(shù)據(jù)使用和生產(chǎn)的當(dāng)前趨勢(shì)將持續(xù)下去, 并且數(shù)據(jù)效率不會(huì)有重大創(chuàng)新(這個(gè)前提未來(lái)可能被新合成技術(shù)打破)。
合成數(shù)據(jù)是解決數(shù)據(jù)缺乏的重要途徑,但目前相關(guān)技術(shù)仍需要持續(xù)改進(jìn)。理論上,數(shù)據(jù)缺 乏可以通過(guò)合成數(shù)據(jù)來(lái)解決,即 AI 模型自己生成訓(xùn)練數(shù)據(jù),例如可以使用一個(gè) LLM 生成的 文本來(lái)訓(xùn)練另一個(gè) LLM。在 Anthropic 的 Claude 3 技術(shù)報(bào)告中,已經(jīng)明確提出在訓(xùn)練數(shù)據(jù) 中使用了內(nèi)部生成的數(shù)據(jù)。但是目前為止,使用合成數(shù)據(jù)來(lái)訓(xùn)練生成性人工智能系統(tǒng)的可 行性和有效性仍有待研究,有結(jié)果表明合成數(shù)據(jù)上的訓(xùn)練模型存在局限性。例如 Alemohammad 發(fā)現(xiàn)在生成式圖像模型中,如果在僅有合成數(shù)據(jù)或者真實(shí)人類數(shù)據(jù)不足的 情況下,將出現(xiàn)輸出圖像質(zhì)量的顯著下降,即模型自噬障礙(MAD)。我們認(rèn)為,合成數(shù)據(jù) 是解決高質(zhì)量訓(xùn)練數(shù)據(jù)短缺的重要方向,隨著技術(shù)演進(jìn),目前面臨的合成數(shù)據(jù)效果邊際遞 減問(wèn)題或逐步解決。
展望#5:新的模型架構(gòu)出現(xiàn),但是 Transformer 仍是主流
Transformer 架構(gòu)主流地位未被撼動(dòng)。截止 23 年 5 月,LLM 絕大部分仍然以 Transformer 為基礎(chǔ)架構(gòu),包括當(dāng)前最先進(jìn)的 GPT-4 系列、Google Gemini 系列、Meta Llama 系列,均 是以 Transformer 的解碼器架構(gòu)為主。雖然有研究者提出了 Mamba 等基于狀態(tài)空間模型 (SSM)的新模型架構(gòu),實(shí)現(xiàn)了:1)推理時(shí)的吞吐量為 Transformer 的 5 倍;2)序列長(zhǎng) 度可以線性擴(kuò)展到百萬(wàn)級(jí)別;3)支持多模態(tài);4)測(cè)試集結(jié)果優(yōu)于同等參數(shù)規(guī)模的 Transformer 模型。但從工程實(shí)現(xiàn)來(lái)看,暫時(shí)未得到大范圍的使用。Google 也探索了循環(huán) 神經(jīng)網(wǎng)絡(luò)的遞歸機(jī)制與局部注意力機(jī)制的結(jié)合;KAN 的提出也從底層替換了 Transformer 的基礎(chǔ)單元 MLP(多層感知機(jī))。但我們認(rèn)為,以上方法都缺乏大量的工程實(shí)踐和成熟的工 程工具,短期內(nèi)替換掉 Transformer 可能性不大。
全球首個(gè)基于 Mamba 架構(gòu)的生產(chǎn)級(jí)模型發(fā)布,Mamba 開(kāi)始得到落地驗(yàn)證。24 年 3 月, AI21 發(fā)布世界首個(gè) Mamba 的生產(chǎn)級(jí)模型 Jamba,融合了 Mamba+Transformer+MoE 等不 同類型的大模型技術(shù)。Jamba 基本信息如下:1)共 52B 參數(shù),其中 12B 在推理時(shí)處于激 活狀態(tài);2)共 16 位專家,推理過(guò)程中僅 4 個(gè)專家處于活躍狀態(tài);3)模型基于 Mamba, 采用 SSM-Transformer 混合的架構(gòu);4)支持 256K 上下文長(zhǎng)度;5)單個(gè) A100 80GB 最 多可支持 140K 上下文;6)與 Mixtral 8x7B 相比,長(zhǎng)上下文的吞吐量提高了 3 倍。從測(cè)評(píng) 結(jié)果看,Jamba 在推理能力上優(yōu)于 Llama 2 70B、Gemma 7B 和 Mixtral 8x7B。Mamba 架 構(gòu)開(kāi)始得到驗(yàn)證。
Google RecurrentGemma 架構(gòu)也與 Transformer 不同,是另一種新的路線探索。 RecurrentGemma 基于 Google 開(kāi)源的小模型 Gemma,在此基礎(chǔ)上,引入了循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)和局部注意力機(jī)制來(lái)提高記憶效率。由于傳統(tǒng)的 Transformer 架構(gòu)中,需要計(jì)算 兩兩 token 之間的注意力機(jī)制,因此時(shí)間和空間復(fù)雜度均隨著 token 的增加而平方級(jí)增長(zhǎng)。 由于 RNN 引入的線性遞歸機(jī)制避免了平方級(jí)復(fù)雜度,RecurrentGemma 帶來(lái)了以下幾個(gè)優(yōu) 勢(shì):1)內(nèi)存使用減少:在內(nèi)存有限的設(shè)備(例如單個(gè) XPU)上生成更長(zhǎng)的樣本。2)更高 的吞吐量:由于內(nèi)存使用量減少,RecurrentGemma 可以以顯著更高的 batch 大小執(zhí)行推 理,從而每秒生成更多的 token(尤其是在生成長(zhǎng)序列時(shí))。更重要的是,RecurrentGemma 展示了一種實(shí)現(xiàn)高性能的非 Transformer 模型,是架構(gòu)革新的重要探索。
展望#6:AI Agent 智能體是 AGI 的加速器
計(jì)算機(jī)科學(xué)中 Agent 指計(jì)算機(jī)能夠理解用戶的意愿并能自主地代表用戶執(zhí)行任務(wù)。Agent (中文翻譯智能體、代理等)概念起源于哲學(xué),描述了一種擁有欲望、信念、意圖和采取 行動(dòng)能力的實(shí)體。將這個(gè)概念遷移到計(jì)算機(jī)科學(xué)中,即意指計(jì)算機(jī)能夠理解用戶的意愿并 能自主地代表用戶執(zhí)行任務(wù)。隨著 AI 的發(fā)展,AI Agent 用來(lái)描述表現(xiàn)出智能行為并具有自 主性、反應(yīng)性、主動(dòng)性和社交能力的人工實(shí)體,能夠使用傳感器感知周圍環(huán)境、做出決策, 然后使用執(zhí)行器采取行動(dòng)。 AI Agent 是實(shí)現(xiàn)人工通用智能(AGI)的關(guān)鍵一步,包含了廣泛的智能活動(dòng)潛力。2020 年, Yonatan Bisk 在《Experience Grounds Language》中提出 World Scope (WS),來(lái)描述自 然語(yǔ)言處理到 AGI 的研究進(jìn)展,包括 5 個(gè)層級(jí):WS1. Corpus (our past);WS2. Internet (most of current NLP);WS3. Perception (multimodal NLP);WS4. Embodiment;WS5. Social。據(jù)復(fù)旦大學(xué) NLP 團(tuán)隊(duì),純 LLM 建立在第二個(gè)層次上,即具有互聯(lián)網(wǎng)規(guī)模的文本輸 入和輸出。將 LLM 與 Agent 技術(shù)架構(gòu)結(jié)合,并配備擴(kuò)展的感知空間和行動(dòng)空間,就有可能 達(dá)到 WS 的第三和第四層。多個(gè) Agent 可以通過(guò)合作或競(jìng)爭(zhēng)來(lái)處理更復(fù)雜的任務(wù),甚至觀 察到涌現(xiàn)的社會(huì)現(xiàn)象,潛在地達(dá)到第五 WS 級(jí)別。
AI Agent 主要由 LLM 大腦、規(guī)劃單元、記憶單元、工具和行動(dòng)單元組成。不同研究中的 AI Agent 框架組成略有差別。比較官方的定義是 OpenAI 安全系統(tǒng)負(fù)責(zé)人 Lilian 提出的,她 將 Agent 定義為 LLM、記憶(Memory)、任務(wù)規(guī)劃(Planning Skills)以及工具使用(Tool Use)的集合,其中 LLM 是核心大腦,Memory、Planning Skills 以及 Tool Use 等則是 Agents 系統(tǒng)實(shí)現(xiàn)的三個(gè)關(guān)鍵組件。此外,復(fù)旦大學(xué) NLP 團(tuán)隊(duì)也提出了由大腦、感知和動(dòng)作三部分 組成的 AI Agent 框架。
吳恩達(dá)教授指出,LLM 加上反思、工具使用、規(guī)劃、多智能體等能力后,表現(xiàn)大幅提升。 斯坦福大學(xué)教授、Amazon 董事會(huì)成員吳恩達(dá)在紅杉美國(guó) AI Ascent 2024 提出,如果用戶 圍繞 GPT-3.5 使用一個(gè) Agent 工作流程,其實(shí)際表現(xiàn)甚至好于 GPT-4。其中,反思指的是 讓模型重新思考其生成的答案是否正確,往往會(huì)帶來(lái)輸出結(jié)果的改進(jìn);工具使用包括調(diào)用 外部的聯(lián)網(wǎng)搜索、日歷、云存儲(chǔ)、代碼解釋器等工具,補(bǔ)充模型的能力欠缺;多智能體協(xié) 作指的是多種智能體互相搭配來(lái)完成一個(gè)復(fù)雜任務(wù),每種智能體會(huì)負(fù)責(zé)自己所擅長(zhǎng)的一個(gè) 領(lǐng)域,類似人類社會(huì)之間的協(xié)作,實(shí)現(xiàn)超越單個(gè)智能體能達(dá)到的效果。
Agent 相關(guān)研究處于爆發(fā)期。伴隨 LLM 的快速迭代發(fā)展,基于 LLM 的 AI Agent 涌現(xiàn),典 型的如 Auto-GPT、微軟的 HuggingGPT、斯坦福小鎮(zhèn) Generative Agent、Nvidia Voyager 等。24 年 3 月,AI 初創(chuàng)公司 Cognition 發(fā)布第一個(gè) AI 軟件工程師自主智能體 Devin,能夠 使用自己的 shell、代碼編輯器和 Web 瀏覽器來(lái)解決工程任務(wù),并在 SWE-Bench 基準(zhǔn)測(cè)試 上正確解決了 13.86%的問(wèn)題,遠(yuǎn)超之前方法的正確率。我們認(rèn)為,2024 年基于 AI Agent 的應(yīng)用和產(chǎn)品仍將會(huì)繼續(xù)涌現(xiàn),其效果也將持續(xù)受益于大模型能力的提升,AI Agent 將成 為實(shí)現(xiàn) AGI 的重要助推器。
展望#7:具身智能與 LLM 結(jié)合落地加速
AI 龍頭公司在具身智能領(lǐng)域有模型、框架層面的豐富研究成果。23 年 5 月,Nvidia CEO 黃仁勛指出,AI 的下一個(gè)浪潮將是具身智能。各個(gè) AI 頭部廠商均有相關(guān)的研究成果。23 年年初,微軟的 ChatGPT for Robotics 初次探討了 LLM 代替人工編程,來(lái)對(duì)機(jī)器人實(shí)現(xiàn)控 制。Google 延續(xù)了 2022 年的具身智能成果,將 RT 系列模型升級(jí)到視覺(jué)動(dòng)作語(yǔ)言模型 RT-2, 將 Gato 升級(jí)到能自我迭代的 RoboCat,并開(kāi)源了迄今最大的真實(shí)機(jī)器人具身智能數(shù)據(jù)集 Open X-Embodiment。Nvidia 也有 VIMA 和 OPTIMUS 等具身智能研究,并在 24 年 2 月 成立了專門研究具身智能的小組 GEAR。斯坦福李飛飛教授的 VoxPoser 結(jié)合視覺(jué)模型和語(yǔ) 言模型優(yōu)勢(shì),建模了空間 Value Map 來(lái)對(duì)機(jī)器人軌跡進(jìn)行規(guī)劃。Meta 也發(fā)布 RoboAgent, 并在訓(xùn)練數(shù)據(jù)集收集上利用了自家的 CV 大模型 SAM。
2024 年,具身智能仍是 LLM 重要的終端落地場(chǎng)景,技術(shù)仍在持續(xù)迭代。1)24 年 1 月, 斯坦福大學(xué)發(fā)布 Mobile ALOHA 機(jī)器人,利用模仿學(xué)習(xí),在人類做出 50 個(gè)示例后,機(jī)器人 即能自行執(zhí)行下游任務(wù)。2)同月,Google 一次性發(fā)布了三項(xiàng)具身智能成果。Auto-RT 解 決機(jī)器人數(shù)據(jù)來(lái)源問(wèn)題,通過(guò) LLM 和 VLM(視覺(jué)語(yǔ)言模型)擴(kuò)展數(shù)據(jù)收集;SARA-RT 顯 著加快了 Robot Transformers 的推理速度;RT-Trajectory 將視頻轉(zhuǎn)換為機(jī)器人軌跡,為機(jī) 器人泛化引入了以運(yùn)動(dòng)為中心的目標(biāo)。3)AI 機(jī)器人公司 Figure 推出了 Figure 01,采用端 到端 AI 神經(jīng)網(wǎng)絡(luò),僅通過(guò)觀察人類煮咖啡即可在 10 小時(shí)內(nèi)完成訓(xùn)練。4)從目前 Tesla Optimus 發(fā)布視頻情況看,Optimus 的神經(jīng)網(wǎng)絡(luò)已經(jīng)能夠指導(dǎo)機(jī)器人進(jìn)行物品分揀等動(dòng)作, 且控制能力進(jìn)一步提高。
OpenAI 與 Figure AI 率先合作,實(shí)現(xiàn)了大模型對(duì)具身智能的賦能。24 年 3 月,OpenAI 官方宣布與 Figure AI 機(jī)器人公司合作,將多模態(tài)模型擴(kuò)展到機(jī)器人感知、推理和交互。宣 布合作 13 天后,F(xiàn)igure 01 已經(jīng)與 OpenAI 的視覺(jué)語(yǔ)言模型結(jié)合,并發(fā)布了演示視頻。 ChatGPT 從頂層負(fù)責(zé)用戶交互、環(huán)境感知(依靠 vision 視覺(jué)能力)、復(fù)雜問(wèn)題拆解,而 Figure 01 自身的神經(jīng)網(wǎng)絡(luò)和控制系統(tǒng)負(fù)責(zé)底層的自主任務(wù)執(zhí)行,實(shí)現(xiàn)了強(qiáng)交互的自主任務(wù)執(zhí)行。 隨后,國(guó)內(nèi)大模型廠商百度與機(jī)器人整機(jī)廠商優(yōu)必選也宣布合作,“復(fù)刻”了 OpenAI+Figure 的合作路線,由文心大模型負(fù)責(zé)交互推理、優(yōu)必選 Walker X 負(fù)責(zé)底層任務(wù)實(shí)現(xiàn)。我們認(rèn)為, 多模態(tài)大模型和機(jī)器人結(jié)合的路線已經(jīng)走通,隨著 24 年模型能力持續(xù)迭代(GPT-4o 的出 現(xiàn)),以及人形機(jī)器人自主和控制能力的加強(qiáng),LLM+具身智能落地加速,并將更加可用、 好用。
GPT-5 的幾個(gè)預(yù)期
OpenAI 從 GPT-3 開(kāi)始實(shí)行閉源商業(yè)化路線,相關(guān)的模型技術(shù)幾乎不再公布細(xì)節(jié)。我們基 于對(duì)全球大模型發(fā)展趨勢(shì)的研究和把握,提出幾個(gè) GPT-5 可能的預(yù)期和展望,并給出相應(yīng) 的推測(cè)邏輯。
預(yù)期#1:MoE 架構(gòu)將延續(xù),專家參數(shù)和數(shù)量或變大
MoE 是現(xiàn)階段實(shí)現(xiàn)模型性能、推理成本、模型參數(shù)三者優(yōu)化的最佳架構(gòu)方案。1)MoE 將 各種專家通過(guò)路由(router)機(jī)制有機(jī)整合,在各種下游任務(wù)上,能夠充分利用每個(gè)專家的 專業(yè)能力,提高模型表現(xiàn);2)MoE 天然的稀疏架構(gòu),使得 MoE 模型與同參數(shù)稠密模型在 推理成本上有較大節(jié)省;3)同理,在推理成本固定的情況下,MoE 模型相比稠密模型,能 夠把模型參數(shù)堆到更大,同樣能夠提升模型性能。 我們認(rèn)為,OpenAI 在 GPT-5 模型迭代時(shí)仍將采用 MoE 架構(gòu),或有部分改進(jìn)。相比 GPT-4, GPT-5 的 MoE 架構(gòu)或?qū)⒂幸韵赂倪M(jìn):1)每個(gè)專家的參數(shù)更大,例如每個(gè)專家大小與 GPT-4 相同,近 2T 參數(shù)。即使 OpenAI 無(wú)法將單個(gè) 2T 參數(shù)專家做成稠密架構(gòu),也可以使用 MoE 嵌套 MoE 的方式實(shí)現(xiàn)。2)專家數(shù)量變多,例如幻方旗下 DeepSeek V2 模型即使用改進(jìn)的 DeepSeekMoE 架構(gòu),采取了更細(xì)粒度的專家結(jié)構(gòu),將專家數(shù)擴(kuò)展到 160+,以適應(yīng)更加豐 富和專業(yè)的下游任務(wù)。3)MoE 架構(gòu)本身可能有改進(jìn),例如 Google DeepMind 提出了 Mixture of Depth(MoD)架構(gòu),向 Transformer 的不同層(layer)引入類似 MoE 的路由機(jī)制,對(duì) token 進(jìn)行選擇性處理,以減少推理成本。MoD 可以和 MoE 混合使用,相當(dāng)于對(duì) MoE 進(jìn) 行了改進(jìn)。OpenAI 或也會(huì)有類似的改進(jìn)技術(shù)。
預(yù)期#2:GPT-5 及之后模型的訓(xùn)練數(shù)據(jù)集質(zhì)量更高、規(guī)模更大
OpenAI 不斷加速與私有高質(zhì)量數(shù)據(jù)公司的合作進(jìn)度,為訓(xùn)練大模型做數(shù)據(jù)儲(chǔ)備。2023 年 11 月,OpenAI 即官宣推出數(shù)據(jù)合作伙伴計(jì)劃,將與各類組織合作生成用于訓(xùn)練 AI 模型的 公共和私有數(shù)據(jù)集,包括冰島政府、非營(yíng)利法律組織“Free Law Project”等。2024 年, OpenAI 在 4-5 月先后與英國(guó)金融時(shí)報(bào)、程序員交流網(wǎng)站 Stack Overflow、論壇網(wǎng)站 Reddit 宣布合作,相關(guān)數(shù)據(jù)覆蓋了新聞、代碼、論壇交流等場(chǎng)景。我們認(rèn)為,OpenAI 在早期的數(shù) 據(jù)儲(chǔ)備中,已經(jīng)將網(wǎng)絡(luò)公開(kāi)可獲得的數(shù)據(jù)進(jìn)行了充分的開(kāi)發(fā),根據(jù) OpenAI 的 Scaling Law 和 Google Chinchilla 的結(jié)論,隨著模型參數(shù)的增大,想要充分訓(xùn)練模型,必須增大訓(xùn)練數(shù) 據(jù)規(guī)模,這也從 OpenAI 的廣泛數(shù)據(jù)合作關(guān)系中得到印證。我們認(rèn)為,GPT-5 及之后模型 的訓(xùn)練數(shù)據(jù)集,將有望吸納更多高質(zhì)量的私域數(shù)據(jù),數(shù)據(jù)規(guī)模也將變得更大。
預(yù)期#3:在思維鏈 CoT 的基礎(chǔ)上,再加一層 AI 監(jiān)督
思 維 鏈 能 夠 在 不 改 變 模 型 的 情 況 下 提 高 其 表 現(xiàn) 性 能 。 2022 年 , Jason Wei 在 《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中首次提出 思維鏈(chain of thought,CoT)概念,使模型能夠?qū)⒍嗖襟E問(wèn)題分解為中間步驟。通過(guò) 思維鏈提示,足夠規(guī)模(~100B 參數(shù))的語(yǔ)言模型可以解決標(biāo)準(zhǔn)提示方法無(wú)法解決的復(fù)雜 推理問(wèn)題,提高各種推理任務(wù)的表現(xiàn)。以算數(shù)推理 MultiArith 和 GSM8K 為例,當(dāng)使用思維 鏈提示時(shí),增加 LaMDA 和 PaLM 模型參數(shù)可以顯著提高性能,且性能大大優(yōu)于標(biāo)準(zhǔn)提示。 此外,思維鏈對(duì)于模型的常識(shí)推理任務(wù)(如 CommonsenseQA、StrategyQA 和 Date Understanding 等)同樣有明顯的性能提升作用
OpenAI 探索了過(guò)程監(jiān)督對(duì)模型的性能提升,有望與 CoT 結(jié)合,進(jìn)一步提高推理能力。23 年 5 月,OpenAI 官方 blog 宣布訓(xùn)練了一個(gè)獎(jiǎng)勵(lì)模型,通過(guò)獎(jiǎng)勵(lì)推理的每個(gè)正確步驟(“過(guò) 程監(jiān)督”),而不是簡(jiǎn)單地獎(jiǎng)勵(lì)正確的最終答案(“結(jié)果監(jiān)督”),來(lái)更好的解決模型的數(shù)學(xué)推 理能力和問(wèn)題解決能力。與結(jié)果監(jiān)督相比,過(guò)程監(jiān)督有優(yōu)勢(shì):1)過(guò)程監(jiān)督相當(dāng)于直接獎(jiǎng)勵(lì) 了模型遵循對(duì)齊的 CoT,流程中的每個(gè)步驟都受到精確的監(jiān)督;2)過(guò)程監(jiān)督更有可能產(chǎn)生 可解釋的推理,因?yàn)樗膭?lì)模型遵循人類思考的過(guò)程。最終的 MATH 測(cè)試集結(jié)果中,過(guò)程 監(jiān)督能夠提升相對(duì)于結(jié)果監(jiān)督 5pct 以上的正確率。我們認(rèn)為,這種基于 CoT 的過(guò)程監(jiān)督方 法,有可能幫助 GPT-5 進(jìn)一步提高模型推理的正確性,壓制模型幻覺(jué)。
預(yù)期#4:支持更多外部工具調(diào)用的端到端模型
GPT-5 有望在 GPT-4 少量的外部工具基礎(chǔ)上,增加更多的可調(diào)用工具,擴(kuò)展能力邊界。目 前基于 GPT-4 系列的 ChatGPT,能夠調(diào)用 Bing 搜索、高級(jí)數(shù)據(jù)分析(原代碼解釋器)、 DALL-E 文生圖等外部工具,并且在 23 年 11 月推出 All Tools 能力,讓 ChatGPT 在與用戶 對(duì)話時(shí)自主選擇以上三種工具。外部工具調(diào)用使得模型在性能基本保持不變的情況下,能 力邊界得到擴(kuò)展,其實(shí)質(zhì)與 Agent 調(diào)用工具類似。此外,曾在 23 年 3 月推出的 ChatGPT Plugins 功能,本質(zhì)也是外部工具,但是由于 GPT-4 能力的有限,導(dǎo)致能夠在單個(gè)對(duì)話中使 用的 Plugins 只有三個(gè),因此 Plugins 逐漸被 GPTs 智能體取代。我們認(rèn)為,隨著 GPT-5 推理能力的進(jìn)一步提高,將有能力更好的自主分析用戶需求,以更合理的方式,調(diào)用更多 的外部工具(100-200 個(gè)),如計(jì)算器、云存儲(chǔ)等,從而進(jìn)一步擴(kuò)展 GPT-5 的模型能力邊界。
GPT-4o 已經(jīng)打下多模態(tài)端到端的基礎(chǔ),GPT-5 將延續(xù)。我們認(rèn)為,GPT-4o 驗(yàn)證了頭部廠 商大模型原生多模態(tài)的發(fā)展趨勢(shì),這一趨勢(shì)不會(huì)輕易改變,因?yàn)槎说蕉说脑嗄B(tài),很 好的解決了模型延時(shí)(如 GPT-4 非端到端語(yǔ)音響應(yīng)平均時(shí)間超 5s,而 4o 端到端語(yǔ)音響應(yīng) 時(shí)間平均僅 320ms)、模型誤差(由于誤差是不可避免的,級(jí)聯(lián)的模型越多,誤差累計(jì)越大, 端到端僅 1 份誤差)等問(wèn)題,因此 GPT-5 將延續(xù)端到端多模態(tài)結(jié)構(gòu),或?qū)⒂胁糠指倪M(jìn)。如 進(jìn)一步降低端到端的響應(yīng)延遲,優(yōu)化用戶使用體驗(yàn);加入更多的模態(tài)支持,如深度、慣性 測(cè)量單位(IMU)、熱紅外輻射等信息,以支持更復(fù)雜的如具身智能等場(chǎng)景。
預(yù)期#5:多種大小不同的參數(shù),不排除推出端側(cè)小模型
Google 和 Anthropic 均在同代模型中推出參數(shù)大小不同的版本,GPT-5 有望跟進(jìn)。Google 和 Anthropic 均采取了同代模型、不同大小的產(chǎn)品發(fā)布策略,以平 衡用戶的成本和性能體驗(yàn)。據(jù)海外開(kāi)發(fā)者 Tibor Blaho 信息,ChatGPT 安卓版安裝包 1.2024.122 版本中發(fā)現(xiàn)了三個(gè)新的模型名稱:gpt-4l,gpt-4l-auto,gpt-4-auto,其中 l 代表 “l(fā)ite”(輕量),或是 OpenAI 開(kāi)始考慮布局大小不同的模型矩陣。由于 Google 官方已經(jīng)實(shí) 現(xiàn)了最小參數(shù)的 Gemini Nano 模型在 Pixel 8 Pro 和三星 Galaxy S24 系列實(shí)裝,且據(jù) Bloomberg 信息,OpenAI 與 Apple 正在探索端側(cè)模型上的合作,我們預(yù)測(cè),GPT-5 也有可 能推出端側(cè)的小參數(shù)模型版本。
預(yù)期#6:從普通操作系統(tǒng)到 LLM 操作系統(tǒng)
LLM 操作系統(tǒng)是 Agent 在系統(tǒng)層面的具象化。LLM OS 是前 OpenAI 科學(xué)家 Andrej Karpathy 提出的設(shè)想,其中 LLM 將替代 CPU 作為操作系統(tǒng)核心,LLM 的上下文窗口是 RAM,接受用戶指令并輸出控制指令,在 LLM 核心外部有存儲(chǔ)、工具、網(wǎng)絡(luò)等各種“外設(shè)” 供 LLM 調(diào)用。我們認(rèn)為,從結(jié)構(gòu)上看,LLM OS 和圖表 67 所示的 Agent 架構(gòu)十分相似, 可以看做 Agent 在操作系統(tǒng)領(lǐng)域的具象化。LLM OS 的核心就是模型能力,隨著 GPT-5 推 理性能的不斷提升,我們認(rèn)為 LLM 和 OS 結(jié)合的范式將更有可能實(shí)現(xiàn),屆時(shí)人類和 OS 的 交互方式將不再以鍵鼠操作為主,而會(huì)轉(zhuǎn)向基于 LLM 的自然語(yǔ)言或語(yǔ)音操作,進(jìn)一步解放 人類雙手,實(shí)現(xiàn)交互方式的升級(jí)。
預(yù)期#7:端側(cè) AI Agent 將更加實(shí)用和智能
OpenAI 和 Google 已經(jīng)將模型的重點(diǎn)使用場(chǎng)景定位到端側(cè) AI Agent。24 年 5 月 13-14 日, OpenAI 和 Google 分別召開(kāi)發(fā)布會(huì)和開(kāi)發(fā)者大會(huì),其中最值得關(guān)注和最亮眼的部分就是端 側(cè) AI Agent。OpenAI 基于最新的端到端 GPT-4o 模型打造了新的 Voice Mode,實(shí)現(xiàn)了更 擬人、更個(gè)性化、可打斷、可實(shí)時(shí)交互的 AI 助手,并能夠使用 4o 的視覺(jué)能力,讓助手針 對(duì)用戶看到的周圍環(huán)境和PC場(chǎng)景進(jìn)行推理;Google的Project Astra也實(shí)現(xiàn)了類似的效果, 并且能夠根據(jù)模型“看到”的場(chǎng)景進(jìn)行 recall。我們認(rèn)為,頭部模型廠商遵循了模型邊迭代、 應(yīng)用邊解鎖的發(fā)展路徑,目前已經(jīng)將模型的使用場(chǎng)景聚焦到了端側(cè)。結(jié)合 OpenAI 與 Apple 的合作進(jìn)展看,端側(cè) AI 或?qū)⒃?24 年下半年成為重點(diǎn)。
更加智能的 GPT-5 能夠?qū)?AI Agent 能力推上新的臺(tái)階。我們認(rèn)為,OpenAI 在第四代 GPT 的大版本下,已經(jīng)通過(guò)端到端的 4o 實(shí)現(xiàn)了 AI Agent 更實(shí)時(shí)、更智能的多模態(tài)交互。但是基 于目前模型的推理性能,AI Agent 在實(shí)現(xiàn)多任務(wù)、多步驟的自主任務(wù)執(zhí)行時(shí)成功率仍不夠 高。以 PC 端基于 GPT-4 的 AI 軟件工程師智能體 Devin 為例,在 SWE-Bench 基準(zhǔn)測(cè)試(要 求 AI 解決 GitHub 上現(xiàn)實(shí)世界開(kāi)源項(xiàng)目問(wèn)題)上進(jìn)行評(píng)估時(shí),Devin 在沒(méi)有人類協(xié)助的情況 下能正確解決 13.86%的問(wèn)題,遠(yuǎn)遠(yuǎn)超過(guò)了之前最好方法對(duì)應(yīng)的 1.96%正確率,即使給出了 要編輯的確切文件,Claude 2 也只能成功解決 4.80%的問(wèn)題。但是 13.86%的成功率,仍 然距離實(shí)用較遠(yuǎn),究其原因還是模型的智能能力“不夠”。我們認(rèn)為,隨著 GPT-5 核心推理 能力進(jìn)一步提高,或能將“類 Devin”產(chǎn)品正確率提升到 80%以上,AI Agent 將變得更加 實(shí)用和智能。
理想 vs 現(xiàn)實(shí):從 AI+到+AI
據(jù) Ericsson 白皮書(shū)《Defining AI native》,AI 與系統(tǒng)可以分為非原生和原生兩類。對(duì)于 非 AI 原生(None AI-native)系統(tǒng),又可根據(jù) AI 組件的部署方式細(xì)分為:1)替換已有部 件。即在現(xiàn)有的系統(tǒng)組件中,將其中的一部分用基于 AI 的組件進(jìn)行替換或增強(qiáng)。2)增加 新的部件。即不改變現(xiàn)有系統(tǒng)中組件的情況下,增加一部分基于 AI 的組件。3)增加 AI 控 制。同樣不改變現(xiàn)有系統(tǒng)的組件,增加基于 AI 的控制組件部分,來(lái)對(duì)已有組件進(jìn)行控制, 在傳統(tǒng)功能之上提供自動(dòng)化、優(yōu)化和額外功能。對(duì)于 AI 原生(AI-native)系統(tǒng),系統(tǒng)中所 有的組件均基于 AI 能力構(gòu)建,整個(gè) AI 原生系統(tǒng)擁有內(nèi)在的、值得信賴的 AI 功能,AI 是設(shè) 計(jì)、部署、操作和維護(hù)等功能的自然組成部分。
AI+指的是 AI 原生形式,是理想的 AI 應(yīng)用和硬件構(gòu)建方法,但是目前的大模型能力還無(wú)法 很好的支持這一實(shí)現(xiàn)。 在 AI+應(yīng)用方面,典型的如 AI 原生搜索類應(yīng)用 Perplexity。據(jù) SimilarWeb 數(shù)據(jù),2023 年 1 月-2024 年 5 月,Perplexity 每月的網(wǎng)站訪問(wèn)量不斷提升,截至 24 年 5 月,月網(wǎng)站訪問(wèn) 量已經(jīng)達(dá)到了近 9000 萬(wàn),較大幅度領(lǐng)先于同樣做 AI 原生搜索的 You.com。但是從搜索引 擎的全球市占率看,據(jù) Statcounter 數(shù)據(jù),Google 的搜索引擎市占率從 23 年 1 月的 92.9% 僅微降到 24年 5月的 90.8%,Bing的市占率從 23年 1月的 3.03%微升到 24年 5月的 3.72%。 我們認(rèn)為,目前為止,AI 原生的搜索應(yīng)用并未對(duì)傳統(tǒng)搜索產(chǎn)生本質(zhì)影響。
在 AI+硬件方面,代表產(chǎn)品為 Ai Pin 和 Rabbit R1。23 年 11 月,智能穿戴設(shè)備公司 Humane 發(fā)布基于 AI 的智能硬件 Ai Pin,由 GPT 等 AI 模型驅(qū)動(dòng),為 AI 原生的硬件,支持激光屏、 手勢(shì)、語(yǔ)音等操作。24 年 4 月,Rabbit 推出 AI 驅(qū)動(dòng)的硬件 R1,大小約為 iPhone 的一半。 R1 用戶無(wú)需應(yīng)用程序和登錄,只需簡(jiǎn)單提問(wèn),就能實(shí)現(xiàn)查詢、播音樂(lè)、打車、購(gòu)物、發(fā)信 息等操作。R1 內(nèi)部運(yùn)行 Rabbit OS 操作系統(tǒng),基于“大型動(dòng)作模型”(Large Action Model, LAM)打造,而非類似于 ChatGPT 的大型語(yǔ)言模型。LAM 可以在計(jì)算機(jī)上理解人類的意 圖,借助專門的 Teach Mode,用戶可以在計(jì)算機(jī)上演示操作,R1 將進(jìn)行模仿學(xué)習(xí)。但是 以上兩款產(chǎn)品發(fā)布后,據(jù)BBC 和 Inc 等信息,產(chǎn)品的用戶體驗(yàn)一般,問(wèn)題主要包括 AI 模型 響應(yīng)過(guò)慢、對(duì)網(wǎng)絡(luò)通暢性要求過(guò)高、無(wú)法端側(cè)推理、電池發(fā)熱嚴(yán)重等。
+AI 指的是非原生 AI 形式,在成熟的軟硬件系統(tǒng)上疊加一定的 AI 功能,更符合當(dāng)前模型 的能力,或成為近期的迭代重點(diǎn)。 在+AI 應(yīng)用方面,微軟的 Copilot 系列是典型的成熟 SaaS+AI 應(yīng)用。從功能覆蓋來(lái)看,微 軟基于成熟的操作系統(tǒng)、企業(yè)辦公、客戶關(guān)系管理、資源管理、員工管理、低代碼開(kāi)發(fā)等 業(yè)務(wù)環(huán)節(jié),上線了 Copilot 相關(guān)功能,并初步實(shí)現(xiàn)各應(yīng)用間的 Copilot 聯(lián)動(dòng)。據(jù)微軟 24Q1 財(cái)報(bào)數(shù)據(jù),Github Copilot 用戶數(shù)已超 50000 家,付費(fèi)用戶人數(shù) 180 萬(wàn)人,Windows 系統(tǒng) 層面的 Copilot 裝機(jī)量約 2.3 億臺(tái)。
另一個(gè)+AI 的典型應(yīng)用是 Meta 的推薦算法+AI 大模型賦能。據(jù) 4 月 19 日扎克伯格訪談, Meta 從 22 年即開(kāi)始購(gòu)入 H100 GPU,當(dāng)時(shí) ChatGPT 尚未問(wèn)世,Meta 主要利用這些算力 開(kāi)發(fā)短視頻應(yīng)用 Reels 以對(duì)抗 Tiktok,其中最核心的就是推薦算法的改進(jìn)。2024 年 4 月, Meta 發(fā)布生成式推薦系統(tǒng)論文《Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations 》, 開(kāi) 創(chuàng) 性 提 出 了 基 于 Transformer 的生成式推薦(Generative Recommenders ,GRs)架構(gòu)(更具體細(xì)節(jié)可以參 考華泰計(jì)算機(jī) 5 月 23 日?qǐng)?bào)告《云廠 AI 算力自用需求或超預(yù)期》)。據(jù) Meta 24Q1 電話會(huì), 截至 24Q1,F(xiàn)acebook 上約有 30%的帖子是通過(guò) AI 推薦系統(tǒng)發(fā)布的,在 Instagram 上看 到的內(nèi)容中有超過(guò) 50%是 AI 推薦的,已經(jīng)實(shí)現(xiàn)了推薦引擎+AI 對(duì)推薦和廣告業(yè)務(wù)的賦能。
在+AI 硬件方面,在成熟的 PC 和手機(jī)上已經(jīng)探索出了硬件+AI 的演進(jìn)道路。雖然原生的 AI 硬件如 Ai Pin 和 Rabbit R1 并未取得巨大成功,但是微軟、聯(lián)想的 AI PC 布局,以及 Apple 的 AI 手機(jī)布局已經(jīng)清晰。從目前各廠商終端側(cè)模型布局看,有以下特點(diǎn):
1)端側(cè)模型參數(shù)量普遍在 100 億參數(shù)以下。端側(cè)能夠支持的模型參數(shù)大小,重要的取決因 素是 NPU(神經(jīng)處理單元)的算力多少,以及內(nèi)存 DRAM 的大小。端側(cè)最先進(jìn)的芯片 NPU 算力基本在 40TOPS 左右,支持的參數(shù)一般在百億級(jí)別。
2)端云協(xié)同模式將長(zhǎng)期存在。由于端側(cè)模型參數(shù)量有限,導(dǎo)致無(wú)法處理較復(fù)雜的任務(wù),因 此還需要依賴云端或服務(wù)器端的模型配合。高通于 23 年 5 月發(fā)布白皮書(shū)《混合 AI 是 Al 的 未來(lái)》,指出 AI 處理能力持續(xù)向邊緣轉(zhuǎn)移,越來(lái)越多的 AI 推理工作負(fù)載在手機(jī)、筆記本電 腦、XR 頭顯、汽車和其他邊緣終端上運(yùn)行。終端側(cè) AI 能力是賦能端云混合 AI 并讓生成式 AI 實(shí)現(xiàn)全球規(guī)模化擴(kuò)展的關(guān)鍵。此外,以 Apple Intelligence 的模型布局為例,其中的編排 層(Orchestration)會(huì)根據(jù)任務(wù)難易決定推理使用終端模型還是云端模型。我們認(rèn)為,這 種端云協(xié)同的方式在端側(cè)+AI 的形式下有望長(zhǎng)期存在。
3)Arm 架構(gòu)芯片布局略快于 x86 架構(gòu)。微軟的第一批 Copilot+ PC 搭載的高通驍龍 X Elite 芯片和 Apple 自研的 M 系列芯片,均是基于 Arm 架構(gòu)打造。AMD 和 Intel 的 x86 架構(gòu) AI PC 芯片在時(shí)間上略有落后。我們認(rèn)為,Arm 架構(gòu)有望在終端+AI 領(lǐng)域提高市場(chǎng)份額,但是最終 Arm 和 x86 的格局尚需觀察。
(本文僅供參考,不代表我們的任何投資建議。如需使用相關(guān)信息,請(qǐng)參閱報(bào)告原文。)
(轉(zhuǎn)自:未來(lái)智庫(kù))
報(bào)告出品方/作者:華泰證券,謝春生、袁澤世)
2023 年是大模型(LLM)技術(shù)和應(yīng)用快速迭代的一年。重要催化劑是 22 年 11 月底發(fā)布的 ChatGPT。ChatGPT 雖然在技術(shù)基座上是之前已經(jīng)問(wèn)世的 GPT-3 和 InstructGPT,但它給 了全球用戶一個(gè)與 LLM 交互的自然語(yǔ)言界面,極大拉近了 LLM 與普通大眾的距離,引起了 資本的關(guān)注,成為大模型技術(shù)加速迭代的導(dǎo)火索。微軟、Google、Meta、Nvidia 等龍頭大 廠,OpenAI、Anthropic、Mistra 等初創(chuàng)公司,以及斯坦福、清華、上交等學(xué)術(shù)機(jī)構(gòu),引領(lǐng) 了 23 年的 LLM 發(fā)展。LLM 技術(shù)也從模型本身擴(kuò)展到端側(cè)、AI Agent、具身智能等更廣泛 的領(lǐng)域。此外,在大模型技術(shù)應(yīng)用上,一方面,云 SaaS 廠商將 AI 賦能于傳統(tǒng) SaaS 軟件, 如微軟 Copilot 和 Adobe Firefly;另一方面,以 AI 為核心的應(yīng)用興起,如 AI 搜索 Perplexity, 文生圖 Stable Diffusion、Midjourney、DALL-E,文生視頻 Runway、Pika、Sora 等。
全球格局:海外技術(shù)收斂,國(guó)內(nèi)百花齊放
海外閉源大模型已經(jīng)形成 OpenAI 為首,Google、Anthropic 等模型緊隨的格局。閉源模 型中,雖然 Google Gemini 和 Anthropic 分別于 24 年 2 月和 3 月更新了 1.5 Pro(Gemini 1.0 是在 23 年 12 月)和 Claude 3,在上下文長(zhǎng)度、數(shù)學(xué)、編碼、專業(yè)領(lǐng)域等能力測(cè)評(píng)上超過(guò) 了 GPT-4,但是考慮到:1)GPT-4 和 4 Turbo 實(shí)質(zhì)上為 23 年 3 月 GPT-4 系列的迭代,比 Gemini 和 Claude 3 早推出近一年;2)ChatGPT 對(duì)多模態(tài)、App 語(yǔ)音交互、工具調(diào)用(聯(lián) 網(wǎng)、高級(jí)數(shù)據(jù)分析)、智能體(GPTs)等能力進(jìn)行了有機(jī)整合;3)根據(jù) UC 伯克利大學(xué) Chatbot Arena 的榜單(該榜單為用戶盲測(cè)模型評(píng)價(jià)的結(jié)果,較為客觀),GPT-4 的用戶體驗(yàn)仍是頭 部頂尖水平;4)GPT-5 已在訓(xùn)練中;5)GPT-4o 的端到端能力再次提升。因此,我們認(rèn) 為,OpenAI 的技術(shù)仍處于暫時(shí)領(lǐng)先。
Meta 的 Llama 系列作為開(kāi)源模型,具有格局上的特殊性和分界性。海外模型廠商如果在 模型性能上無(wú)法超越同代的開(kāi)源 Llama 模型(據(jù) Meta 官網(wǎng) 4 月 18 日信息,Llama 3 的 8B 和 70B 先行版小模型已經(jīng)發(fā)布,最大的 400B 參數(shù)正在訓(xùn)練),則很難在海外基礎(chǔ)模型中占 據(jù)一席之地,除非模型具有差異化應(yīng)用場(chǎng)景,典型的如陪伴類應(yīng)用 Character.ai。此外,除 了頭部大參數(shù)模型,能夠超過(guò)同代 Llama 的較小參數(shù)或者有獨(dú)特使用體驗(yàn)的模型,也會(huì)得 到用戶青睞,典型的如:1)馬斯克旗下 xAI 的 Grok-1(已開(kāi)源)、Grok-1.5(未開(kāi)源),能 夠獨(dú)家使用 X 平臺(tái)上的數(shù)據(jù),較好的響應(yīng)用戶實(shí)時(shí)信息查詢需求;2)法國(guó)大模型初創(chuàng)公司 Mistral,開(kāi)源了 Mistral 7B、Mixtral 8x7B-MoE 小模型,適配算力受限的端側(cè)等平臺(tái),隨后 又轉(zhuǎn)入閉源模型,更新了性能更強(qiáng)的 Mistral-medium 和 large,并與微軟合作,在 Azure 上為用戶提供 API。
國(guó)內(nèi)模型百花齊放,互聯(lián)網(wǎng)大廠、初創(chuàng)公司、科技企業(yè)均有代表性模型產(chǎn)品。國(guó)內(nèi)模型技 術(shù)辨識(shí)度不高,據(jù) SuperCLUE 測(cè)評(píng)結(jié)果榜單,頭部的國(guó)內(nèi)模型在得分上相差并不顯著。在 國(guó)內(nèi)主流的模型中,互聯(lián)網(wǎng)廠商和科技企業(yè)在大模型上起步較早,如百度在 GPT-4 發(fā)布的 后一天即 23 年 3 月 15 日發(fā)布文心一言,23 年 3 月 29 日 360 智腦 1.0 發(fā)布,23 年 4 月通 義千問(wèn)上線,23 年 5 月 6 日訊飛星火 1.0 發(fā)布。進(jìn)入 24 年,初創(chuàng)公司的大模型產(chǎn)品得到 了更廣泛的關(guān)注,例如 24 年 3 月月之暗面更新 Kimi 智能助手 200 萬(wàn)字的上下文支持能力, 直接引發(fā)了百度、360 等廠商對(duì)長(zhǎng)上下文的適配。同月階躍星辰 STEP 模型發(fā)布,其 STEP 2 宣稱為萬(wàn)億參數(shù) MoE 模型,直接對(duì)標(biāo) GPT-4 的參數(shù)(一般認(rèn)為是 1.8 T 參數(shù)的 MoE), 在大多數(shù)國(guó)內(nèi)模型以千億參數(shù)為主的環(huán)境下,將參數(shù)量率先提升到萬(wàn)億級(jí)別。4 月,MiniMax 也發(fā)布了萬(wàn)億參數(shù) MoE 架構(gòu)的 abab 6.5。
特點(diǎn)#1:大模型與小模型同步發(fā)展
根據(jù) Scaling Law,更大參數(shù)、更多數(shù)據(jù)和更多算力能夠得到更好的模型智能。2020 年 1 月,OpenAI 發(fā)布論文《Scaling Laws for Neural Language Models》,奠定了 Scaling Law (縮放定律)的基礎(chǔ),為后續(xù) GPT 的迭代指明了大參數(shù)、大算力方向。Scaling Laws 是一 種經(jīng)驗(yàn)性質(zhì)的結(jié)論,并非完備的數(shù)學(xué)理論推導(dǎo)。OpenAI 在 decoder-only Transformer 架構(gòu) 的特定配置下進(jìn)行了詳盡的實(shí)驗(yàn),摸清了模型性能(用模型 Loss 衡量,Loss 越小性能越 好)與參數(shù)(N)、數(shù)據(jù)集 token(D)和投入訓(xùn)練算力(C)的關(guān)系——N、D、C 是影響 Loss 最顯著的因素,三者增加將帶來(lái)更好的模型性能。Transformer 架構(gòu)中的層數(shù)、向量 寬度等其它參數(shù)并不構(gòu)成主要影響因素。
根據(jù) Scaling Law 論文,可以用 6ND 來(lái)估算模型所需要的訓(xùn)練算力(以 FLOPs 為單位)。 Transformer 架構(gòu)涉及了多種參數(shù),包括層數(shù)(nlayer)、殘差流維數(shù)(dmodel)、前饋層維數(shù) (dff)、注意力機(jī)制輸出維數(shù)(dattn)、每層注意力頭數(shù)(nhead)、輸入上下文 token 數(shù)(nctx) 等。在訓(xùn)練數(shù)據(jù)進(jìn)入 Transformer 解碼器后,每一步運(yùn)算都會(huì)涉及相應(yīng)的參數(shù),并對(duì)應(yīng)有需 求的算力。據(jù) OpenAI 測(cè)算,單個(gè) token 訓(xùn)練時(shí)在 Transformer 解碼器中正向傳播,所需 FLOPs(每秒浮點(diǎn)運(yùn)算數(shù))為 2N+2nlayernctxdattn。由于在論文寫(xiě)作于 2020 年,當(dāng)時(shí)模型上 下文長(zhǎng)度 nctx并不長(zhǎng),滿足 dmodel> nctx/12,因此 2N+2nlayernctxdattn可約等于 2N。在訓(xùn)練中 反向傳播時(shí),所需算力約為正向的 2 倍(即 4N),因此單個(gè) token 訓(xùn)練全過(guò)程需要算力總 共 6N FLOPs,考慮全部的訓(xùn)練 token 數(shù) D,共需算力近似 6ND FLOPs。在推理時(shí),為了 計(jì)算方便,通常采用正向訓(xùn)練算力需求 2ND 來(lái)計(jì)算所需 FLOPs。 值得注意的是,目前 Claude 3、Gemini 1.5 Pro、Kimi 智能助手等大模型支持的上下文 長(zhǎng)度遠(yuǎn)超當(dāng)年,dmodel > nctx/12 不再滿足,因此 2nlayernctxdattn 應(yīng)予以考慮。即上下文長(zhǎng)度 更長(zhǎng)時(shí),訓(xùn)練需求的算力是高于 6ND 的。
在 Scaling Law 指導(dǎo)下,OpenAI 延續(xù)了大參數(shù)模型的路線。2020 年 1 月 Scaling Laws 論文發(fā)表后不久,2020 年 5 月 GPT-3 系列問(wèn)世,將參數(shù)從 GPT-2 的 15 億提升到 1750 億, 訓(xùn)練數(shù)據(jù)大小從 40G 提升到 570G(數(shù)據(jù)處理后,處理前數(shù)據(jù)量更大),分別提升了 100+ 倍和 14 倍。到了 GPT-4,雖然 OpenAI 官方未公布參數(shù)大小,但是根據(jù) SemiAnalysis 的 信息,目前業(yè)界基本默認(rèn)了 GPT-4 是 1.8 萬(wàn)億參數(shù)的 MoE 模型,訓(xùn)練數(shù)據(jù)集包含約 13 萬(wàn) 億個(gè) token,使用了約 25,000 個(gè) A100 GPU,訓(xùn)練了 90 到 100 天,參數(shù)量、數(shù)據(jù)集和訓(xùn) 練所需算力相比 GPT-3 又有數(shù)量級(jí)的提升。OpenAI 在不斷踐行 Scaling Law,將模型的參 數(shù)以及模型的智能提升到新的層級(jí)。
從 Google 和 Anthropic 的模型布局看,印證了大參數(shù)能帶來(lái)模型性能的提升。Google 的 Gemini 和 Anthropic 的 Claude 3 系列均分別提供了“大中小”三款模型,雖然兩家廠商并 未給出模型參數(shù)、訓(xùn)練數(shù)據(jù)細(xì)節(jié),但是均表示更大的模型智能更強(qiáng), 推理速度相對(duì)較慢,所需的算力和訓(xùn)練數(shù)據(jù)也相應(yīng)更多,是對(duì) Scaling Law 的印證。此外, 我們梳理了全球主流模型廠商的參數(shù)情況,同樣發(fā)現(xiàn)旗艦?zāi)P偷膮?shù)量仍在變大。
我們認(rèn)為,全球頭部閉源模型的參數(shù)目前呈現(xiàn)的規(guī)律是:跨代際更新,模型參數(shù)進(jìn)一步加 大;同代際更新,隨著模型技術(shù)架構(gòu)優(yōu)化和軟硬件資源協(xié)同能力提高,在模型性性能不降 的情況下,參數(shù)或做的更小。Google 和 OpenAI 的最新模型都呈現(xiàn)了這個(gè)趨勢(shì)。24 年 5 月 13 日,OpenAI 發(fā)布了 GPT-4o 模型,在多模態(tài)端到端的架構(gòu)基礎(chǔ)上,實(shí)現(xiàn)了更快的推 理速度,以及相比于 GPT-4 Turbo 50%的成本下降,我們推測(cè)其模型參數(shù)或在下降。5 月 14 日 Google 發(fā)布了 Gemini 1.5 Flash,官方明確指出 Flash 是在 Pro 的基礎(chǔ)上,通過(guò)在線 蒸餾的方式得到,即 Flash 的參數(shù)小于 Pro。
大參數(shù)并不是唯一選擇,小參數(shù)模型更好適配了終端算力受限的場(chǎng)景。Google 的 Gemini 系列是典型代表,其最小的 Nano 包括 1.8B 和 3.25B 兩個(gè)版本,并且已經(jīng)在其 Pixel 8 Pro 和三星 Galaxy S24 上實(shí)現(xiàn)部署,取得了不錯(cuò)的終端 AI 效果。此外,Google 在 24 年 2 月 開(kāi)源了輕量級(jí)、高性能 Gemma(2B 和 7B 兩種參數(shù)版本),與 Gemini 模型技術(shù)同源,支 持商用。Google 指出,預(yù)訓(xùn)練和指令調(diào)整的 Gemma 模型可以在筆記本電腦、工作站、物 聯(lián)網(wǎng)、移動(dòng)設(shè)備或 Google Cloud 上運(yùn)行。微軟同樣在 23 年 11 月的 Ignite 大會(huì)上提出了 SLM(小語(yǔ)言模型)路線,并將旗下的 Phi 模型升級(jí)到 Phi-2,參數(shù)大小僅 2.7B,性能超過(guò) 7B 參數(shù)的 Llama 2。24 年 4 月 Phi-3 發(fā)布,最小參數(shù)僅 3.8B,其性能超過(guò)參數(shù)量大其兩倍 的模型,5 月微軟 Build 大會(huì)上,Phi-3 系列參數(shù)為 7B 和 14B 的模型發(fā)布。
Mistral發(fā)布的 7B和 8x7B 模型也是開(kāi)源小模型的典型代表。法國(guó)人工智能初創(chuàng)公司 Mistral AI 成立于 2023 年 5 月,其高管來(lái)自 DeepMind、Facebook 等核心 AI 團(tuán)隊(duì)。2023 年 9 月 和 12 月,Mistral 分別開(kāi)源了 Mistral-7B(73 億參數(shù))和 Mixtral-8x7B-MoE(467 億參數(shù), 8 個(gè) 專 家 )。 Mistral-7B 在多項(xiàng)測(cè)試基準(zhǔn)中優(yōu)于 130 億 參 數(shù) 的 Llama 2-13B 。 Mixtral-8x7B-MoE 在大多數(shù)測(cè)試基準(zhǔn)上超過(guò) Llama 2,且推理速度提高了 6 倍;與 GPT-3.5 相比,也能在多項(xiàng)測(cè)評(píng)基準(zhǔn)上達(dá)到或超過(guò) GPT-3.5 水平。在小參數(shù)開(kāi)源模型中,Mistral 的 競(jìng)爭(zhēng)力很強(qiáng)。Mistral 推出的平臺(tái)服務(wù) La plateforme 也支持模型的 API 調(diào)用。
小參數(shù)模型的訓(xùn)練算力需求仍在變大,定性看,訓(xùn)推算力需求空間可觀。雖然模型參數(shù)較 小,但是為了提高性能,模型廠商均投入了大量的訓(xùn)練數(shù)據(jù)。如Phi-2有1.4T訓(xùn)練數(shù)據(jù)tokens, Phi-3 為 3.3T tokens,Gemma 為 6T/2T tokens(分別對(duì)應(yīng) 7B 和 2B 模型)。24 年 4 月 Meta 率先開(kāi)源的兩個(gè) Llama 3 系列小模型 8B 和 70B,對(duì)應(yīng)的訓(xùn)練 token 已經(jīng)達(dá)到了 15T,并且 Meta 表示,即使已經(jīng)使用了 15T 的訓(xùn)練數(shù)據(jù),仍能看到模型性能的持續(xù)提升。我們認(rèn)為, 雖然單個(gè)小模型相比于大模型訓(xùn)練算力需求并不大,但是一方面小模型本身的訓(xùn)練數(shù)據(jù)集 在不斷增加,另一方面,未來(lái)在終端 AI PC 和手機(jī),甚至車機(jī)和機(jī)器人上,都有可能部署 終端模型,因此定性看,小模型總體的訓(xùn)練和推理算力需求仍然可觀。
特點(diǎn)#2:原生多模態(tài)逐步成為頭部大模型的標(biāo)配能力
OpenAI 的 GPT 系列在全球閉源大語(yǔ)言模型廠商中率先適配多模態(tài)能力。拋開(kāi)專門的多模 態(tài)模型/產(chǎn)品,如文生圖 Stable Diffusion / Midjourney / DALL-E,文生視頻 Sora / Runway / Pika / Stable Video Diffusion 外,在頭部閉源 LLM 中,OpenAI 的 GPT-4 最先引入多模態(tài) 能力。23 年 3 月,GPT-4 技術(shù)報(bào)告中即展示了 GPT-4 支持文本和圖像兩種模態(tài)作為輸入。 9 月 25 日,OpenAI 官方 Blog 宣布 GPT-4 的 Vision(視覺(jué))能力上線,支持多圖和文本的 交錯(cuò)推理,同時(shí)宣布 ChatGPT App 支持語(yǔ)音交互(語(yǔ)音轉(zhuǎn)文本模型為 Whisper,文本轉(zhuǎn)語(yǔ) 音模型為 Voice Engine)。23 年 10 月 19 日,OpenAI 旗下新一代文生圖模型 DALL-E 3 在 ChatGPT 中實(shí)裝上線,可以通過(guò)與 ChatGPT 對(duì)話來(lái)實(shí)現(xiàn)文生圖。
通過(guò)模型間非端到端協(xié)作,ChatGPT 網(wǎng)頁(yè)端和 App 實(shí)現(xiàn)了完備的多模態(tài)能力支持。隨著 OpenAI 的 GPT-4V、DALL-E 3、Whisper、Voice Engine 等模型的上線和更新,OpenAI 將所有的模型協(xié)同集成成 pipeline 形式,使得 ChatGPT 能夠?qū)崿F(xiàn):1)推理文本;2)理解 圖像;3)生成圖像;4)語(yǔ)音轉(zhuǎn)文本;5)文本轉(zhuǎn)語(yǔ)音。ChatGPT 成為 2023 年支持模態(tài)最 多的 LLM 產(chǎn)品。
Google 從 PaLM 模型開(kāi)始即在探索 LLM 向多模態(tài)領(lǐng)域的拓展。PaLM 是 Google Gemini 的前一代主要模型系列。2022 年 4 月,Google 的 PaLM 模型問(wèn)世。PaLM 自身為大語(yǔ)言 模型,僅支持文本模態(tài),但是在 PaLM 的能力之上,Google 將圖像、機(jī)器人具身數(shù)據(jù)轉(zhuǎn)化 為文本 token 形式,訓(xùn)練出多模態(tài)模型 PaLM-E。此外,還將音頻模態(tài)與 PaLM 模型結(jié)合, 發(fā)布 AudioPaLM。在醫(yī)療領(lǐng)域,Google 先基于 PaLM 訓(xùn)練出醫(yī)療語(yǔ)言模型 Med-PaLM, 隨后在 Med-PaLM 基礎(chǔ)上將醫(yī)療圖像知識(shí)增加到訓(xùn)練數(shù)據(jù)中,訓(xùn)練出醫(yī)療領(lǐng)域多模態(tài)模型 Med-PaLM M。
Gemini 模型問(wèn)世后,端到端原生多模態(tài)能力成為頭部模型廠商的“標(biāo)配”能力。2023 年 5 月的 I/O 大會(huì)上,Google 宣布了下一代模型 Gemini,但未透露細(xì)節(jié)。12 月,Gemini 1.0 模型發(fā)布,配備了 Ultra/Pro/Nano 三種參數(shù)大小依次遞減的型號(hào)。Gemini 同樣支持文本、 圖像、視頻、音頻等多模態(tài),但是其范式和 OpenAI 的 ChatGPT 有很大區(qū)別:ChatGPT 屬于多種不同模型的集合,每個(gè)模型負(fù)責(zé)不同的模態(tài),結(jié)果可以串聯(lián);而 Gemini 具備端 到端的原生多模態(tài)能力,Gemini 模型自身可以處理全部支持的模態(tài)。據(jù) The Decoder 信 息,23 年 OpenAI 內(nèi)部已經(jīng)在考慮一種代號(hào)為“Gobi”的新模型,該模型同樣從一開(kāi)始就 被設(shè)計(jì)為原生多模態(tài)。我們認(rèn)為,這種端到端的原生多模態(tài)范式將成為未來(lái)頭部大模型廠 商實(shí)現(xiàn)多模態(tài)的主流范式。
Anthropic Claude 模型多模態(tài)能力“雖遲但到”,Claude 3 模型科研能力優(yōu)異。Anthropic 的 Claude 系列模型在 2024 年 3 月更新到 Gen 3 后,全系適配了多模態(tài)圖像識(shí)別能力,并 在科學(xué)圖表識(shí)別上大幅超越 GPT-4 和 Gemini 1.0 Ultra。此外,Claude 3 Haiku 有著優(yōu)秀 的成本控制和推理速度優(yōu)勢(shì),據(jù) Anthropic 官方,Haiku 的速度是同類產(chǎn)品的三倍,能夠在 一秒內(nèi)處理約 30 頁(yè)的內(nèi)容(21K token),使企業(yè)能夠快速分析大量文檔,例如季度備案、 合同或法律案件,且一美元就能分析 400 個(gè)最高法院案例或 2500 張圖片。
GPT-4o 在 GPT-5 發(fā)布之前實(shí)現(xiàn)了端到端的多模態(tài)支持,驗(yàn)證了原生多模態(tài)的技術(shù)趨勢(shì)。 24 年 5 月 14 日 Google I/O 大會(huì)前夕,OpenAI 發(fā)布了新版模型 GPT-4o(omni),棄用了 之前 ChatGPT 拼接 GPT-4V、Whisper、DALL-E 的非端到端模式,統(tǒng)一了文本、圖像、音 頻和視頻模態(tài),以端到端的方式,實(shí)現(xiàn)了輸入文本、圖像、音頻和視頻,輸出文本、圖像 和音頻,追上了 Google Gemini 的原生多模態(tài)進(jìn)度,并且模態(tài)支持更加全面(4o 支持音頻 輸出,Gemini 不支持)。4o 在文本、圖像、音頻等各項(xiàng)指標(biāo)上均超越了同等級(jí)現(xiàn)有模型。
Claude 3.5 Sonnet增強(qiáng)了UI交互體驗(yàn),與GPT-4o的語(yǔ)音交互相比朝著差異化路徑發(fā)展。 6 月 21 日,Anthropic 宣布了 Claude 3.5 Sonnet 模型,在價(jià)格相比于 Claude 3 Sonnet 不 變的情況下,在研究生水平推理、代碼等能力(文本層面),以及視覺(jué)數(shù)學(xué)推理、圖表問(wèn)答 等能力(視覺(jué)層面)上超過(guò)了 GPT-4o。Claude 3.5 Sonnet 另一個(gè)突出的性能是 UI 交互能 力的增強(qiáng),主要由 Artifacts 功能實(shí)現(xiàn)。當(dāng)用戶要求 Claude 生成代碼片段、文本文檔或網(wǎng)站 設(shè)計(jì)等內(nèi)容時(shí),對(duì)話旁邊的專用窗口中將實(shí)時(shí)出現(xiàn)相應(yīng)的展示,例如編寫(xiě)的游戲、網(wǎng)頁(yè)等。 Anthropic 指出,Artifacts 交互方式未來(lái)將會(huì)從個(gè)人拓展到團(tuán)隊(duì)和整個(gè)組織協(xié)作,將知識(shí)、 文檔和正在進(jìn)行的工作集中在一個(gè)共享空間中。我們認(rèn)為,GPT-4o 和 Claude 3.5 Sonnet 均在優(yōu)化用戶交互上下功夫,但是兩者的方向存在差異化,GPT-4o 更注重語(yǔ)音交互,而 Sonnet 更注重 UI 界面交互。
國(guó)內(nèi)模型廠商積極適配多模態(tài),以圖像理解能力為主。在 GPT-4 宣布支持多模態(tài)后,國(guó)內(nèi) 廠商也積極適配多模態(tài)圖片的識(shí)別、理解和推理。截至 2024 年 4 月,國(guó)產(chǎn)主流模型多模態(tài) 支持情況如下:1)百度文心一言,說(shuō)圖解畫(huà)支持單張圖像推理,支持圖像生成。2)阿里 通義千問(wèn),支持單張圖片推理,支持圖像生成。阿里開(kāi)源的模型 Qwen-VL 支持圖像推理。 3)騰訊混元助手,支持圖像生成,以及單張圖像推理。3)訊飛星火,支持單張圖像推理, 支持圖像生成。4)智譜 ChatGLM 4,支持單張圖像推理,支持圖像生成。5)360 智腦, 支持圖像生成。6)字節(jié)豆包,支持圖像生成。7)Kimi 智能助手,支持圖片中的文字識(shí)別。 月之暗面官方表示 24 年下半年將支持多模態(tài)推理。8)階躍星辰基于 Step 模型的助手躍問(wèn), 支持多圖推理。
特點(diǎn)#3:上下文作為 LLM 的內(nèi)存,是實(shí)現(xiàn)模型通用化的關(guān)鍵
國(guó)外 LLM 廠商較早實(shí)現(xiàn)長(zhǎng)上下文,國(guó)內(nèi)廠商通過(guò)長(zhǎng)上下文找到差異化競(jìng)爭(zhēng)優(yōu)勢(shì)。國(guó)外較早 實(shí)現(xiàn)長(zhǎng)上下文的廠商是 Anthropic,旗下 Claude 模型在 23 年 11 月,將支持的上下文從 100K tokens 提升到 200K,同時(shí)期的 GPT-4 維持在 128K。24 年 2 月,Google 更新 Gemini 到 1.5 Pro 版本,將上下文長(zhǎng)度擴(kuò)展到 1M(5 月更新中擴(kuò)展到 2M),并在內(nèi)部實(shí)現(xiàn)了 10M, 是目前已知最大上下文長(zhǎng)度。國(guó)內(nèi)方面,23 年 10 月由月之暗面發(fā)布的 Kimi 智能助手(原 名 Kimi Chat),率先提供 20 萬(wàn)字的長(zhǎng)上下文,并在 24 年迎來(lái)了用戶訪問(wèn)量的大幅提升。 24 年 3 月,阿里通義千問(wèn)和 Kimi 先后宣布支持 1000 萬(wàn)字和 200 萬(wàn)字上下文,引發(fā)國(guó)內(nèi)百 度文心一言、360 智腦等廠商紛紛跟進(jìn)長(zhǎng)上下文能力迭代。我們認(rèn)為,國(guó)內(nèi) LLM 廠商以長(zhǎng) 上下文為契機(jī),尋找到了細(xì)分領(lǐng)域差異化的競(jìng)爭(zhēng)路線,或有助于指導(dǎo)后續(xù)的模型迭代。
長(zhǎng)上下文使得模型更加通用化。據(jù)月之暗面官方信息,長(zhǎng)上下文能夠解決 90%的模型微調(diào) 定制問(wèn)題。對(duì)于短上下文模型,在執(zhí)行具體的下游任務(wù)前,其已具備的能力往往仍有欠缺, 需要針對(duì)下游任務(wù)進(jìn)行微調(diào)。微調(diào)的基本步驟包括數(shù)據(jù)集的準(zhǔn)備、微調(diào)訓(xùn)練等,中間可能 還涉及微調(diào)結(jié)果不理想,需要重新梳理微調(diào)過(guò)程。而上下文長(zhǎng)度足夠的情況下,可以將數(shù) 據(jù)作為提示詞的一部分,直接用自然語(yǔ)言輸入給大模型,讓模型從上下文中學(xué)習(xí),達(dá)到微 調(diào)效果,使得模型本身更具有通用性。以 Google Gemini 1.5 Pro 為例,將 250K token 的 Kalamang 語(yǔ)(全球使用人數(shù)小于 200 人,幾乎不存在于 LLM 的訓(xùn)練集中)直接作為上下 文輸入給模型,實(shí)現(xiàn)了接近人類的翻譯水平。而 GPT-4 和 Claude 2.1 由于上下文支持長(zhǎng)度 不夠,無(wú)法通過(guò)上下文學(xué)習(xí)到全部的知識(shí)。
長(zhǎng)上下文還能很好的適配虛擬角色、開(kāi)發(fā)者、AI Agent、垂類場(chǎng)景等需求。1)虛擬角色 Chatbot:長(zhǎng)文本能力幫助虛擬角色記住更多的重要用戶信息,提高使用體驗(yàn)。2)開(kāi)發(fā)者: 基于大模型開(kāi)發(fā)劇本殺等游戲或應(yīng)用時(shí),需要將數(shù)萬(wàn)字甚至超過(guò)十萬(wàn)字的劇情設(shè)定以及游 戲規(guī)則作為 prompt 輸入,對(duì)長(zhǎng)上下文能力有著剛性需求。3)AI Agent:Agent 智能體運(yùn) 行需要自主進(jìn)行多輪規(guī)劃和決策,且每步行動(dòng)都可能需要參考?xì)v史記憶信息才能完成。因 此,短上下文會(huì)導(dǎo)致長(zhǎng)流程中的信息遺忘,長(zhǎng)上下文是 Agent 效果的重要保障。4)垂直場(chǎng) 景客戶需求:對(duì)于律師、分析師、咨詢師等專業(yè)用戶群體,有較多長(zhǎng)文本內(nèi)容分析需求, 模型長(zhǎng)上下文能力是關(guān)鍵。
實(shí)現(xiàn)長(zhǎng)上下文有多種方法,優(yōu)化 Transformer 架構(gòu)模塊是核心。拆解 Transformer 解碼器, 可以通過(guò)改進(jìn)架構(gòu)中的各個(gè)模塊來(lái)實(shí)現(xiàn)上下文長(zhǎng)度的拓展。1)高效注意力機(jī)制:高效的注 意力機(jī)制能夠降低計(jì)算成本,甚至實(shí)現(xiàn)線性時(shí)間復(fù)雜度。這樣在訓(xùn)練時(shí)就可以實(shí)現(xiàn)更長(zhǎng)的 序列長(zhǎng)度,相應(yīng)的推理序列長(zhǎng)度也會(huì)更長(zhǎng)。2)實(shí)現(xiàn)長(zhǎng)期記憶:設(shè)計(jì)顯式記憶機(jī)制,如給予 外部存儲(chǔ),解決上下文記憶的局限性。3)改進(jìn)位置編碼 PE:對(duì)現(xiàn)有的位置編碼 PE 進(jìn)行 改進(jìn),實(shí)現(xiàn)上下文外推。4)對(duì)上下文進(jìn)行處理:用額外的上下文預(yù)/后處理,在已有的 LLM (視為黑盒)上改進(jìn),確保每次調(diào)用中給 LLM 的輸入始終滿足最大長(zhǎng)度要求。5)其他方 法:以更廣泛的視角來(lái)增強(qiáng) LLM 的有效上下文窗口,或優(yōu)化使用現(xiàn)成 LLM 時(shí)的效率,例如 MoE(混合專家)、特殊的優(yōu)化目標(biāo)函數(shù)、并行策略、權(quán)重壓縮等。
RAG 與其他長(zhǎng)文本實(shí)現(xiàn)方法相比,并沒(méi)有顯著的優(yōu)劣之分,要結(jié)合場(chǎng)景進(jìn)行選擇。RAG 基本原理是,在用戶提問(wèn)時(shí),retriever(檢索器)會(huì)從外部的知識(shí)庫(kù)中檢索最相關(guān)的信息傳 遞給大模型,作為大模型推理所需知識(shí)的補(bǔ)充。RAG 更像是大模型本身的“外掛”幫手。 而優(yōu)化注意力機(jī)制等其他長(zhǎng)上下文實(shí)現(xiàn)方法,則是大模型的“內(nèi)生”能力,是模型本身能 夠支持輸入更長(zhǎng)的信息,并通過(guò)注意力機(jī)制掌握序列全局關(guān)系。“內(nèi)生”似乎比“外掛”更 高級(jí),因?yàn)槟P蜁?huì)捕捉到用戶提出的所有歷史信息,更適用于 C 端信息量有限場(chǎng)景。但是 對(duì)于 B 端用戶,其企業(yè) Know-How 積累量巨大,且很多知識(shí)也是結(jié)構(gòu)化的 QA(如客服), 而模型上下文長(zhǎng)度不可能無(wú)限延長(zhǎng)(受制于算法、算力、推理時(shí)間等各種因素),因此 RAG 這種“外掛”的形式更加適合。例如,主要面向 B 端的大模型廠商 Cohere,將 RAG 作為 模型重要能力以適配 B 端檢索場(chǎng)景,其 Command R+模型本身上下文長(zhǎng)度僅 128K。 我們認(rèn)為,“內(nèi)生”長(zhǎng)文本技術(shù)是從根本上解決問(wèn)題,是發(fā)展趨勢(shì),但是受制于算力等因素 (未來(lái)或?qū)⒅鸩浇鉀Q),短期內(nèi)將與 RAG 共存,選擇上取決于使用場(chǎng)景。
特點(diǎn)#4:MoE 是模型從千億到萬(wàn)億參數(shù)的關(guān)鍵架構(gòu)
MoE 架構(gòu)有利于預(yù)訓(xùn)練和推理效率的提升,方便模型 scale up 到更大的參數(shù)。據(jù) Hugging Face 信息,在有限的計(jì)算資源預(yù)算下,用更少的訓(xùn)練步數(shù)訓(xùn)練一個(gè)更大的模型,往往比用 更多的步數(shù)訓(xùn)練一個(gè)較小的模型效果更佳。MoE 的一個(gè)顯著優(yōu)勢(shì)是它們能夠在遠(yuǎn)少于稠密 模型所需的計(jì)算資源下進(jìn)行有效的預(yù)訓(xùn)練,當(dāng)計(jì)算資源有限時(shí),MoE 可以顯著擴(kuò)大模型或 數(shù)據(jù)集的規(guī)模,更快地達(dá)到稠密模型相同的質(zhì)量水平。MoE 的引入使得訓(xùn)練具有數(shù)千億甚 至萬(wàn)億參數(shù)的模型成為可能。MoE 特點(diǎn)在于:1)與稠密模型相比,預(yù)訓(xùn)練速度更快;2) 與具有相同參數(shù)數(shù)量的模型相比,具有更快的推理速度(因?yàn)橹恍枰{(diào)用部分參數(shù));3) 需要大量顯存,因?yàn)樗袑<蚁到y(tǒng)都需要加載到內(nèi)存中,而 MoE 架構(gòu)的模型參數(shù)可達(dá)到上 萬(wàn)億;4)MoE 進(jìn)行指令調(diào)優(yōu)具有很大的潛力,方便做 Chatbot 類應(yīng)用。
MoE 由稀疏 MoE 層和門控網(wǎng)絡(luò)/路由組成。MoE 模型仍然基于 Transformer 架構(gòu),組成部 分包括:1)稀疏 MoE 層:這些層代替了傳統(tǒng) Transformer 模型中的稠密前饋網(wǎng)絡(luò)層,包 含若干“專家”(例如 8、16、32 個(gè)),每個(gè)專家本身是一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)。這些專家甚 至可以是 MoE 層本身,形成層級(jí)式的 MoE 結(jié)構(gòu)。稀疏性體現(xiàn)在模型推理時(shí),并非所有參 數(shù)都會(huì)在處理每個(gè)輸入時(shí)被激活或使用,而是根據(jù)輸入的特定特征或需求,只有部分參數(shù) 集合被調(diào)用和運(yùn)行。2)門控網(wǎng)絡(luò)/路由:決定將用戶輸入的 tokens 發(fā)送到哪個(gè)具體的專家。 例如下圖中,“More”對(duì)應(yīng)的 token 被發(fā)送到第二個(gè)專家處理,而“Parameters”送到第一 個(gè)專家。一個(gè) token 也可以被發(fā)送到多個(gè)專家進(jìn)行處理。路由器中的參數(shù)需要學(xué)習(xí),將與 網(wǎng)絡(luò)的其他部分一同進(jìn)行預(yù)訓(xùn)練。
專家數(shù)量存在邊際遞減效應(yīng),MoE 的選擇也要考慮模型的具體應(yīng)用場(chǎng)景。據(jù) Hugging Face 信息,增加更多專家可以加速模型的運(yùn)算速度和推理效率,但這一提升隨著專家數(shù)量的增 加而邊際遞減,尤其是當(dāng)專家數(shù)量達(dá)到 256 或 512 之后更為明顯。另外,雖然推理時(shí)只需 要激活部分參數(shù),但是推理前仍然需要將全量的模型參數(shù)加載到顯存中。據(jù) Switch Transformers 的研究結(jié)果,以上特性在小規(guī)模 MoE 模型下也同樣適用。在架構(gòu)的選擇上, MoE 適用于擁有多臺(tái)機(jī)器(分布式)且要求高吞吐量的場(chǎng)景,在固定的預(yù)訓(xùn)練計(jì)算資源下, 稀疏模型往往能夠?qū)崿F(xiàn)更優(yōu)的效果。在顯存較少且吞吐量要求不高的場(chǎng)景,傳統(tǒng)的稠密模 型則是更合適的選擇。
Google 是 MoE 架構(gòu)的早期探索者之一,OpenAI 實(shí)現(xiàn)了 MoE 的商業(yè)化落地。MoE 的理 念起源于 1991 年的論文《Adaptive Mixture of Local Experts》。在 ChatGPT 問(wèn)世之前, Google 已經(jīng)有了較深入的 MoE 研究,典型代表是 20 年的 Gshard 和 21 年的開(kāi)源 1.6 萬(wàn)億 Switch-Transformer 模型。23 年 3 月 GPT-4 問(wèn)世,OpenAI 繼續(xù)走了閉源路線,沒(méi)有公布 模型參數(shù)。但是據(jù) SemiAnalysis 信息,GPT-4 的參數(shù)約 1.8 萬(wàn)億,采用 MoE 架構(gòu),專家 數(shù)為 16,每次推理調(diào)用兩個(gè)專家,生成 1 個(gè) token 約激活 2800 億參數(shù)(GPT-3 為 1750 億參數(shù)),消耗 560 TFLOPs 算力。在 GTC 2024 演講上,黃仁勛展示了 GB200 訓(xùn)練 GPT 模型示意圖,給出的參數(shù)也是 GPT-MoE-1.8T,交叉印證。
Mistral 引發(fā) MoE 關(guān)注,Google 掀起 MoE 浪潮,國(guó)內(nèi)廠商跟隨發(fā)布 MoE 模型。23 年 12 月,Mistral 開(kāi)源 Mixtral-8x7B-MoE,以近 47 億的參數(shù)在多項(xiàng)測(cè)評(píng)基準(zhǔn)上達(dá)到或超過(guò) 1750 億參數(shù)的 GPT-3.5 水平,引發(fā)了全球開(kāi)發(fā)者對(duì) MoE 架構(gòu)的再次關(guān)注。英偉達(dá)的研究主管 Jim Fan 指出 MoE 將成為未來(lái)模型發(fā)展的重要趨勢(shì)。24 年 2 月,Google 將其最先進(jìn)模型 系列 Gemini 更新到 1.5 Pro,并指出架構(gòu)上從稠密架構(gòu)切換到 MoE 架構(gòu),實(shí)現(xiàn)了 1.5 Pro 模型性能的大幅提升,核心能力超過(guò) Gemini 1.0 Ultra。國(guó)內(nèi)外模型廠商隨即跟進(jìn)發(fā)布 MoE 相關(guān)模型,包括 xAI 開(kāi)源的 Grok-1(23 年 10 月已實(shí)現(xiàn) MoE,24 年開(kāi)源)、MiniMax abab6、 Databricks DBRX、AI21 Jamba、阿里 Qwen-1.5 MoE、昆侖萬(wàn)維天工 3.0、階躍星辰 STEP 2、商湯日日新 5.0 等。
展望 24 年及之后的大模型發(fā)展方向,我們認(rèn)為,1)Scaling Law 雖然理論上有邊界,但 是實(shí)際上仍遠(yuǎn)未達(dá)到;2)雖然有 Mamba、KAN 等新的架構(gòu)挑戰(zhàn) Transformer,但是 Transformer 仍是主流,短期內(nèi)預(yù)期不會(huì)改變;3)以 Meta Llama 為首的開(kāi)源模型陣營(yíng)日 益強(qiáng)大,占據(jù)了整個(gè)基礎(chǔ)模型的超半數(shù)比重,且與閉源模型差距縮短;4)AI Agent 是實(shí) 現(xiàn) AGI 的重要加速器。5)具身智能隨著與 LLM 技術(shù)的融合,將變得更加可用。
展望#1:Scaling Law 理論上有邊界,但是目前仍未到達(dá)
Scaling Law 的趨勢(shì)終將會(huì)趨于平緩,但是目前公開(kāi)信息看離該邊界尚遠(yuǎn)。OpenAI 在 2020 年 1 月的 Scaling Law 論文中明確指出,整個(gè)研究過(guò)程中 OpenAI 在大算力、大參數(shù)和大訓(xùn) 練數(shù)據(jù)情況下,并沒(méi)有發(fā)現(xiàn) Scaling Law 出現(xiàn)邊界遞減的現(xiàn)象。但也提到,這個(gè)趨勢(shì)終將趨 于平緩(level off),因?yàn)樽匀徽Z(yǔ)言具有非零熵。但是實(shí)際上,根據(jù)斯坦福大學(xué) 2023 年的 AI Index 報(bào)告,2012-2023 年,頭部模型訓(xùn)練消耗的算力仍然在持續(xù)增大。
可預(yù)期的時(shí)間內(nèi),Scaling Law 的上限尚未看到,self-play 是趨勢(shì)。我們認(rèn)為,雖然 OpenAI 從理論上預(yù)測(cè)了 Scaling Law 的趨勢(shì)會(huì)區(qū)域平緩,但是目前全球頭部模型廠商依然遵循更大 的參數(shù)等于更高的智能。Gemini 和 Claude 3 發(fā)布的模型產(chǎn)品矩陣即驗(yàn)證了這一觀點(diǎn),例如 更小的 Claude 3 Haiku 輸出速度快于最大的 Claude 3 Opus,價(jià)格更低,智能情況和測(cè)評(píng) 得分也更低。清華大學(xué)教授、智譜 AI 的技術(shù)牽頭人唐杰教授在 24 年 2 月北京人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展大會(huì)上發(fā)表演講《ChatGLM:從大模型到 AGI 的一點(diǎn)思 考》,也指出了目前很多大模型還在 1000 億參數(shù)左右,“我們還遠(yuǎn)未到 Scaling law 的盡頭, 數(shù)據(jù)量、計(jì)算量、參數(shù)量還遠(yuǎn)遠(yuǎn)不夠。未來(lái)的 Scaling law 還有很長(zhǎng)遠(yuǎn)的路要走。”此外, 唐杰教授還認(rèn)為,“今年的階段性成果,是實(shí)現(xiàn) GPT 到 GPT Zero 的進(jìn)階,即大模型可以 自己教自己”,類似于 AlphaGo 到 Alphazero 的轉(zhuǎn)變,實(shí)現(xiàn)模型 self-play。
展望#2:模型幻覺(jué)短期難消除但可抑制,CoT 是典型方法
大模型的幻覺(jué)來(lái)源包括數(shù)據(jù)、訓(xùn)練過(guò)程、推理過(guò)程等。LLM 的幻覺(jué)(hallucination),即 LLM 輸出內(nèi)容與現(xiàn)實(shí)世界的事實(shí)或用戶輸入不一致,通俗說(shuō)就是“一本正經(jīng)胡說(shuō)”。幻覺(jué)的來(lái)源 主要分為 3 類:1)與訓(xùn)練數(shù)據(jù)相關(guān)的幻覺(jué);2)與訓(xùn)練過(guò)程相關(guān)的幻覺(jué);3)與推理過(guò)程相 關(guān)的幻覺(jué)。 根據(jù)幻覺(jué)來(lái)源的不同,針對(duì)性的有各種解決方法。1)數(shù)據(jù)相關(guān)的幻覺(jué):可以在準(zhǔn)備數(shù)據(jù)時(shí), 減少錯(cuò)誤信息和偏見(jiàn),擴(kuò)展數(shù)據(jù)知識(shí)邊界,減少訓(xùn)練數(shù)據(jù)中的虛假相關(guān)性,或者增強(qiáng) LLM 知識(shí)回憶能力,如使用思維鏈(CoT)。2)訓(xùn)練過(guò)程相關(guān)的幻覺(jué):可以避免有缺陷的模型 架構(gòu),例如改進(jìn)模型架構(gòu)或優(yōu)化注意力機(jī)制;也可以通過(guò)改進(jìn)人類偏好,減輕模型與人類 對(duì)齊時(shí)的奉承性。3)推理過(guò)程相關(guān)的幻覺(jué):主要是在解碼過(guò)程中,增強(qiáng)解碼的事實(shí)性和忠 誠(chéng)性,例如保證上下文和邏輯的一致等。
展望#3:開(kāi)源模型將在未來(lái)技術(shù)生態(tài)中占據(jù)一席之地
2023 年開(kāi)源模型在全球基礎(chǔ)模型中所占的比重大幅提高。根據(jù)斯坦福大學(xué) 2023 年的 AI Index 報(bào)告,2021-2023 年全球發(fā)布的基礎(chǔ)模型數(shù)量持續(xù)增多,且開(kāi)源模型的占比大幅提高, 21-23 年占比分別為 33.3%、44.4%和 65.7%。此外,4 月 OpenAI CEO 和 COO 在接受訪 談時(shí),指出“開(kāi)源模型無(wú)疑將在未來(lái)的技術(shù)生態(tài)中占據(jù)一席之地。有些人會(huì)傾向于使用開(kāi) 源模型,有些人則更偏好于托管服務(wù),當(dāng)然,也會(huì)有許多人選擇同時(shí)使用這兩種方式。”
Meta 持續(xù)開(kāi)源 Llama 系列模型,證明了開(kāi)源模型與閉源模型差距持續(xù)縮小。4 月 19 日, Llama 3-8B 和 70B 小模型發(fā)布,支持文本輸入和輸出,架構(gòu)和 Llama 2 基本類似 (Transformer decoder),上下文長(zhǎng)度 8K,15T 訓(xùn)練 token(Llama 2 是 2T)。評(píng)測(cè)結(jié)果看, Llama-70B 與 Gemini 1.5 Pro 和 Claude 3 Sonnet 相比(這兩個(gè)閉源模型參數(shù)都預(yù)期遠(yuǎn)大 于 70B),在多語(yǔ)言理解、代碼、小學(xué)數(shù)學(xué)等方面領(lǐng)先。Llama 3 繼續(xù)堅(jiān)持開(kāi)源,可商用, 但在月活超 7 億時(shí)需向 Meta 報(bào)備。根據(jù) Mata 官方信息,Llama 3 將開(kāi)源 4000 億參數(shù)版 本,支持多模態(tài),能力或是 GPT-4 級(jí)別。目前訓(xùn)練的階段性 Llama 3-400B 已經(jīng)在 MMLU 測(cè)評(píng)集(多任務(wù)語(yǔ)言理解能力)上得分 85 左右,GPT-4 Turbo 得分是 86.4,差距很小,且 Llama 3 400B 仍將在未來(lái)幾個(gè)月的訓(xùn)練中持續(xù)提升能力。基于 Llama 1 和 2 帶來(lái)的繁榮開(kāi) 源模型生態(tài),我們認(rèn)為,正式版 Llama 3 發(fā)布后,或?qū)⑦M(jìn)一步縮小開(kāi)源模型與閉源模型的 差距,甚至在某些方面繼續(xù)趕超。
大模型的開(kāi)源閉源之爭(zhēng)尚未有定論。開(kāi)源和閉源在各個(gè)領(lǐng)域中誰(shuí)占主導(dǎo),并沒(méi)有定數(shù)。復(fù) 盤來(lái)看,閉源在操作系統(tǒng)、瀏覽器、云基礎(chǔ)設(shè)施、數(shù)據(jù)庫(kù)等領(lǐng)域占據(jù)了主導(dǎo)地位,開(kāi)源在 內(nèi)容管理系統(tǒng)、網(wǎng)絡(luò)服務(wù)器等領(lǐng)域優(yōu)勢(shì)地位明顯。反觀大模型領(lǐng)域,開(kāi)源閉源誰(shuí)將最終勝 出尚未有定論。當(dāng)下,閉源模型的優(yōu)勢(shì)在于:1)資源集中:大模型訓(xùn)練屬于計(jì)算資源密集 型行業(yè),在當(dāng)前各大云廠商算力儲(chǔ)備爬坡階段,只有閉源才能實(shí)現(xiàn)萬(wàn)卡級(jí)別的大規(guī)模分布 式集群;2)人才集中:OpenAI、Google、Anthropic、Mata 等大模型頭部廠商,集中了目 前全球?yàn)閿?shù)不多的大模型訓(xùn)練人才,快速形成了頭部效應(yīng)。那我們的問(wèn)題是,這種優(yōu)勢(shì)持 續(xù)性有多長(zhǎng)?資源方面,未來(lái)隨著算力基礎(chǔ)設(shè)施的逐步完善、單位算力成本的下降、推理 占比逐步超過(guò)訓(xùn)練,大廠的資源密集優(yōu)勢(shì)是否還會(huì)顯著?人才方面,全球已經(jīng)看準(zhǔn)了 LLM 的方向,相關(guān)人才也在加速培養(yǎng),OpenAI 的相關(guān)人才也在快速流失和迭代,人才壁壘是否 也在降低?
展望#4:數(shù)據(jù)將成為模型規(guī)模繼續(xù)擴(kuò)大的瓶頸,合成數(shù)據(jù)或是關(guān)鍵
Epoch 預(yù)測(cè),未來(lái)訓(xùn)練數(shù)據(jù)的缺乏將可能減緩機(jī)器學(xué)習(xí)模型的規(guī)模擴(kuò)展。據(jù) Epoch 預(yù)測(cè), 2030 年到 2050 年,將耗盡低質(zhì)量語(yǔ)言數(shù)據(jù)的庫(kù)存;到 2026 年,將耗盡高質(zhì)量語(yǔ)言數(shù)據(jù)的 庫(kù)存;2030 年到 2060 年,將耗盡視覺(jué)數(shù)據(jù)的庫(kù)存。由于大參數(shù)模型對(duì)數(shù)據(jù)量需求的增長(zhǎng), 到 2040 年,由于缺乏訓(xùn)練數(shù)據(jù),機(jī)器學(xué)習(xí)模型的擴(kuò)展大約有 20%的可能性將顯著減慢。 值得注意的是,以上結(jié)論的前提假設(shè)是,機(jī)器學(xué)習(xí)數(shù)據(jù)使用和生產(chǎn)的當(dāng)前趨勢(shì)將持續(xù)下去, 并且數(shù)據(jù)效率不會(huì)有重大創(chuàng)新(這個(gè)前提未來(lái)可能被新合成技術(shù)打破)。
合成數(shù)據(jù)是解決數(shù)據(jù)缺乏的重要途徑,但目前相關(guān)技術(shù)仍需要持續(xù)改進(jìn)。理論上,數(shù)據(jù)缺 乏可以通過(guò)合成數(shù)據(jù)來(lái)解決,即 AI 模型自己生成訓(xùn)練數(shù)據(jù),例如可以使用一個(gè) LLM 生成的 文本來(lái)訓(xùn)練另一個(gè) LLM。在 Anthropic 的 Claude 3 技術(shù)報(bào)告中,已經(jīng)明確提出在訓(xùn)練數(shù)據(jù) 中使用了內(nèi)部生成的數(shù)據(jù)。但是目前為止,使用合成數(shù)據(jù)來(lái)訓(xùn)練生成性人工智能系統(tǒng)的可 行性和有效性仍有待研究,有結(jié)果表明合成數(shù)據(jù)上的訓(xùn)練模型存在局限性。例如 Alemohammad 發(fā)現(xiàn)在生成式圖像模型中,如果在僅有合成數(shù)據(jù)或者真實(shí)人類數(shù)據(jù)不足的 情況下,將出現(xiàn)輸出圖像質(zhì)量的顯著下降,即模型自噬障礙(MAD)。我們認(rèn)為,合成數(shù)據(jù) 是解決高質(zhì)量訓(xùn)練數(shù)據(jù)短缺的重要方向,隨著技術(shù)演進(jìn),目前面臨的合成數(shù)據(jù)效果邊際遞 減問(wèn)題或逐步解決。
展望#5:新的模型架構(gòu)出現(xiàn),但是 Transformer 仍是主流
Transformer 架構(gòu)主流地位未被撼動(dòng)。截止 23 年 5 月,LLM 絕大部分仍然以 Transformer 為基礎(chǔ)架構(gòu),包括當(dāng)前最先進(jìn)的 GPT-4 系列、Google Gemini 系列、Meta Llama 系列,均 是以 Transformer 的解碼器架構(gòu)為主。雖然有研究者提出了 Mamba 等基于狀態(tài)空間模型 (SSM)的新模型架構(gòu),實(shí)現(xiàn)了:1)推理時(shí)的吞吐量為 Transformer 的 5 倍;2)序列長(zhǎng) 度可以線性擴(kuò)展到百萬(wàn)級(jí)別;3)支持多模態(tài);4)測(cè)試集結(jié)果優(yōu)于同等參數(shù)規(guī)模的 Transformer 模型。但從工程實(shí)現(xiàn)來(lái)看,暫時(shí)未得到大范圍的使用。Google 也探索了循環(huán) 神經(jīng)網(wǎng)絡(luò)的遞歸機(jī)制與局部注意力機(jī)制的結(jié)合;KAN 的提出也從底層替換了 Transformer 的基礎(chǔ)單元 MLP(多層感知機(jī))。但我們認(rèn)為,以上方法都缺乏大量的工程實(shí)踐和成熟的工 程工具,短期內(nèi)替換掉 Transformer 可能性不大。
全球首個(gè)基于 Mamba 架構(gòu)的生產(chǎn)級(jí)模型發(fā)布,Mamba 開(kāi)始得到落地驗(yàn)證。24 年 3 月, AI21 發(fā)布世界首個(gè) Mamba 的生產(chǎn)級(jí)模型 Jamba,融合了 Mamba+Transformer+MoE 等不 同類型的大模型技術(shù)。Jamba 基本信息如下:1)共 52B 參數(shù),其中 12B 在推理時(shí)處于激 活狀態(tài);2)共 16 位專家,推理過(guò)程中僅 4 個(gè)專家處于活躍狀態(tài);3)模型基于 Mamba, 采用 SSM-Transformer 混合的架構(gòu);4)支持 256K 上下文長(zhǎng)度;5)單個(gè) A100 80GB 最 多可支持 140K 上下文;6)與 Mixtral 8x7B 相比,長(zhǎng)上下文的吞吐量提高了 3 倍。從測(cè)評(píng) 結(jié)果看,Jamba 在推理能力上優(yōu)于 Llama 2 70B、Gemma 7B 和 Mixtral 8x7B。Mamba 架 構(gòu)開(kāi)始得到驗(yàn)證。
Google RecurrentGemma 架構(gòu)也與 Transformer 不同,是另一種新的路線探索。 RecurrentGemma 基于 Google 開(kāi)源的小模型 Gemma,在此基礎(chǔ)上,引入了循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)和局部注意力機(jī)制來(lái)提高記憶效率。由于傳統(tǒng)的 Transformer 架構(gòu)中,需要計(jì)算 兩兩 token 之間的注意力機(jī)制,因此時(shí)間和空間復(fù)雜度均隨著 token 的增加而平方級(jí)增長(zhǎng)。 由于 RNN 引入的線性遞歸機(jī)制避免了平方級(jí)復(fù)雜度,RecurrentGemma 帶來(lái)了以下幾個(gè)優(yōu) 勢(shì):1)內(nèi)存使用減少:在內(nèi)存有限的設(shè)備(例如單個(gè) XPU)上生成更長(zhǎng)的樣本。2)更高 的吞吐量:由于內(nèi)存使用量減少,RecurrentGemma 可以以顯著更高的 batch 大小執(zhí)行推 理,從而每秒生成更多的 token(尤其是在生成長(zhǎng)序列時(shí))。更重要的是,RecurrentGemma 展示了一種實(shí)現(xiàn)高性能的非 Transformer 模型,是架構(gòu)革新的重要探索。
展望#6:AI Agent 智能體是 AGI 的加速器
計(jì)算機(jī)科學(xué)中 Agent 指計(jì)算機(jī)能夠理解用戶的意愿并能自主地代表用戶執(zhí)行任務(wù)。Agent (中文翻譯智能體、代理等)概念起源于哲學(xué),描述了一種擁有欲望、信念、意圖和采取 行動(dòng)能力的實(shí)體。將這個(gè)概念遷移到計(jì)算機(jī)科學(xué)中,即意指計(jì)算機(jī)能夠理解用戶的意愿并 能自主地代表用戶執(zhí)行任務(wù)。隨著 AI 的發(fā)展,AI Agent 用來(lái)描述表現(xiàn)出智能行為并具有自 主性、反應(yīng)性、主動(dòng)性和社交能力的人工實(shí)體,能夠使用傳感器感知周圍環(huán)境、做出決策, 然后使用執(zhí)行器采取行動(dòng)。 AI Agent 是實(shí)現(xiàn)人工通用智能(AGI)的關(guān)鍵一步,包含了廣泛的智能活動(dòng)潛力。2020 年, Yonatan Bisk 在《Experience Grounds Language》中提出 World Scope (WS),來(lái)描述自 然語(yǔ)言處理到 AGI 的研究進(jìn)展,包括 5 個(gè)層級(jí):WS1. Corpus (our past);WS2. Internet (most of current NLP);WS3. Perception (multimodal NLP);WS4. Embodiment;WS5. Social。據(jù)復(fù)旦大學(xué) NLP 團(tuán)隊(duì),純 LLM 建立在第二個(gè)層次上,即具有互聯(lián)網(wǎng)規(guī)模的文本輸 入和輸出。將 LLM 與 Agent 技術(shù)架構(gòu)結(jié)合,并配備擴(kuò)展的感知空間和行動(dòng)空間,就有可能 達(dá)到 WS 的第三和第四層。多個(gè) Agent 可以通過(guò)合作或競(jìng)爭(zhēng)來(lái)處理更復(fù)雜的任務(wù),甚至觀 察到涌現(xiàn)的社會(huì)現(xiàn)象,潛在地達(dá)到第五 WS 級(jí)別。
AI Agent 主要由 LLM 大腦、規(guī)劃單元、記憶單元、工具和行動(dòng)單元組成。不同研究中的 AI Agent 框架組成略有差別。比較官方的定義是 OpenAI 安全系統(tǒng)負(fù)責(zé)人 Lilian 提出的,她 將 Agent 定義為 LLM、記憶(Memory)、任務(wù)規(guī)劃(Planning Skills)以及工具使用(Tool Use)的集合,其中 LLM 是核心大腦,Memory、Planning Skills 以及 Tool Use 等則是 Agents 系統(tǒng)實(shí)現(xiàn)的三個(gè)關(guān)鍵組件。此外,復(fù)旦大學(xué) NLP 團(tuán)隊(duì)也提出了由大腦、感知和動(dòng)作三部分 組成的 AI Agent 框架。
吳恩達(dá)教授指出,LLM 加上反思、工具使用、規(guī)劃、多智能體等能力后,表現(xiàn)大幅提升。 斯坦福大學(xué)教授、Amazon 董事會(huì)成員吳恩達(dá)在紅杉美國(guó) AI Ascent 2024 提出,如果用戶 圍繞 GPT-3.5 使用一個(gè) Agent 工作流程,其實(shí)際表現(xiàn)甚至好于 GPT-4。其中,反思指的是 讓模型重新思考其生成的答案是否正確,往往會(huì)帶來(lái)輸出結(jié)果的改進(jìn);工具使用包括調(diào)用 外部的聯(lián)網(wǎng)搜索、日歷、云存儲(chǔ)、代碼解釋器等工具,補(bǔ)充模型的能力欠缺;多智能體協(xié) 作指的是多種智能體互相搭配來(lái)完成一個(gè)復(fù)雜任務(wù),每種智能體會(huì)負(fù)責(zé)自己所擅長(zhǎng)的一個(gè) 領(lǐng)域,類似人類社會(huì)之間的協(xié)作,實(shí)現(xiàn)超越單個(gè)智能體能達(dá)到的效果。
Agent 相關(guān)研究處于爆發(fā)期。伴隨 LLM 的快速迭代發(fā)展,基于 LLM 的 AI Agent 涌現(xiàn),典 型的如 Auto-GPT、微軟的 HuggingGPT、斯坦福小鎮(zhèn) Generative Agent、Nvidia Voyager 等。24 年 3 月,AI 初創(chuàng)公司 Cognition 發(fā)布第一個(gè) AI 軟件工程師自主智能體 Devin,能夠 使用自己的 shell、代碼編輯器和 Web 瀏覽器來(lái)解決工程任務(wù),并在 SWE-Bench 基準(zhǔn)測(cè)試 上正確解決了 13.86%的問(wèn)題,遠(yuǎn)超之前方法的正確率。我們認(rèn)為,2024 年基于 AI Agent 的應(yīng)用和產(chǎn)品仍將會(huì)繼續(xù)涌現(xiàn),其效果也將持續(xù)受益于大模型能力的提升,AI Agent 將成 為實(shí)現(xiàn) AGI 的重要助推器。
展望#7:具身智能與 LLM 結(jié)合落地加速
AI 龍頭公司在具身智能領(lǐng)域有模型、框架層面的豐富研究成果。23 年 5 月,Nvidia CEO 黃仁勛指出,AI 的下一個(gè)浪潮將是具身智能。各個(gè) AI 頭部廠商均有相關(guān)的研究成果。23 年年初,微軟的 ChatGPT for Robotics 初次探討了 LLM 代替人工編程,來(lái)對(duì)機(jī)器人實(shí)現(xiàn)控 制。Google 延續(xù)了 2022 年的具身智能成果,將 RT 系列模型升級(jí)到視覺(jué)動(dòng)作語(yǔ)言模型 RT-2, 將 Gato 升級(jí)到能自我迭代的 RoboCat,并開(kāi)源了迄今最大的真實(shí)機(jī)器人具身智能數(shù)據(jù)集 Open X-Embodiment。Nvidia 也有 VIMA 和 OPTIMUS 等具身智能研究,并在 24 年 2 月 成立了專門研究具身智能的小組 GEAR。斯坦福李飛飛教授的 VoxPoser 結(jié)合視覺(jué)模型和語(yǔ) 言模型優(yōu)勢(shì),建模了空間 Value Map 來(lái)對(duì)機(jī)器人軌跡進(jìn)行規(guī)劃。Meta 也發(fā)布 RoboAgent, 并在訓(xùn)練數(shù)據(jù)集收集上利用了自家的 CV 大模型 SAM。
2024 年,具身智能仍是 LLM 重要的終端落地場(chǎng)景,技術(shù)仍在持續(xù)迭代。1)24 年 1 月, 斯坦福大學(xué)發(fā)布 Mobile ALOHA 機(jī)器人,利用模仿學(xué)習(xí),在人類做出 50 個(gè)示例后,機(jī)器人 即能自行執(zhí)行下游任務(wù)。2)同月,Google 一次性發(fā)布了三項(xiàng)具身智能成果。Auto-RT 解 決機(jī)器人數(shù)據(jù)來(lái)源問(wèn)題,通過(guò) LLM 和 VLM(視覺(jué)語(yǔ)言模型)擴(kuò)展數(shù)據(jù)收集;SARA-RT 顯 著加快了 Robot Transformers 的推理速度;RT-Trajectory 將視頻轉(zhuǎn)換為機(jī)器人軌跡,為機(jī) 器人泛化引入了以運(yùn)動(dòng)為中心的目標(biāo)。3)AI 機(jī)器人公司 Figure 推出了 Figure 01,采用端 到端 AI 神經(jīng)網(wǎng)絡(luò),僅通過(guò)觀察人類煮咖啡即可在 10 小時(shí)內(nèi)完成訓(xùn)練。4)從目前 Tesla Optimus 發(fā)布視頻情況看,Optimus 的神經(jīng)網(wǎng)絡(luò)已經(jīng)能夠指導(dǎo)機(jī)器人進(jìn)行物品分揀等動(dòng)作, 且控制能力進(jìn)一步提高。
OpenAI 與 Figure AI 率先合作,實(shí)現(xiàn)了大模型對(duì)具身智能的賦能。24 年 3 月,OpenAI 官方宣布與 Figure AI 機(jī)器人公司合作,將多模態(tài)模型擴(kuò)展到機(jī)器人感知、推理和交互。宣 布合作 13 天后,F(xiàn)igure 01 已經(jīng)與 OpenAI 的視覺(jué)語(yǔ)言模型結(jié)合,并發(fā)布了演示視頻。 ChatGPT 從頂層負(fù)責(zé)用戶交互、環(huán)境感知(依靠 vision 視覺(jué)能力)、復(fù)雜問(wèn)題拆解,而 Figure 01 自身的神經(jīng)網(wǎng)絡(luò)和控制系統(tǒng)負(fù)責(zé)底層的自主任務(wù)執(zhí)行,實(shí)現(xiàn)了強(qiáng)交互的自主任務(wù)執(zhí)行。 隨后,國(guó)內(nèi)大模型廠商百度與機(jī)器人整機(jī)廠商優(yōu)必選也宣布合作,“復(fù)刻”了 OpenAI+Figure 的合作路線,由文心大模型負(fù)責(zé)交互推理、優(yōu)必選 Walker X 負(fù)責(zé)底層任務(wù)實(shí)現(xiàn)。我們認(rèn)為, 多模態(tài)大模型和機(jī)器人結(jié)合的路線已經(jīng)走通,隨著 24 年模型能力持續(xù)迭代(GPT-4o 的出 現(xiàn)),以及人形機(jī)器人自主和控制能力的加強(qiáng),LLM+具身智能落地加速,并將更加可用、 好用。
OpenAI 從 GPT-3 開(kāi)始實(shí)行閉源商業(yè)化路線,相關(guān)的模型技術(shù)幾乎不再公布細(xì)節(jié)。我們基 于對(duì)全球大模型發(fā)展趨勢(shì)的研究和把握,提出幾個(gè) GPT-5 可能的預(yù)期和展望,并給出相應(yīng) 的推測(cè)邏輯。
預(yù)期#1:MoE 架構(gòu)將延續(xù),專家參數(shù)和數(shù)量或變大
MoE 是現(xiàn)階段實(shí)現(xiàn)模型性能、推理成本、模型參數(shù)三者優(yōu)化的最佳架構(gòu)方案。1)MoE 將 各種專家通過(guò)路由(router)機(jī)制有機(jī)整合,在各種下游任務(wù)上,能夠充分利用每個(gè)專家的 專業(yè)能力,提高模型表現(xiàn);2)MoE 天然的稀疏架構(gòu),使得 MoE 模型與同參數(shù)稠密模型在 推理成本上有較大節(jié)省;3)同理,在推理成本固定的情況下,MoE 模型相比稠密模型,能 夠把模型參數(shù)堆到更大,同樣能夠提升模型性能。 我們認(rèn)為,OpenAI 在 GPT-5 模型迭代時(shí)仍將采用 MoE 架構(gòu),或有部分改進(jìn)。相比 GPT-4, GPT-5 的 MoE 架構(gòu)或?qū)⒂幸韵赂倪M(jìn):1)每個(gè)專家的參數(shù)更大,例如每個(gè)專家大小與 GPT-4 相同,近 2T 參數(shù)。即使 OpenAI 無(wú)法將單個(gè) 2T 參數(shù)專家做成稠密架構(gòu),也可以使用 MoE 嵌套 MoE 的方式實(shí)現(xiàn)。2)專家數(shù)量變多,例如幻方旗下 DeepSeek V2 模型即使用改進(jìn)的 DeepSeekMoE 架構(gòu),采取了更細(xì)粒度的專家結(jié)構(gòu),將專家數(shù)擴(kuò)展到 160+,以適應(yīng)更加豐 富和專業(yè)的下游任務(wù)。3)MoE 架構(gòu)本身可能有改進(jìn),例如 Google DeepMind 提出了 Mixture of Depth(MoD)架構(gòu),向 Transformer 的不同層(layer)引入類似 MoE 的路由機(jī)制,對(duì) token 進(jìn)行選擇性處理,以減少推理成本。MoD 可以和 MoE 混合使用,相當(dāng)于對(duì) MoE 進(jìn) 行了改進(jìn)。OpenAI 或也會(huì)有類似的改進(jìn)技術(shù)。
預(yù)期#2:GPT-5 及之后模型的訓(xùn)練數(shù)據(jù)集質(zhì)量更高、規(guī)模更大
OpenAI 不斷加速與私有高質(zhì)量數(shù)據(jù)公司的合作進(jìn)度,為訓(xùn)練大模型做數(shù)據(jù)儲(chǔ)備。2023 年 11 月,OpenAI 即官宣推出數(shù)據(jù)合作伙伴計(jì)劃,將與各類組織合作生成用于訓(xùn)練 AI 模型的 公共和私有數(shù)據(jù)集,包括冰島政府、非營(yíng)利法律組織“Free Law Project”等。2024 年, OpenAI 在 4-5 月先后與英國(guó)金融時(shí)報(bào)、程序員交流網(wǎng)站 Stack Overflow、論壇網(wǎng)站 Reddit 宣布合作,相關(guān)數(shù)據(jù)覆蓋了新聞、代碼、論壇交流等場(chǎng)景。我們認(rèn)為,OpenAI 在早期的數(shù) 據(jù)儲(chǔ)備中,已經(jīng)將網(wǎng)絡(luò)公開(kāi)可獲得的數(shù)據(jù)進(jìn)行了充分的開(kāi)發(fā),根據(jù) OpenAI 的 Scaling Law 和 Google Chinchilla 的結(jié)論,隨著模型參數(shù)的增大,想要充分訓(xùn)練模型,必須增大訓(xùn)練數(shù) 據(jù)規(guī)模,這也從 OpenAI 的廣泛數(shù)據(jù)合作關(guān)系中得到印證。我們認(rèn)為,GPT-5 及之后模型 的訓(xùn)練數(shù)據(jù)集,將有望吸納更多高質(zhì)量的私域數(shù)據(jù),數(shù)據(jù)規(guī)模也將變得更大。
預(yù)期#3:在思維鏈 CoT 的基礎(chǔ)上,再加一層 AI 監(jiān)督
思 維 鏈 能 夠 在 不 改 變 模 型 的 情 況 下 提 高 其 表 現(xiàn) 性 能 。 2022 年 , Jason Wei 在 《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中首次提出 思維鏈(chain of thought,CoT)概念,使模型能夠?qū)⒍嗖襟E問(wèn)題分解為中間步驟。通過(guò) 思維鏈提示,足夠規(guī)模(~100B 參數(shù))的語(yǔ)言模型可以解決標(biāo)準(zhǔn)提示方法無(wú)法解決的復(fù)雜 推理問(wèn)題,提高各種推理任務(wù)的表現(xiàn)。以算數(shù)推理 MultiArith 和 GSM8K 為例,當(dāng)使用思維 鏈提示時(shí),增加 LaMDA 和 PaLM 模型參數(shù)可以顯著提高性能,且性能大大優(yōu)于標(biāo)準(zhǔn)提示。 此外,思維鏈對(duì)于模型的常識(shí)推理任務(wù)(如 CommonsenseQA、StrategyQA 和 Date Understanding 等)同樣有明顯的性能提升作用
OpenAI 探索了過(guò)程監(jiān)督對(duì)模型的性能提升,有望與 CoT 結(jié)合,進(jìn)一步提高推理能力。23 年 5 月,OpenAI 官方 blog 宣布訓(xùn)練了一個(gè)獎(jiǎng)勵(lì)模型,通過(guò)獎(jiǎng)勵(lì)推理的每個(gè)正確步驟(“過(guò) 程監(jiān)督”),而不是簡(jiǎn)單地獎(jiǎng)勵(lì)正確的最終答案(“結(jié)果監(jiān)督”),來(lái)更好的解決模型的數(shù)學(xué)推 理能力和問(wèn)題解決能力。與結(jié)果監(jiān)督相比,過(guò)程監(jiān)督有優(yōu)勢(shì):1)過(guò)程監(jiān)督相當(dāng)于直接獎(jiǎng)勵(lì) 了模型遵循對(duì)齊的 CoT,流程中的每個(gè)步驟都受到精確的監(jiān)督;2)過(guò)程監(jiān)督更有可能產(chǎn)生 可解釋的推理,因?yàn)樗膭?lì)模型遵循人類思考的過(guò)程。最終的 MATH 測(cè)試集結(jié)果中,過(guò)程 監(jiān)督能夠提升相對(duì)于結(jié)果監(jiān)督 5pct 以上的正確率。我們認(rèn)為,這種基于 CoT 的過(guò)程監(jiān)督方 法,有可能幫助 GPT-5 進(jìn)一步提高模型推理的正確性,壓制模型幻覺(jué)。
預(yù)期#4:支持更多外部工具調(diào)用的端到端模型
GPT-5 有望在 GPT-4 少量的外部工具基礎(chǔ)上,增加更多的可調(diào)用工具,擴(kuò)展能力邊界。目 前基于 GPT-4 系列的 ChatGPT,能夠調(diào)用 Bing 搜索、高級(jí)數(shù)據(jù)分析(原代碼解釋器)、 DALL-E 文生圖等外部工具,并且在 23 年 11 月推出 All Tools 能力,讓 ChatGPT 在與用戶 對(duì)話時(shí)自主選擇以上三種工具。外部工具調(diào)用使得模型在性能基本保持不變的情況下,能 力邊界得到擴(kuò)展,其實(shí)質(zhì)與 Agent 調(diào)用工具類似。此外,曾在 23 年 3 月推出的 ChatGPT Plugins 功能,本質(zhì)也是外部工具,但是由于 GPT-4 能力的有限,導(dǎo)致能夠在單個(gè)對(duì)話中使 用的 Plugins 只有三個(gè),因此 Plugins 逐漸被 GPTs 智能體取代。我們認(rèn)為,隨著 GPT-5 推理能力的進(jìn)一步提高,將有能力更好的自主分析用戶需求,以更合理的方式,調(diào)用更多 的外部工具(100-200 個(gè)),如計(jì)算器、云存儲(chǔ)等,從而進(jìn)一步擴(kuò)展 GPT-5 的模型能力邊界。
GPT-4o 已經(jīng)打下多模態(tài)端到端的基礎(chǔ),GPT-5 將延續(xù)。我們認(rèn)為,GPT-4o 驗(yàn)證了頭部廠 商大模型原生多模態(tài)的發(fā)展趨勢(shì),這一趨勢(shì)不會(huì)輕易改變,因?yàn)槎说蕉说脑嗄B(tài),很 好的解決了模型延時(shí)(如 GPT-4 非端到端語(yǔ)音響應(yīng)平均時(shí)間超 5s,而 4o 端到端語(yǔ)音響應(yīng) 時(shí)間平均僅 320ms)、模型誤差(由于誤差是不可避免的,級(jí)聯(lián)的模型越多,誤差累計(jì)越大, 端到端僅 1 份誤差)等問(wèn)題,因此 GPT-5 將延續(xù)端到端多模態(tài)結(jié)構(gòu),或?qū)⒂胁糠指倪M(jìn)。如 進(jìn)一步降低端到端的響應(yīng)延遲,優(yōu)化用戶使用體驗(yàn);加入更多的模態(tài)支持,如深度、慣性 測(cè)量單位(IMU)、熱紅外輻射等信息,以支持更復(fù)雜的如具身智能等場(chǎng)景。
預(yù)期#5:多種大小不同的參數(shù),不排除推出端側(cè)小模型
Google 和 Anthropic 均在同代模型中推出參數(shù)大小不同的版本,GPT-5 有望跟進(jìn)。Google 和 Anthropic 均采取了同代模型、不同大小的產(chǎn)品發(fā)布策略,以平 衡用戶的成本和性能體驗(yàn)。據(jù)海外開(kāi)發(fā)者 Tibor Blaho 信息,ChatGPT 安卓版安裝包 1.2024.122 版本中發(fā)現(xiàn)了三個(gè)新的模型名稱:gpt-4l,gpt-4l-auto,gpt-4-auto,其中 l 代表 “l(fā)ite”(輕量),或是 OpenAI 開(kāi)始考慮布局大小不同的模型矩陣。由于 Google 官方已經(jīng)實(shí) 現(xiàn)了最小參數(shù)的 Gemini Nano 模型在 Pixel 8 Pro 和三星 Galaxy S24 系列實(shí)裝,且據(jù) Bloomberg 信息,OpenAI 與 Apple 正在探索端側(cè)模型上的合作,我們預(yù)測(cè),GPT-5 也有可 能推出端側(cè)的小參數(shù)模型版本。
預(yù)期#6:從普通操作系統(tǒng)到 LLM 操作系統(tǒng)
LLM 操作系統(tǒng)是 Agent 在系統(tǒng)層面的具象化。LLM OS 是前 OpenAI 科學(xué)家 Andrej Karpathy 提出的設(shè)想,其中 LLM 將替代 CPU 作為操作系統(tǒng)核心,LLM 的上下文窗口是 RAM,接受用戶指令并輸出控制指令,在 LLM 核心外部有存儲(chǔ)、工具、網(wǎng)絡(luò)等各種“外設(shè)” 供 LLM 調(diào)用。我們認(rèn)為,從結(jié)構(gòu)上看,LLM OS 和圖表 67 所示的 Agent 架構(gòu)十分相似, 可以看做 Agent 在操作系統(tǒng)領(lǐng)域的具象化。LLM OS 的核心就是模型能力,隨著 GPT-5 推 理性能的不斷提升,我們認(rèn)為 LLM 和 OS 結(jié)合的范式將更有可能實(shí)現(xiàn),屆時(shí)人類和 OS 的 交互方式將不再以鍵鼠操作為主,而會(huì)轉(zhuǎn)向基于 LLM 的自然語(yǔ)言或語(yǔ)音操作,進(jìn)一步解放 人類雙手,實(shí)現(xiàn)交互方式的升級(jí)。
預(yù)期#7:端側(cè) AI Agent 將更加實(shí)用和智能
OpenAI 和 Google 已經(jīng)將模型的重點(diǎn)使用場(chǎng)景定位到端側(cè) AI Agent。24 年 5 月 13-14 日, OpenAI 和 Google 分別召開(kāi)發(fā)布會(huì)和開(kāi)發(fā)者大會(huì),其中最值得關(guān)注和最亮眼的部分就是端 側(cè) AI Agent。OpenAI 基于最新的端到端 GPT-4o 模型打造了新的 Voice Mode,實(shí)現(xiàn)了更 擬人、更個(gè)性化、可打斷、可實(shí)時(shí)交互的 AI 助手,并能夠使用 4o 的視覺(jué)能力,讓助手針 對(duì)用戶看到的周圍環(huán)境和PC場(chǎng)景進(jìn)行推理;Google的Project Astra也實(shí)現(xiàn)了類似的效果, 并且能夠根據(jù)模型“看到”的場(chǎng)景進(jìn)行 recall。我們認(rèn)為,頭部模型廠商遵循了模型邊迭代、 應(yīng)用邊解鎖的發(fā)展路徑,目前已經(jīng)將模型的使用場(chǎng)景聚焦到了端側(cè)。結(jié)合 OpenAI 與 Apple 的合作進(jìn)展看,端側(cè) AI 或?qū)⒃?24 年下半年成為重點(diǎn)。
更加智能的 GPT-5 能夠?qū)?AI Agent 能力推上新的臺(tái)階。我們認(rèn)為,OpenAI 在第四代 GPT 的大版本下,已經(jīng)通過(guò)端到端的 4o 實(shí)現(xiàn)了 AI Agent 更實(shí)時(shí)、更智能的多模態(tài)交互。但是基 于目前模型的推理性能,AI Agent 在實(shí)現(xiàn)多任務(wù)、多步驟的自主任務(wù)執(zhí)行時(shí)成功率仍不夠 高。以 PC 端基于 GPT-4 的 AI 軟件工程師智能體 Devin 為例,在 SWE-Bench 基準(zhǔn)測(cè)試(要 求 AI 解決 GitHub 上現(xiàn)實(shí)世界開(kāi)源項(xiàng)目問(wèn)題)上進(jìn)行評(píng)估時(shí),Devin 在沒(méi)有人類協(xié)助的情況 下能正確解決 13.86%的問(wèn)題,遠(yuǎn)遠(yuǎn)超過(guò)了之前最好方法對(duì)應(yīng)的 1.96%正確率,即使給出了 要編輯的確切文件,Claude 2 也只能成功解決 4.80%的問(wèn)題。但是 13.86%的成功率,仍 然距離實(shí)用較遠(yuǎn),究其原因還是模型的智能能力“不夠”。我們認(rèn)為,隨著 GPT-5 核心推理 能力進(jìn)一步提高,或能將“類 Devin”產(chǎn)品正確率提升到 80%以上,AI Agent 將變得更加 實(shí)用和智能。
據(jù) Ericsson 白皮書(shū)《Defining AI native》,AI 與系統(tǒng)可以分為非原生和原生兩類。對(duì)于 非 AI 原生(None AI-native)系統(tǒng),又可根據(jù) AI 組件的部署方式細(xì)分為:1)替換已有部 件。即在現(xiàn)有的系統(tǒng)組件中,將其中的一部分用基于 AI 的組件進(jìn)行替換或增強(qiáng)。2)增加 新的部件。即不改變現(xiàn)有系統(tǒng)中組件的情況下,增加一部分基于 AI 的組件。3)增加 AI 控 制。同樣不改變現(xiàn)有系統(tǒng)的組件,增加基于 AI 的控制組件部分,來(lái)對(duì)已有組件進(jìn)行控制, 在傳統(tǒng)功能之上提供自動(dòng)化、優(yōu)化和額外功能。對(duì)于 AI 原生(AI-native)系統(tǒng),系統(tǒng)中所 有的組件均基于 AI 能力構(gòu)建,整個(gè) AI 原生系統(tǒng)擁有內(nèi)在的、值得信賴的 AI 功能,AI 是設(shè) 計(jì)、部署、操作和維護(hù)等功能的自然組成部分。
AI+指的是 AI 原生形式,是理想的 AI 應(yīng)用和硬件構(gòu)建方法,但是目前的大模型能力還無(wú)法 很好的支持這一實(shí)現(xiàn)。 在 AI+應(yīng)用方面,典型的如 AI 原生搜索類應(yīng)用 Perplexity。據(jù) SimilarWeb 數(shù)據(jù),2023 年 1 月-2024 年 5 月,Perplexity 每月的網(wǎng)站訪問(wèn)量不斷提升,截至 24 年 5 月,月網(wǎng)站訪問(wèn) 量已經(jīng)達(dá)到了近 9000 萬(wàn),較大幅度領(lǐng)先于同樣做 AI 原生搜索的 You.com。但是從搜索引 擎的全球市占率看,據(jù) Statcounter 數(shù)據(jù),Google 的搜索引擎市占率從 23 年 1 月的 92.9% 僅微降到 24年 5月的 90.8%,Bing的市占率從 23年 1月的 3.03%微升到 24年 5月的 3.72%。 我們認(rèn)為,目前為止,AI 原生的搜索應(yīng)用并未對(duì)傳統(tǒng)搜索產(chǎn)生本質(zhì)影響。
在 AI+硬件方面,代表產(chǎn)品為 Ai Pin 和 Rabbit R1。23 年 11 月,智能穿戴設(shè)備公司 Humane 發(fā)布基于 AI 的智能硬件 Ai Pin,由 GPT 等 AI 模型驅(qū)動(dòng),為 AI 原生的硬件,支持激光屏、 手勢(shì)、語(yǔ)音等操作。24 年 4 月,Rabbit 推出 AI 驅(qū)動(dòng)的硬件 R1,大小約為 iPhone 的一半。 R1 用戶無(wú)需應(yīng)用程序和登錄,只需簡(jiǎn)單提問(wèn),就能實(shí)現(xiàn)查詢、播音樂(lè)、打車、購(gòu)物、發(fā)信 息等操作。R1 內(nèi)部運(yùn)行 Rabbit OS 操作系統(tǒng),基于“大型動(dòng)作模型”(Large Action Model, LAM)打造,而非類似于 ChatGPT 的大型語(yǔ)言模型。LAM 可以在計(jì)算機(jī)上理解人類的意 圖,借助專門的 Teach Mode,用戶可以在計(jì)算機(jī)上演示操作,R1 將進(jìn)行模仿學(xué)習(xí)。但是 以上兩款產(chǎn)品發(fā)布后,據(jù) BBC 和 Inc 等信息,產(chǎn)品的用戶體驗(yàn)一般,問(wèn)題主要包括 AI 模型 響應(yīng)過(guò)慢、對(duì)網(wǎng)絡(luò)通暢性要求過(guò)高、無(wú)法端側(cè)推理、電池發(fā)熱嚴(yán)重等。
+AI 指的是非原生 AI 形式,在成熟的軟硬件系統(tǒng)上疊加一定的 AI 功能,更符合當(dāng)前模型 的能力,或成為近期的迭代重點(diǎn)。 在+AI 應(yīng)用方面,微軟的 Copilot 系列是典型的成熟 SaaS+AI 應(yīng)用。從功能覆蓋來(lái)看,微 軟基于成熟的操作系統(tǒng)、企業(yè)辦公、客戶關(guān)系管理、資源管理、員工管理、低代碼開(kāi)發(fā)等 業(yè)務(wù)環(huán)節(jié),上線了 Copilot 相關(guān)功能,并初步實(shí)現(xiàn)各應(yīng)用間的 Copilot 聯(lián)動(dòng)。據(jù)微軟 24Q1 財(cái)報(bào)數(shù)據(jù),Github Copilot 用戶數(shù)已超 50000 家,付費(fèi)用戶人數(shù) 180 萬(wàn)人,Windows 系統(tǒng) 層面的 Copilot 裝機(jī)量約 2.3 億臺(tái)。
另一個(gè)+AI 的典型應(yīng)用是 Meta 的推薦算法+AI 大模型賦能。據(jù) 4 月 19 日扎克伯格訪談, Meta 從 22 年即開(kāi)始購(gòu)入 H100 GPU,當(dāng)時(shí) ChatGPT 尚未問(wèn)世,Meta 主要利用這些算力 開(kāi)發(fā)短視頻應(yīng)用 Reels 以對(duì)抗 Tiktok,其中最核心的就是推薦算法的改進(jìn)。2024 年 4 月, Meta 發(fā)布生成式推薦系統(tǒng)論文《Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations 》, 開(kāi) 創(chuàng) 性 提 出 了 基 于 Transformer 的生成式推薦(Generative Recommenders ,GRs)架構(gòu)(更具體細(xì)節(jié)可以參 考華泰計(jì)算機(jī) 5 月 23 日?qǐng)?bào)告《云廠 AI 算力自用需求或超預(yù)期》)。據(jù) Meta 24Q1 電話會(huì), 截至 24Q1,F(xiàn)acebook 上約有 30%的帖子是通過(guò) AI 推薦系統(tǒng)發(fā)布的,在 Instagram 上看 到的內(nèi)容中有超過(guò) 50%是 AI 推薦的,已經(jīng)實(shí)現(xiàn)了推薦引擎+AI 對(duì)推薦和廣告業(yè)務(wù)的賦能。
在+AI 硬件方面,在成熟的 PC 和手機(jī)上已經(jīng)探索出了硬件+AI 的演進(jìn)道路。雖然原生的 AI 硬件如 Ai Pin 和 Rabbit R1 并未取得巨大成功,但是微軟、聯(lián)想的 AI PC 布局,以及 Apple 的 AI 手機(jī)布局已經(jīng)清晰。從目前各廠商終端側(cè)模型布局看,有以下特點(diǎn):
1)端側(cè)模型參數(shù)量普遍在 100 億參數(shù)以下。端側(cè)能夠支持的模型參數(shù)大小,重要的取決因 素是 NPU(神經(jīng)處理單元)的算力多少,以及內(nèi)存 DRAM 的大小。端側(cè)最先進(jìn)的芯片 NPU 算力基本在 40TOPS 左右,支持的參數(shù)一般在百億級(jí)別。
2)端云協(xié)同模式將長(zhǎng)期存在。由于端側(cè)模型參數(shù)量有限,導(dǎo)致無(wú)法處理較復(fù)雜的任務(wù),因 此還需要依賴云端或服務(wù)器端的模型配合。高通于 23 年 5 月發(fā)布白皮書(shū)《混合 AI 是 Al 的 未來(lái)》,指出 AI 處理能力持續(xù)向邊緣轉(zhuǎn)移,越來(lái)越多的 AI 推理工作負(fù)載在手機(jī)、筆記本電 腦、XR 頭顯、汽車和其他邊緣終端上運(yùn)行。終端側(cè) AI 能力是賦能端云混合 AI 并讓生成式 AI 實(shí)現(xiàn)全球規(guī)模化擴(kuò)展的關(guān)鍵。此外,以 Apple Intelligence 的模型布局為例,其中的編排 層(Orchestration)會(huì)根據(jù)任務(wù)難易決定推理使用終端模型還是云端模型。我們認(rèn)為,這 種端云協(xié)同的方式在端側(cè)+AI 的形式下有望長(zhǎng)期存在。
3)Arm 架構(gòu)芯片布局略快于 x86 架構(gòu)。微軟的第一批 Copilot+ PC 搭載的高通驍龍 X Elite 芯片和 Apple 自研的 M 系列芯片,均是基于 Arm 架構(gòu)打造。AMD 和 Intel 的 x86 架構(gòu) AI PC 芯片在時(shí)間上略有落后。我們認(rèn)為,Arm 架構(gòu)有望在終端+AI 領(lǐng)域提高市場(chǎng)份額,但是最終 Arm 和 x86 的格局尚需觀察。
(本文僅供參考,不代表我們的任何投資建議。如需使用相關(guān)信息,請(qǐng)參閱報(bào)告原文。)
精選報(bào)告來(lái)源:【未來(lái)智庫(kù)】。未來(lái)智庫(kù) - 官方網(wǎng)站