機(jī)器之心專(zhuān)欄
機(jī)器之心編輯部
蒙特利爾算法學(xué)習(xí)人工智能實(shí)驗(yàn)室(Mila)和微軟亞洲研究院等單位提出文本圖訓(xùn)練框架 GLEM [1],能夠有效融合語(yǔ)言模型和圖神經(jīng)網(wǎng)絡(luò),取得 OGB 3 個(gè)數(shù)據(jù)集第一名。
主要單位:蒙特利爾算法學(xué)習(xí)人工智能實(shí)驗(yàn)室(Mila)、微軟亞洲研究院等
論文地址:
代碼地址:
引言
圖 1:(a) 文本圖 (b) 圖神經(jīng)網(wǎng)絡(luò) (c) 語(yǔ)言模型
圖是一種普遍的數(shù)據(jù)結(jié)構(gòu),建模了節(jié)點(diǎn)之間的結(jié)構(gòu)關(guān)系。在現(xiàn)實(shí)生活中神經(jīng)網(wǎng)絡(luò)c語(yǔ)言實(shí)現(xiàn)下,許多節(jié)點(diǎn)包含豐富的文本特征,這種圖被稱(chēng)為文本圖 (text- graph [2])。例如,論文引用網(wǎng)絡(luò)中包含了論文的文本和論文之間的引用關(guān)系;社交網(wǎng)絡(luò)中包含了用戶的文本描述和用戶直接的交互關(guān)系。在文本圖上的表示學(xué)習(xí)模型,可以應(yīng)用于節(jié)點(diǎn)分類(lèi)、鏈路預(yù)測(cè)等任務(wù)中,具有廣泛的應(yīng)用價(jià)值。
文本圖包含了兩方面信息:節(jié)點(diǎn)的文本信息和節(jié)點(diǎn)之間的圖結(jié)構(gòu)信息。傳統(tǒng)文本圖的建模可以分為對(duì)文本建模和對(duì)圖建模兩個(gè)角度。其中,對(duì)文本的建模方式(如圖 1.b 所示)通常采用基于 的語(yǔ)言模型(LM)得到單個(gè)節(jié)點(diǎn)的文本表示,并對(duì)目標(biāo)任務(wù)進(jìn)行預(yù)測(cè);對(duì)圖建模的建模方式(圖 1.c 所示)通常采用圖神經(jīng)網(wǎng)絡(luò)(GNN),通過(guò)消息傳播機(jī)制來(lái)建模節(jié)點(diǎn)特征之間的交互,并預(yù)測(cè)目標(biāo)任務(wù)。
然而,兩種模型只能分別建模文本圖中的文本和圖結(jié)構(gòu):傳統(tǒng)語(yǔ)言模型無(wú)法直接考慮結(jié)構(gòu)信息,而圖神經(jīng)網(wǎng)絡(luò)無(wú)法直接對(duì)原始文本信息進(jìn)行建模。為了同時(shí)建模文本和圖結(jié)構(gòu),研究者們嘗試將語(yǔ)言模型和圖神經(jīng)網(wǎng)絡(luò)融合起來(lái),同時(shí)更新兩個(gè)模型的參數(shù)。但是,現(xiàn)有工作 [2, 3] 無(wú)法同時(shí)建模大量鄰居文本,可拓展性差,無(wú)法應(yīng)用在大文本圖上。
GLEM 框架
為了更有效的融合圖神經(jīng)網(wǎng)絡(luò)和語(yǔ)言模型神經(jīng)網(wǎng)絡(luò)c語(yǔ)言實(shí)現(xiàn)下,本文提出了 Graph and by (GLEM) 框架。GLEM 框架基于變分期望最大算法( EM),交替學(xué)習(xí)圖神經(jīng)網(wǎng)絡(luò)和語(yǔ)言模型,從而獲得了很好的可拓展性。
圖 2:GLEM 框架
具體地,以節(jié)點(diǎn)分類(lèi)任務(wù)為例,在 E 步 , GLEM 根據(jù)真實(shí)標(biāo)簽和圖神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的偽標(biāo)簽訓(xùn)練語(yǔ)言模型;在 M 步 , GLEM 根據(jù)真實(shí)標(biāo)簽和語(yǔ)言模型預(yù)測(cè)的偽標(biāo)簽訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)。通過(guò)這種方式,GLEM 框架有效挖掘了局部的文本信息和全局的結(jié)構(gòu)交互信息。通過(guò) GLEM 框架訓(xùn)練好的圖神經(jīng)網(wǎng)絡(luò)(GLEM-GNN)和語(yǔ)言模型(GLEM-LM)都可以用來(lái)預(yù)測(cè)節(jié)點(diǎn)標(biāo)簽。
實(shí)驗(yàn)
論文的實(shí)驗(yàn)部分主要從以下幾個(gè)方面討論 GLEM 框架:
有效性:GLEM 模型能夠有效融合圖神經(jīng)網(wǎng)絡(luò)和語(yǔ)言模型,對(duì)兩種模型都有明顯提升。GLEM 框架在 OGB 的三個(gè)文本圖節(jié)點(diǎn)分類(lèi)任務(wù)上取得了第一名。
可擴(kuò)展性:通過(guò)交替訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)和語(yǔ)言模型,GLEM 框架可以同時(shí)訓(xùn)練大語(yǔ)言模型和深層 GNN。
無(wú)結(jié)構(gòu)歸納推理(-free )能力:傳統(tǒng) GNN 模型在面對(duì)沒(méi)有圖結(jié)構(gòu)的新節(jié)點(diǎn)時(shí)表現(xiàn)不佳。相比之下,GLEM-LM 僅使用文本特征(無(wú)需圖結(jié)構(gòu))就能進(jìn)行有效推理。
模型收斂:GLEM 使用 EM 迭代算法,在一些數(shù)據(jù)集上一次 EM 迭代即可收斂。
圖 3:GLEM 框架在 OGBN-arxiv, , 數(shù)據(jù)集上取得第一名
引用
[1] Zhao et al. on Large-scale Text- via . Arxiv '22.
[2] Yang et al. : GNN- for on Graph. In '21.
[3] Zhu et al. : Text via Graph in . In WWW '21.