當我們想到“狗”時,會想到這是一種特殊的動物、有尾巴、有毛、會發出“汪”聲、可以當寵物等等,這是我們人腦對“狗”這個概念的一些表征。當我們把概念通過語言的形式表達出來時,則可稱為概念的語義特征。自2005年,科學家發現人腦中的概念細胞以來,雖然對概念細胞的形成機制還不清楚,但主流的觀點是:語言是概念細胞形成的重要條件。顯然,概念的語義特征依賴于人腦的記憶、抽象和語言等高級認知功能,是心理學、神經科學、語言學等多學科研究者一直在努力研究的方向之一,也是近年來人工智能,尤其是類腦智能的前沿研究的一個重要方向。
圖1你腦中的“狗”是什么樣子的?
概念語義特征的另外一個特點是個體和群體的差異性。同一個概念,對于不同年齡和文化水平的人,會有不同的個體表征差異。在不同文化和語言的背景下,同一個概念在不同人群大腦中的表征會呈現出群體性的差異。目前,國外學者已建立了多個英文版概念語義特征數據庫,但尚缺乏完善的中文版概念語義特征數據庫。為此,中國傳媒大學的媒體融合與傳播國家重點實驗室團隊建立了一個中文版概念語義特征數據庫,共采集了1410個概念及其語義特征。論文及數據資料已在線發表于 的《 》()。希望本數據庫的建立可以為相關領域研究者提供必要的數據支持,也歡迎廣大研究者的使用與批評。
已有的研究發現,關于概念的各屬性知識分布式表征在大腦相應區域,并且人腦存在基于感覺的和基于語言的兩種概念表征系統。人們在回憶信息時也是通過語義網絡的搜尋而進行的,因此,在語義上與其他詞匯有更廣泛連接的詞更容易被記住。然而目前尚不清楚人腦如何表征概念之間的關系。目前對于概念之間關系的度量主要依據概念之間共享的特征,如果兩個概念有較多的共享特征,則這兩個概念就具有很高的相似性。基于這一觀點,我們采用了特征產出范式(, 2009),請被試列出概念的屬性,即給定一個單詞,讓被試對這個概念的特征進行描述,被試想到什么特征就寫下什么。
本數據庫共包含1410個概念,均為實體概念(名詞)。共有204名被試參與本實驗(男性44名)。年齡在18-57歲之間(M=23.495,SD=4.806)。所有的被試均為中國人數據庫系統概念英文版,母語為漢語。平均每個被試完成了對202個概念的評定。本數據庫中,1410個概念共得到個有效描述,平均每個概念獲得的描述為268個,平均每個概念有37個特征。
我們還統計了哪些特征是多個概念所共有的,哪些特征是某些概念所特有的。如果某特征是3個及以上的概念都有的,則算共有特征,如果某特征只有1或2個概念擁有,則算特有特征。平均每個概念有31個共有特征,6個特有特征。
有研究表明,不同類別的物體擁有的共享特征數量不同,例如,動物類概念具有更多的共享特征(如都有眼睛、耳朵和鼻子),而工具類物體則共享特征較少而特有特征較多( & Tyler, 2015)。我們將1410個概念分成了28個小類和7個大類,并統計了每個類別的概念數量以及概念具有的共享特征數、特有特征數和特征總數,分析了不同類別的差異,發現:動物、植物、食物擁有較多的共有特征和較少的特有特征,而自然物、人造物、身體部位則擁有較多的特有特征和較少的共享特征。結果如下圖所示:
圖2 各類別共有特征和特有特征所占比例
概念之間的相似度分析:
蘋果和香蕉這兩個概念顯然要比蘋果和網球這兩個概念更相似,即使網球從外形上看要比香蕉更像蘋果。對于概念的語義表征,我們采用余弦距離計算概念之間的距離,以此作為相似度的指標。數值越大表示概念之間的距離越近,概念相似度越高。我們對比了本數據庫與目前已經被廣泛使用的英文版概念語義特征數據庫CSLB (, Tyler, , & , 2014)在概念相似度方面的情況。結果如圖3所示。其中圖3(a)是本研究的結果,圖3(b)是CSLB的結果。可以看出:大類概念上基本是一致的,在某些小類之間還是有一定的差異。例如花與水果在CSLB中分的更開一些。這或許反映出文化上的一些差異。
圖3 概念之間的相似性矩陣
分層聚類:
本研究還基于概念的特征,對所有概念做了分層聚類。由于概念太多,無法全部可視化呈現,因此,僅可視化了動物這一大類的分層聚類結果,如下圖所示。從分層聚類的結果可以看出,在動物類別下,本數據庫與CSLB相似,可以很好地細分為鳥類(綠線)、昆蟲類(紅線)、水生動物類(紫線)和陸生動物類(青線)。
圖4 動物大類分層聚類的結果
總結:
本研究建立了一個數據量上千的中文版概念語義特征數據庫。共有1410個概念,都是對以漢語為母語的被試而言很熟悉的實體概念,涵蓋7個大類,28個小類,平均每個概念有約37個特征。根據概念的特征計算出的概念之間的相似性分析結果顯示,同一類別內的概念具有相似性,不同類別之間的概念相似性較低,但也并非完全無關。這與我們日常對事物的認識是一致的,即使是不同類別的物體,我們仍然可以以非類別的關系產生一定的關聯,如經常在同一場景中出現的筷子和面條,前者屬于餐具,后者屬于食物。
通過與已有的標準化的英文版數據庫進行各方面對比,本研究提出的CCPD無論從數據量還是質量上看,都是可觀的。與英文版數據庫最大的區別在于具體的概念和特征有所不同,尤其是食物這一大類有很大的區別,食物中包含一些人們非常熟悉卻又非常具有文化差異的概念,如臭豆腐、皮蛋、冰糖葫蘆等只有中國人才熟悉的概念,因此,這是一個更適合中文被試和中文研究的數據庫。通過對比中英文的概念特征數據庫,也可以系統地考察中西方的差異,包括概念的差異、相同概念的不同特征的差異等。
通過分析概念各個特征被提及的頻次,可以看到哪些特征是核心特征,哪些特征是邊緣特征,如何根據這些特征定義一個概念,也是語言和認知心理學家研究的重要問題。并且本數據庫的數據顯示,根據這些概念所具有的特征可以對概念進行分類,甚至可以按層級分類。但是人腦如何表征概念的范疇和概念的層級關系還有待探索。本數據庫可以為此類研究提供數據支持。本研究還發現,不同類別的概念擁有的共享特征和特有特征的數量具有差異,自然生物,如動物、植物等概念具有更多的共享特征數據庫系統概念英文版,而人造物,如工具等概念具有更少的共享特征,這與以往的研究結果是一致的( & Tyler, 2015)。
很多關于記憶和語言的研究會采用語義啟動范式,研究者通過操縱前后呈現的兩個詞之間的相關程度來激發操縱啟動效應,比起不相關的提示詞,相關的提示詞能使被試更快地識別出目標詞。如何確定概念之間的相關程度,進而選擇合適的啟動詞和目標詞,是相關研究的關鍵。本研究通過各個特征及其權重計算了概念之間的距離,未來的語義啟動范式研究可以此作為度量啟動詞與目標詞之間相關程度的指標之一。因此,本研究為語義啟動范式提供了豐富的數據支持。
在人工智能的知識圖譜領域中,研究者們試圖在數據庫系統上利用圖譜這種抽象載體來表示知識這種認知內容,從而服務于機器翻譯、智能問答等領域(, Abd Rozan, Hikmi, & Memon,2016)。知識圖譜數據庫的概念數量相比于人為評定的數據庫的概念數量大很多,但這些概念的特征通常是從互聯網海量數據中抽取出來的,并采用邏輯嚴密的結構來表征他們之間的關系。這與人腦對概念的學習和表征不同,人腦對概念的學習并不是一次性獲得并存儲概念的所有特征,而是在生活中不同時刻習得概念的各個特征,而且學習的過程也分為快速學習和慢速學習兩種,當新學習的內容與已有知識結構一致時,可以快速整合到新皮層已有知識中,而當與已有知識不一致時,則需要耗費較長時間在內側顳葉皮層和海馬體內進行加工,再緩慢整合到新皮層中。新皮層中分布式存儲著概念的各種模態的特征,如狗的形象在視覺皮層表征,狗的叫聲在聽覺皮層表征,同時,關于狗的各種特征的語義表征則在前顳葉區域。雖然人腦對概念的表征不是完全精確的,但卻有很強的靈活性,這也是人腦智能的重要體現。通過對人腦知識表征方式的研究,建立更類似于大腦擁有的知識圖譜(我們稱為類腦知識圖譜),或許能為人工智能提供更好的數據基礎服務。
希望通過本數據庫的建立為語言學、心理學、神經科學、人工智能等領域相關研究者提供有關概念語義表征標準化的數據支持。如果大家在使用過程中發現了錯誤,希望您能直接聯系我們,我們及時更改,為后續研究者提供更準確的數據支持。如果有對人腦概念學習和表征感興趣的研究者,也歡迎合作交流。
文獻信息:鄧雅菱*、王曄、邱晨陽、胡振超、孫雯洋、宮妍竹、趙雪、何偉、曹立宏*. A (CCFD). (2021).
作者團隊來自中國傳媒大學。
文獻獲取地址:
其它參考文獻
, A., Abd Rozan, M.Z., Hikmi, S. N., & Memon, J. (2016). maps: A and for . , 36(3), 451-475. doi:10.1016/j..2016.02.005
, A., & Tyler, L.K. (2015). What We See: How We From . Sci, 19(11), 677-687. doi:10.1016/j.tics.2015.08.008
, B. J., Tyler, L.K., , J., & , B. (2014). The for , Brain (CSLB) norms. Behav Res , 46(4), 1119-1127.doi:10.3758/-013-0420-4
, M. P. (2009). the test of time: the 1978 word norms. Behav Res ,41(2), 531-533. doi:10.3758/BRM.41.2.531