2.1.2信息資源分類的方法
1.概述
在我國信息化建設的起步階段,當時的國家標準局信息分類編碼研究所首次出版了由創立我國信息分類編碼理論的專家編譯的前蘇聯的《技術經濟信息分類編碼統一系統》一書,編寫了指導信息分類編碼在我國應用的《信息分類編碼標準化》一書。系統、全面地介紹了信息分類編碼的基本方法,為我國信息化建設的有序發展發揮了重要作用。至今,這些方法論仍然是使用分類法對信息資源進行組織的基本方法。隨著計算機和網絡技術的發展,人們對信息的認識不斷深入,信息資源的分類法在原來信息分類編碼基本方法的基礎上得到了擴展。從原來的一維信息資源分類擴展到多維信息資源分類。
2.分類法
《信息分類編碼標準化》一書指出:信息分類是在一定范圍內,為了某種目的,以一定的分類原則和方法為指導,按照信息的內容、性質及管理者的使用要求等,將信息按一定的結構體系,分門別類地組織起來。使得每種信息在一定的分類體系中,都有一個適當的位置和相應的類號(代碼)。同時,把相同內容、相同性質的以及要求統一管理的信息集中在一起,而把內容,性質相異以及需要分別管理的信息區分開來,使其成為一個有條有理的系統。
信息的分類是以科學分類(學科分類)為基礎和依據的。純科學分類是以其自然屬性和客觀規律而劃分的。是人們可共同遵守的一致規律和準則。因此,任何信息分類只有以科學分類為依據,才能取得一定范圍內的共同認可和統一。但是,信息分類又不能完全等同于學科分類。這是因為其在很大程度上要依賴于人們對信息管理的需求。
《信息組織》一書擴展了信息的定義,把信息稱為信息資源,針對目前信息技術的發展,給出了信息分類的定義。所謂分類,是指依據事物的屬性或特征進行區分和類聚,并將區分的結果按照一定的次序予以組織活動。分類是人類思維的基本形式,是認識世界的基本方法。一個完整的分類應包括兩個方面:其一,依據事物的屬性區分或組成,把具有相同屬性或特征的事物集中在一起,不具有這些屬性或特征的對象分開;其二,按照區分出來的對象集合的關系排序,并在這些類中進一步按其相同點和相異點進行區分和組織。
信息資源分類,是指根據信息資源的內容屬性和其他特征,將信息資源分門別類地、系統地組織和揭示的方法。
信息資源的分類是一種從主題內容角度組織和揭示信息資源的方法,是分類方法在信息資源組織中的應用。
《信息組織》一書按照其編制方式,將信息資源分類方法歸結為等級列舉式、分面組配式、列舉組配式三種。
1)等級列舉式分類法(線分類法)
這是一種將所有的類目組織成一個等級系統,并且采用盡量列舉的方式編制的分類法,亦稱列舉式分類法、枚舉式分類法。這種分類法通常將類目體系組織成一個樹狀結構,按照劃分的層次,逐級列出詳盡的專指類目。由于這種分類法通常是依據傳統的知識分類體系編制的,人們習慣上也將其稱為體系分類法。
例104物理學。
041理論物理學。
042聲學。
043光學。
044電磁學、電動力學。
O441 電磁學。
O442 電學。
O443 磁學。
等級列舉式分類法的特點是:
(1)分類結構顯示直觀、易于把握、便于使用。
(2)類目體系展開比較系統,并可以根據實際使用需要對類目的等級進行適當調整。
(3)標記簡明,適于分類和用于組織分類檢索工具目錄。
列舉式分類的不足是:
(1)揭示專門主題能力差,往往無法滿足確切分類的需要,不能充分揭示信息資源中大量存在的細小專深主題。
(2)類表具有一定的凝固性,不便于根據需要隨時改變、調整檢索,不能進行多角度檢索。
(3)無法根據現代科學的發展自動生成新類,難以與科學的發展保持同步。
(4)大型列舉類表篇幅較大,對類表管理的要求較高。
例2 GB/T 4754—2002《國民經濟行業分類與代碼》,采用線分類法和分層次編碼方法,將經濟活動劃分為門類、大類、中類和小類四種,見圖2-1。
圖2-1線分類法的分層次編碼
其中,將經濟部門按其對象分為:農林牧漁業。
制造業。
交通運輸、倉儲、郵政。
批發和零售業。
金融業。
科學研究、技術服務業。
服務業。
衛生、社會保障和社會福利業。
文化、體育和娛樂業。
公共管理和社會組織。
信息傳輸、計算機服務和軟件業。
教育。等基本門類,并按照一定的順序加以排列。
線分類法的分層次編碼(層次碼)按分類對象的從屬、層次關系為排列順序(類目之間存在隸屬關系)。編碼時,將代碼分成若干層級,并與分類對象的分類層級相對應。每個層級的代碼采用順序碼。層次碼的優點是能明確地表明分類對象的類別,代碼本身有嚴格的隸屬關系,各層代碼在分類上有一定的含義。缺點是彈性較差,對個別分類改變、刪除時可能影響其他代碼。先分類后編碼的方法導致必須制定一定的分類規范和說明。
線分類的特點是用分類層級的數量、深度、容量和柔性來表示。層級的數量決定了分類深度。深度又與具體的集合層級解答具體課題所必需的屬性數量有關。分類的容量與分類的深度和每一層級的集合數量有關。通常給定的集合可以分成下階層集合的最大數,定為固定數,對于整個分類和層數皆然信息分類的方法有,一般是“10”或者是10的倍數。
線分類最主要的優點是它有較多的信息容量,屬于傳統的習慣方法,對于手工處理信息有較好的適應性,對分類對象進行編碼時,有可能建立記憶代碼。
線分類最主要的缺點是它的結構柔性差。這是由于固定了劃分基準和預先安排好了排列順序造成的,因而沒有后備位置可供新的分類集合和屬性插入。即使要修改一個屬性,也要使許多分類集合重新進行排列。因此,用線分類法組建分類目錄時,應該預先考慮到有足夠多的后備容量。此外,這種分類方法不允許聚合對象,不允許任意按照屬性組配的方式實現信息檢索。
2)分面組配式分類法(面分類法)
這是一種依據分析兼綜合的原則編制的分類法類型。這種分類法放棄詳盡列舉類目體系的做法,代之以簡單概念組成復合類目的方式。其基本思想是:任何復合主題,不管它多么復雜,都可以分解為相應的基本概念,通過相應基本概念的組合加以表達。根據這一特點,分類法編制時,不必詳盡列舉所有主題,只需要在類表中按照范疇列出各種基本概念,并分別配予相應號碼;使用時,先分析對象的主題,根據主題分析的結果,通過相應概念類目的組配表達主題內容,以這些類目的標識的組合,表示該主題在分類體系中的次序。
例3在美術類中,可根據美術作品標引涉及的特征,分解成以下分面,設類如下(見表2-1):
表2-1
從上表可以看出,類表中沒有具體的主題,只按照范疇設置基本概念。使用時,首先分析對象的內容特征,然后利用表中概念進行組配。
分面分類法的特點是:
(1)標引專指,可以通過基本概念的組配,充分揭示信息資源中的復合主題。
(2)標記表達性強,便于根據不同需要,調整組配次序,進行多元檢索,例如:可以將上述標記輪排,提供從不同角度檢索。
(3)對科學發展的適應性強,可以通過組配方式,表達新產生的復雜主題,有利于與科學的發展保持同步。
(4)類表的篇幅較少,便于管理、增補、修訂等。
分面分類法的不足是:
(1)分面類表的類目體系是隱含的,直觀性不如等級列舉式分類法。
(2)檢索工具中的類目是根據配組建立的,類目的分布往往不夠平衡。
(3)標引難度較高,要求分類人員有較高的專業素養。
(4)分面標記的成分一般比較復雜,代碼冗長,主要用于組織檢索工具。
例4北約軍用物資代碼采用面分類法,它是由三個相互獨立的“面”組成的,“面”之間沒有隸屬關系,可獨立使用。“面”與“面”組合使用時,其相對位置固定,組合順序自后向前,不得以跨越方式組合,見圖2-2。
軍用物資代碼包括分類和標識,為13位的數字復合碼。
第一面:軍用物資分類代碼,包括大類和小類,各2位,代碼長度為4位。
第二面:編目國別代碼,代碼長度為2位。
第三面:物品識別編碼,順序號(無含義),采用數字型代碼,代碼長度為7位。與國別代碼聯合使用,唯一標識。
圖2-2面分類法
3)列舉-組配式分類法(混合分類法)。這種分類法是上述兩種編制方式的結合,是一種在詳盡類表的基礎上信息分類的方法有,廣泛采用各種組配方式的分類法,亦稱線面組合分類法。這種分類法以列舉式類表為基礎,具有一定的直觀性,同時廣泛采用組配方式。但其列舉式類表的管理修訂工作,需要較大的工作量;類目之間的組配往往使用多種輔助符號,標記復雜、冗長。
4)網絡分類法。網絡和計算機技術的發展,改變了傳統分類法的處理對象和手段,網絡分類法就是在這一環境下發展起來的一種新型的分類工具。它以網絡中常見的信息資源為對象,按照便利終端用戶使用的方式確定類目,組織成逐級展開的等級系統,與對應信息資源鏈接。
分類搜索引擎作為網絡環境的產物,是根據網絡環境下的特點和需求編制的。類目設置適合網絡資源的需求,采用多維結構,超文本鏈接,便于從多個角度設置類目,多維展開,方便用戶對信息的查找,提供了從不同角度檢索的可能。以大類設置為例,在類目設置上突出了用戶感興趣的類目,超文本技術可通過結點之間的鏈接,以非線性的方式充分揭示和表達信息之間的聯系。利用鏈接的特點,通過在相應類下重復反映,使其同時成為有關類目的組成部分。從不同的屬性、角度提供從多個維度揭示信息資源的方法。
分類法在網絡中的應用目前只是開始,應從數字技術的角度重新審視原有的信息資源組織的理論、方法分析新技術的特點和規律,研究電子環境下分類結構中整體的控制問題。
例5“雅虎中國”按產品和服務劃分的企業目錄搜索。
電子產品(大類)
電腦(中類)
硬性,網絡產品,軟件……(小類)
電子通訊(中類)
通訊設備,電信服務(小類)
五金電器(中類)
五金工具,儀器儀表(小類)
制造加工(大類)
農副產品(中類)
漁業,園藝,農用機械……(小類)
食品與飲料(中類)
調味品,食品加工機械……(小類)
制造與加工(中類)
工廠自動化,服裝加工……(小類)
商業用品(大類)
辦公與文教用品(中類)
展覽與展示用品,樂器……(小類)
印刷與出版(中類)
包裝,書籍……
禮品與工藝品(中類)
古董與收藏,雕塑,花卉與盆景……(小類)
家居用品(大類)
家居消費品(中類)
化妝品,布藝與擺設,廚具……(小類)
家用電器(中類)
小家電,家電維修,電子產品……(小類)
紡織與服裝(中類)
皮革,珠寶首飾……(小類)
房產建筑(大類)
建筑與裝飾(中類)
建材,耐火材料,裝修……(小類)
房地產(中類)
房地產開發,服務……(小類)
娛樂休閑(大類)
娛樂與音像制品(中類)
音像制品,體育用品,娛樂健身場館……(小類)
旅游與交通(中類)
交通工具,安全器材……(小類)
醫藥化工(大類)
化工產品(中類)
化纖,油料,橡膠塑料……(小類)
能源環保(大類)
能源、冶金與礦產(中類)
能源與電力,金屬制品……(小類)
環保設備(中類)
廢料處理,水土保持……(小類)
類目體系是按大類、中類、小類等級逐級展開的瀏覽系統。設有11個基本大類,是根據網絡中信息資源的內容分布情況直接按事物對象設置的通用性的大類結構。
例6“搜狐商城”產品和服務分類的大類目:
機械及工業制品
農林牧漁
電子電工
電腦互聯網
建筑房產
化工
醫藥保健
汽車、摩托
家居用品
服裝鞋帽
食品、飲料、飲酒
礦產冶金
禮品、工藝品
包裝、紙
安全、防護、保安
紡織、皮革、印染
辦公、文教
儀器、儀表
商業服務
印刷、出版、媒體
交通運輸
運動、休閑
社會服務
廣告、策劃、傳播
金融投資
能源動力