一些升級了Win11系統(tǒng)的朋友發(fā)現(xiàn)Win11中文打字只顯示字母,這是怎么回事呢?可能是你的電腦設(shè)置有問題,下面為大家?guī)韮煞N解決方法。
方法一:
win11中文打字只顯示字母解決方法是依照路徑系統(tǒng)工具-任務(wù)計劃程序-任務(wù)計劃程序庫-Microsoft-Windows打開。然后點擊右界面中的MsCtfMonitor啟用即可,或者直接切換輸入法嘗試。
方法二:
設(shè)置→時間和語言→語言&區(qū)域首選語言下面的中文(簡體,中國)右側(cè)三個點,點擊,然后點擊語言選項,最下面有微軟拼音,右側(cè)三個點,點擊,然后點擊鍵盤選項,點擊常規(guī),最下方兼容性,點擊打開,就可以了。
因身份證上的地名、人名專用字無法顯示而造成不便的現(xiàn)象已經(jīng)屢次見諸新聞報道,而所有的新聞報道都像投進(jìn)深潭里的石子,再也沒有了回聲。那么,電腦為什么無法顯示這些“生僻字”?有沒有辦法解決?為什么問題出現(xiàn)這么久了仍然解決不了?我寫本系列文章的目的,就是試圖根據(jù)我近幾年參與地名用字編碼工作的經(jīng)驗,對這些問題進(jìn)行初步探討。
(注:嚴(yán)格來說,Unicode標(biāo)準(zhǔn)和ISO/IEC 10646標(biāo)準(zhǔn)是有差別的,但對于非專業(yè)人員來說,可以認(rèn)為兩個標(biāo)準(zhǔn)等效。為了方便,文中統(tǒng)一用Unicode標(biāo)準(zhǔn)指代上述兩個標(biāo)準(zhǔn)。)
原理篇
首先,我們來回答第一個問題:為什么身份證上的地名、人名專用字電腦顯示不了?要回答這個問題,就必須先了解電腦顯示字符(比如漢字、英文、標(biāo)點等)的原理:
1
Unicode標(biāo)準(zhǔn)
其實在電子設(shè)備的最底層,處理的都是二進(jìn)制的數(shù)據(jù),對應(yīng)物理電路的開和關(guān)兩種狀態(tài)——那么,要處理各類字符,就必須用一串0和1來表示它們。為了不致混亂,現(xiàn)在國際上有一個統(tǒng)一的標(biāo)準(zhǔn),來規(guī)定具體哪串二進(jìn)制數(shù)代表哪個字符,即Unicode標(biāo)準(zhǔn)。在這里可以打一個不很恰當(dāng)?shù)谋确剑瑸榱吮阌诶斫猓篣nicode標(biāo)準(zhǔn)的作用大概相當(dāng)于世界語之于世界各國的語言,可以讓不同計算機和應(yīng)用之間的數(shù)據(jù)傳輸暢通無阻。只不過在計算機的世界里,大家基本都用“世界語”。在Unicode標(biāo)準(zhǔn)下,代表某個字符的一串二進(jìn)制數(shù)稱為這個字符的“碼位”,給一個字符指定一串二進(jìn)制數(shù)的行為就叫做“編碼”,ISO(國際標(biāo)準(zhǔn)化組織)的一個下屬機構(gòu)和Unicode Consortium(統(tǒng)一碼協(xié)會)負(fù)責(zé)這個標(biāo)準(zhǔn)的制定工作。
2
電腦顯示漢字的過程
電腦顯示漢字的過程大概如下:
1 | 電腦讀到一串?dāng)?shù)據(jù),首先判斷是否為文本數(shù)據(jù); |
2 | 若是文本數(shù)據(jù),則根據(jù)讀到的數(shù)據(jù)調(diào)用相應(yīng)字體文件中儲存的字形; |
3 | 經(jīng)一系列渲染操作,字體文件中以數(shù)據(jù)形式儲存的字形被顯示到屏幕上,起到傳遞信息的作用。 |
以Windows10系統(tǒng)為例,它的系統(tǒng)字體文件一般保存在C:/Windows/Fonts路徑下,在顯示字符時,系統(tǒng)就會調(diào)用這里不同的字體文件。這里需要說明的一點是,簡單情況下,字體文件中,儲存的僅是字形和調(diào)用這個字形所需的二進(jìn)制數(shù)據(jù),不必與Unicode標(biāo)準(zhǔn)發(fā)生直接關(guān)聯(lián)。換句話說就是,在實際操作中,可以讓字體文件中的二進(jìn)制數(shù)據(jù)和對應(yīng)字形不符合Unicode標(biāo)準(zhǔn)的規(guī)定,如果是這樣的話,上述顯示過程仍可以進(jìn)行,只不過屏幕上顯示的字形會和其他設(shè)備不同,很有可能造成混亂或者誤解,甚至是系統(tǒng)錯誤。再做個不很恰當(dāng)?shù)谋扔鳎杭僭O(shè)某個語言A中同英語詞“fuck”同音的詞含義為“謝謝”,在一個其他所有人都只懂英語的場合,用A語言說“謝謝”就會產(chǎn)生誤解,還很有可能被群毆。
3
輸入法在顯示過程中扮演的角色
從本質(zhì)上來說,各類輸入法軟件的作用其實就是建立一個鍵盤輸入的字母序列同顯示字符之間的映射。在輸入漢字時,從本質(zhì)上來說,其實可以粗略理解為由鍵盤通過輸入法軟件“存入”二進(jìn)制數(shù)據(jù),再進(jìn)行2中顯示步驟的過程。需要強調(diào)的是,在實際操作中,輸入法軟件可以“存入”不符合Unicode標(biāo)準(zhǔn)的二進(jìn)制數(shù)據(jù),結(jié)果當(dāng)然也是造成混亂或者錯誤;一般情況下,即由輸入法軟件在輸入過程中“存入”了符合Unicode標(biāo)準(zhǔn)的二進(jìn)制數(shù)據(jù)的情況下,設(shè)備具體所顯示的基本字形,仍然還要由字體文件所決定。換句話說,如果字體文件中的二進(jìn)制數(shù)據(jù)和對應(yīng)字形不符合Unicode標(biāo)準(zhǔn)的規(guī)定,仍無法使用這個字體來“正確”顯示字符;如果字體文件中根本沒有和這串二進(jìn)制數(shù)據(jù)對應(yīng)的字形,那就只能顯示為空白。
4
進(jìn)一步的理解,以及對第一個問題的回答
有了以上的知識儲備,就可以理解為什么身份證上的地名、人名專用字電腦顯示不了了。現(xiàn)在出現(xiàn)地名、人名專用字電腦無法顯示的現(xiàn)象的原因不外乎三點:
(1)Unicode標(biāo)準(zhǔn)沒有收錄這個漢字。
漢字文獻(xiàn)浩如煙海,在文獻(xiàn)產(chǎn)生、傳抄、演變的漫長過程中,大量的漢字隨之產(chǎn)生,字形也隨之千變?nèi)f化,勢必有一部分相對通行字較罕用的漢字無法被Unicode標(biāo)準(zhǔn)的制定者所了解并被收入標(biāo)準(zhǔn)中。這就相當(dāng)于一個事物在“世界語”中沒有名稱,無法用“世界語”來表述。
(2)使用的設(shè)備、軟件或者字體文件沒有跟進(jìn)最新版的Unicode的標(biāo)準(zhǔn)。
一般情況下,從標(biāo)準(zhǔn)的制定、發(fā)布到標(biāo)準(zhǔn)在實際中被廣泛應(yīng)用一般都要經(jīng)歷一段并不短的普及期。因為各大廠商首先要對新標(biāo)準(zhǔn)進(jìn)行初步了解,然后還可能要對系統(tǒng)或軟件進(jìn)行更新以支持新標(biāo)準(zhǔn),以及字體文件的制作等都需要花費時間。除了時間上的限制之外,由于應(yīng)用場景不同,不同的設(shè)備、系統(tǒng)或者軟件支持的標(biāo)準(zhǔn)范圍也會有不同;對大量設(shè)備進(jìn)行更新所產(chǎn)生的經(jīng)濟成本也可能造成對最新版Unicode標(biāo)準(zhǔn)跟進(jìn)的延遲。
這里要強調(diào)的是,制作字體文件異常耗時費力,因為要制作一款美觀的字體,常常需要用大量時間來微調(diào)“控制點”:
(3)由于個人知識和技術(shù)水平的限制,造成無法輸入
對于一般人來說,輸入手段基本就是各類輸入法,比如拼音、五筆、鄭碼等輸入法,但是大多數(shù)的輸入法對罕用字的支持都很差。造成這種現(xiàn)象的原因是多方面的,先不在這里贅述,后文中還會提及。總之,這就給普通人輸入罕用字造成了障礙。
新聞報道以及網(wǎng)絡(luò)求助中的情況大多都屬于第二類和第三類,第一種情況比較少,但也是最難解決、解決需要時間最長的情況,必須一提的是,絕大多數(shù)Unicode標(biāo)準(zhǔn)未收字從未見諸新聞報道,解決其輸入問題更是任重而道遠(yuǎn)。
讀到這里,你可能會疑惑,那為什么第一類字身份證上也可以顯示呢?要回答這個問題,就要引出私用區(qū)(PUA,Private Use Area)的概念。
為了能統(tǒng)一編碼世界上所有的文字及符號以及實現(xiàn)一些信息處理功能,Unicode標(biāo)準(zhǔn)共“準(zhǔn)備”了17*65536個碼位,其中前面的17是指統(tǒng)一碼標(biāo)準(zhǔn)將這些碼位分為17個集合,每一個集合稱為一個平面(plane)。在12.1.0版本中,共收錄了137,929個字符,主要使用了第0-2平面。上文說道,漢字?jǐn)?shù)量眾多,世界上所有語言的文字和符號就更多,其中必然有一部分字符,是Unicode標(biāo)準(zhǔn)尚未收錄的;另外,總有人會“奇思妙想”,自己創(chuàng)造字符。為了滿足顯示上述字符的需求,Unicode標(biāo)準(zhǔn)劃出了一部分碼位,供用戶自由定義,Unicode標(biāo)準(zhǔn)永遠(yuǎn)不會為其指定特定的字符。這部分碼位范圍就被稱為“私用區(qū)”。說白了,就是說我在制作電腦字體時,讓這些碼位和任何字形/圖案對應(yīng)都是符合標(biāo)準(zhǔn)的。如果用“世界語”作類比的話,就相當(dāng)于“世界語”規(guī)定了可以用的字母組合形式有17組,每組有65536個,并且還規(guī)定了可以用其中一部分字母組合來代表“各國語言”中有,“世界語”中暫時還沒有的事物。單獨建立私用區(qū)的好處在于,Unicode標(biāo)準(zhǔn)更新之后新加入的字符對應(yīng)的碼位不會和用戶自己定義的碼位沖突,兩者可以永遠(yuǎn)“相安無事”。
身份證上之所以能顯示第一類字,就是因為身份證所使用的特殊字體“方正宋體-人口信息”使用了私用區(qū)的碼位來表示Unicode標(biāo)準(zhǔn)尚未收錄的漢字。但是,經(jīng)過上面的介紹我們可以推論出:私用區(qū)的碼位所代表的字符和所選用的字體密切相關(guān)。“方正宋體-人口信息”這一字體只在公安及民政等系統(tǒng)中通用,而且屬于涉密文件,一般的設(shè)備甚至銀行等機構(gòu)的設(shè)備上都沒有這個字體,所以無法顯示。這里還要說明一點,“方正宋體-人口信息”這一字體其實就是所謂的“公安局字庫”對應(yīng)的字體文件,這個字體也沒有同最新版Unicode標(biāo)準(zhǔn)保持一致,還在用私用區(qū)碼位表示一部分已經(jīng)編碼的漢字。
下面我們就來談?wù)劊绻龅搅藷o法輸入的字,怎么解決呢?
如果遇到了一個無法輸入的漢字,首先,我們應(yīng)該先查一查這個字是否已經(jīng)被Unicode標(biāo)準(zhǔn)收錄,最保險的方法當(dāng)然是通過之前在第1部分提到的Unicode標(biāo)準(zhǔn)碼表逐一核對,但這既費時又費力,效率不高,不建議使用。我建議可以通過字海網(wǎng)的兩分功能查詢(http://yedict.com/)
如果查詢結(jié)果有unicode碼,基本上就可以確定為已編碼字,否則則為未編碼字。這個查詢方法是有可能有遺漏的,但概率很小。
如果查詢結(jié)果是已編碼字,那么就可以歸結(jié)為第二類或第三類問題。這種情況下,可以通過安裝支持更多字符的字體來解決顯示問題,通過安裝特殊輸入法(比如字海兩分輸入法)、導(dǎo)入自制詞庫或內(nèi)碼輸入的方法解決輸入問題。所謂內(nèi)碼輸入,本質(zhì)上說就是實現(xiàn)Unicode碼同字符之間的轉(zhuǎn)換。比如,在Windows系統(tǒng)下打開Word,輸入4E00,選中后,字體選擇宋體,按Alt+X,即可實現(xiàn)Unicode碼和字符“一”之間的轉(zhuǎn)換,其它字符同理。Unicode碼可以在各種網(wǎng)絡(luò)字典中方便地查得。d導(dǎo)入自制詞庫的具體方法也可以在網(wǎng)絡(luò)上查得,這里不再贅述,另外,也可以通過字海網(wǎng)聯(lián)系方式中的官方QQ群尋求專業(yè)幫助。
如果是未編碼字,可以使用私用區(qū)暫時解決顯示問題,比如自己制作一個字體文件或利用他人已經(jīng)做好的字體。在這里推薦Andrew West(魏安)先生的Babelstone PUA,囊括了90%以上的未編碼地名用字:
(http://www.babelstone.co.uk/Fonts/PUA.html)
或者也可以通過上述QQ群求助。如果需要在網(wǎng)絡(luò)上進(jìn)行實名認(rèn)證或有其它需要輸入此字進(jìn)行信息核對的需求,可以聯(lián)系我查詢此字在字體“方正宋體-人口信息”中對應(yīng)的碼位,通過內(nèi)碼輸入的方法輸入后,粘貼至文本輸入框內(nèi)進(jìn)行認(rèn)證,有概率成功。
但這些都只是應(yīng)急的辦法,最徹底、最理想的解決辦法還是把這個字加入到國際標(biāo)準(zhǔn)中,增加對此類問題的關(guān)注度,加速普及。
在Unicode標(biāo)準(zhǔn)字符集中,漢字部分稱為中日韓統(tǒng)一表意文字,簡稱CJKUI,字形完全相同或字形差異不大且字義相通的字在其中擁有同一個碼位。這里所說的“漢字”是廣義的,包括韓國漢字、和制漢字、壯字等等。負(fù)責(zé)制定這部分標(biāo)準(zhǔn)的組織是IRG(Ideographic Research Group),有一個一口氣念不完的全稱:
“國際標(biāo)準(zhǔn)化組織和國際電工委員會下屬第一聯(lián)合技術(shù)委員會第二子委員會第二工作組表意文字小組(ISO/IEC JTC1/SC2/WG2/IRG)”。
一個漢字要進(jìn)入統(tǒng)一碼標(biāo)準(zhǔn),首先要由各提交源在一個新擴展區(qū)的提交期內(nèi)提交字形及證據(jù),再經(jīng)過IRG專家的多輪檢查,最后定稿后還要公示至少兩年。
所謂的證據(jù),一般指含有未編碼字、有上下文的1949年之前的古籍或1949年之后的印刷體文獻(xiàn)整頁圖片或掃描版頁面,或者居民身份證、戶口本、政府開具的證明等可以確實證明未編碼字有編碼價值的資料。如果個人想要提交未編碼字,可以把符合要求的證據(jù)交給相應(yīng)的提交方,再由提交方提交至IRG;除此之外,原則上來說,每個人都可以向UTC(委員會源)提交相關(guān)的提案,再由UTC以委員會的名義提交給IRG,但是分散、水平參差不齊的提案會大大降低工作效率,所以現(xiàn)在能寫出合格提案提交漢字的人仍然不多。
綜上,可以看出,所有的問題都是有解決辦法的。只不過,提交漢字并且編碼的工作比較復(fù)雜,流程持續(xù)時間很長;也不得不承認(rèn),這是身份證上的字打不出來的現(xiàn)象長期無法解決的客觀誘因之一,但并不具有決定性。我認(rèn)為,出現(xiàn)這種情況的主要原因仍然在“人事”(沒有任何貶義的感情色彩)。在下一部分《人事篇》中,我將對造成這種現(xiàn)象的更深層次的原因進(jìn)行討論,試圖初步回答文初的最后一個問題。
人事篇
閱讀指南
1. 這篇文章僅代表我的個人觀點。
2. 就我個人來說,我很少會單純地用對或者錯來評判一件事,或者用好和壞來評判一個人,因為我認(rèn)為大多數(shù)所謂的“對錯”其實只是觀念的差異和幸運與否造成的。希望各位不要帶著成見閱讀本部分。
3. 很多人都有一種找“責(zé)任人”的思想:出了事情之后必須要找一個人或者幾個人為其負(fù)責(zé)。但我認(rèn)為這種行為多半只能起到給自己找心理安慰的作用,不會觸及問題的根本,也不能真正解決問題。希望讀者在讀本部分時也能摒棄這種想法。
讀過《原理篇》,應(yīng)該不難理解,解決地名和人名用字顯示問題的根本途徑應(yīng)該是:
(1)將符合提交要求的證據(jù)提交至IRG;
(2)提交的字經(jīng)一定審批流程后正式編碼;
(3)國標(biāo)依據(jù)最新版的國際標(biāo)準(zhǔn)更新;
(4)各廠商或制作人產(chǎn)出符合最新國家強制標(biāo)準(zhǔn)的產(chǎn)品,并在國內(nèi)發(fā)行;
(5)用戶無障礙地輸入、顯示字符。
其中第(2)步實現(xiàn)后到第(5)步實現(xiàn)前的時間可認(rèn)為是《原理篇》中所提及的標(biāo)準(zhǔn)普及期。而在(5)步實現(xiàn)之前,最好的情況是國內(nèi)有一個通用的PUA體系來滿足標(biāo)準(zhǔn)化之前的顯示需求。如此來看,如果上述措施做的得當(dāng),是不會出現(xiàn)地名和人名用字顯示問題的——所以,肯定是其中的一個或者幾個步驟出了問題。
首先,我想先介紹一下各領(lǐng)域的現(xiàn)狀,也可以看作是此類問題得不到解決的直接原因。
1
現(xiàn)狀
(1)提交未編碼人名或者地名用字的速度太慢,國標(biāo)跟進(jìn)國際通用字符編碼標(biāo)準(zhǔn)不及時。
先看未編碼人名或地名用字的提交情況。《信息技術(shù) 信息交換用漢字編碼字符集 第八輔助集(SJ/T 11239-2001)》(下稱《八輔》)[1]收錄的2497個單字中,現(xiàn)僅有1283個字被Unicode標(biāo)準(zhǔn)字符集收錄[2]:其中基本區(qū)(URO)266字,基本補充區(qū)(URO+)1字,擴展A區(qū)(Extention A)108字,擴展B區(qū)543字,擴展C區(qū)180字,擴展D區(qū)1字(「?阝顯」, U+2B803),擴展E區(qū)127字,擴展F區(qū)56字,擴展G區(qū)71字,兼容區(qū)1字。即使算上在WS2017(未來的擴展H)中提交的280字,到現(xiàn)在為止仍有863字未提交過任何有效證據(jù);這863字中,約有600字還未找到任何其它相關(guān)資料。假設(shè)以后每個提交期都以WS2017的速度提交[3],仍需3個提交期——從提交證據(jù)給IRG到正式編碼一般需要3-5年,這就意味著至少還需要10年才能完成八輔字的編碼工作,而從2001年到現(xiàn)在,已經(jīng)過去了19年。這還是沒有考慮《八輔》未收錄的諸多地名用字,沒有考慮人名用字得出的結(jié)論。
再來看國標(biāo)對Unicode標(biāo)準(zhǔn)的跟進(jìn)情況。國內(nèi)唯一的現(xiàn)行強制中文字符集標(biāo)準(zhǔn)GB18030的版本仍是2005年發(fā)布、2006年實施的、跟進(jìn)至擴展B區(qū)的GB18030-2005——就在今天(3月10日),CJKUI擴展G區(qū)已經(jīng)正式發(fā)布了。GB18030-2010雖在2018年7月即已完成WTO備案,但至今未正式發(fā)布。這就是國內(nèi)大多數(shù)電腦的系統(tǒng)字體只能支持到擴展B區(qū)漢字的原因。
(2) 國內(nèi)各機構(gòu)之間不愿分享成果,只限于滿足自身需求,且國內(nèi)通用PUA體系不完善。
如果說在正式編碼之前的時間,國內(nèi)的通用PUA體系比較完善,對相關(guān)人員的輸入培訓(xùn)到位的話,仍然不會影響到大多數(shù)人的生活——這雖然不符合標(biāo)準(zhǔn),至少實用。但令人遺憾的是,雖然在2004年左右方正公司就基本建成了所謂的公安局字庫,但這一字庫至今仍未能同有需求的各機構(gòu)共用且同步更新。更令人大為不解的是,嚴(yán)格來說,這個字庫還是涉密的,或者說,公開其使用的PUA碼位屬于泄密行為。
2
在這里還必須說明另一個問題。見于各類報道的生僻字輸入問題有一部分是無法共用公安局字庫導(dǎo)致的,還有一部分是因為相關(guān)機構(gòu)培訓(xùn)失職或者故意不作為導(dǎo)致的:因為方正的這套字體是配有輸入法的[4],公安部、計劃生育委員會、國家稅務(wù)總局、勞動和社會保障部以及國家民政部下屬部門應(yīng)該都配有這套字體以及輸入法。除此之外,確實有公安局字庫缺收的情況,屬于極少數(shù)[5]。
值得注意的是,2017年兩會期間,全國政協(xié)委員、中國科學(xué)院大連化學(xué)物理研究所潔凈能源國家實驗室主任李燦即提交了《關(guān)于解決姓名中含有生僻字人員辦證難問題的提案》,對此,工業(yè)和信息化部也進(jìn)行了回應(yīng)(www.miit.gov.cn)
就在去年(2019年),全國人大代表、江西銅業(yè)集團有限公司德興泗洲選礦廠主任工程師謝建輝又提交了“盡快解決姓名中含有生僻字人員辦事難的問題”建議[6]。但迄今為止,公安及民政等部門還是沒有將字庫與其它有需求的機構(gòu)同步,受影響的群眾辦事依舊很難。相關(guān)部門似乎有一種改變的惰性。
表面上來看,這種現(xiàn)象是相關(guān)機構(gòu)的學(xué)者或者負(fù)責(zé)人的保守和短視所致的。拿地名用字來說,在國內(nèi),至少測繪和地理信息系統(tǒng)有一套很全的地名生僻字信息、民政及公安系統(tǒng)有一套很全的地名生僻字信息。我曾經(jīng)聯(lián)系過測繪系統(tǒng)的一位專家,希望能獲得《地名庫外字代碼對照表》全文,聯(lián)系了幾次,他的大意也基本都是:這是我們項目的成果,屬于保密內(nèi)容,不便全部提供;當(dāng)初沒有提交的原因則是提交周期太長,于滿足機構(gòu)自身的使用需求及項目無益。這種現(xiàn)象在國內(nèi)普遍存在。但是信息共享才能共贏,閉門造車只能雙輸。這種對項目成果過分保密的行為常會導(dǎo)致很多完全不必要的重復(fù)性建設(shè)以及更多報復(fù)性的信息封閉行為,從而形成惡性循環(huán)。不論是公安系統(tǒng)或是測繪系統(tǒng),都完全可以公開生僻字相關(guān)的資料,但是十多年以來,沒有一方這樣做。
(3)推動解決人名和地名用生僻字輸入問題解決的社會力量太弱,很多人仍未意識到“堵不如疏”
雖然受到此問題影響的人數(shù)可能多至百萬甚至千萬級,但相對于全國人來說,他們?nèi)匀皇巧贁?shù)。魯迅先生說過,人類的悲歡并不相通——確實,我們很難感受處于不同狀況的他人的情緒。再加上大多數(shù)成人在經(jīng)歷過社會的磨礪后,換位思考的能力和同情心逐漸缺失,更加在意自己生活的安穩(wěn),很少有非當(dāng)事人愿意為此事發(fā)聲。很多當(dāng)事人也因為擔(dān)心發(fā)聲會給自己造成不要的麻煩,或經(jīng)過長期的努力也看不到任何改觀而放棄,這就進(jìn)一步削弱了推動解決此問題的社會力量。
另外,還有一種聲音認(rèn)為應(yīng)該強制禁止在人名或者地名中使用生僻字,已有的也應(yīng)該強制更改。且不說這種態(tài)度非常不人性化[7],已有的經(jīng)驗也已經(jīng)證明這是不可能的:第一次地名普查的時候多地即要求“地名中不能使用《新華字典》和《現(xiàn)代漢語詞典》中沒有收錄的漢字”,但從現(xiàn)在的結(jié)果來看,首先是很多地名改了之后已經(jīng)變成了純符號,文化意味全部消失;其次,因為中國疆域廣闊、聚落眾多,各地狀況不一,不可能將所有小地名中的生僻字全部改掉。我們已經(jīng)在一普地名志和現(xiàn)行名稱的對比中發(fā)現(xiàn)過:
①沒說改,改了的;
②說沒改,改了的;
③說改了,沒改的;
④啥都沒說,假裝沒看見的;
⑤啥都沒說,確實沒看見的;
⑥正式名稱改了的,民間仍然通用舊字的;
⑦一個縣都給異體A改成異體B,另一個縣都給異體B改成異體A的;等等。
總之千奇百怪的情況都有。可以想到,不一致情況最嚴(yán)重的就是自然村級別的聚落名,而現(xiàn)在很多仍保存生僻字地名的自然村地處偏僻,甚至根本沒有文獻(xiàn)資料記載,給資料搜集造成很大困難。無法輸入地址給本來就相對遠(yuǎn)離現(xiàn)代科技和社會的居民們雪上加霜。他們要么被迫同意更名,要么承受著本不應(yīng)有的諸多不便。要讓14億人都把名字改到符合要求,又何其難哉。所以綜上,堵不如疏——我們在大禹時代就已經(jīng)有了這種哲學(xué)。
(4)Unicode標(biāo)準(zhǔn)在國內(nèi)知名度低,從事漢字編碼工作的專家數(shù)量過少,無論是國家、社會還是機構(gòu)和個人,普遍都不重視漢字編碼工作。
Unicode標(biāo)準(zhǔn)在國內(nèi)知名度低的原因大概可以歸納為以下三點:
a. 客觀上來說,Unicode標(biāo)準(zhǔn)本身的基礎(chǔ)性、專業(yè)性決定了它沒必要,也不可能為很多人所理解。
從基礎(chǔ)性上來說,就好比每個人都會看電視,但絕對沒必要弄清每一個零件的原理;從專業(yè)性上來說,要充分理解Unicode標(biāo)準(zhǔn)體系的相關(guān)概念,需要很多知識作為基礎(chǔ)——從事漢字編碼工作更是需要海量的計算機科學(xué)、語言學(xué)、漢字學(xué)和信息檢索等方面的知識。同時,越專業(yè)、越冷門的東西相對于普通人來說越枯燥,也就越曲高和寡[8][9]。
b. 介紹Unicode標(biāo)準(zhǔn)的漢語資料太少;從事標(biāo)準(zhǔn)制定的專家對標(biāo)準(zhǔn)不夠了解,且對漢譯工作的重要性和緊迫性認(rèn)識不足。
Unicode標(biāo)準(zhǔn)體系及相關(guān)技術(shù)或標(biāo)準(zhǔn)在世界范圍內(nèi)也屬于極冷門的研究范疇,本來參與者也不多,但現(xiàn)在國內(nèi)的情況是:即使是從事編碼工作的專家,也基本沒有人對Unicode標(biāo)準(zhǔn)體系、甚至是漢字編碼體系有中等程度的了解;相關(guān)的漢語資料極少,質(zhì)量普遍偏低,更是出現(xiàn)了《計算機字符編碼——Unicode 與 Windows》這種神級爛書[10]。對絕大多數(shù)漢語母語者來說,接受漢語材料包含的信息遠(yuǎn)比英語材料要快速、高效得多,所以缺少漢語資料會讓充分理解Unicode標(biāo)準(zhǔn)的人大幅減少,從而通過他們的介紹、科普而了解Unicode標(biāo)準(zhǔn)的人更大幅度地減少。所以我認(rèn)為,介紹Unicode標(biāo)準(zhǔn)的高水平漢語資料缺失是Unicode標(biāo)準(zhǔn)在國內(nèi)知名度低的根本原因。
可以說,Unicode標(biāo)準(zhǔn)體系是計算機軟件方面最基礎(chǔ)的標(biāo)準(zhǔn)之一,充分理解Unicode標(biāo)準(zhǔn)體系及其理念是在相關(guān)領(lǐng)域做出突破性創(chuàng)新的基礎(chǔ);以Unicode標(biāo)準(zhǔn)為基礎(chǔ)的各種標(biāo)準(zhǔn)和技術(shù)正不斷發(fā)展,充分理解Unicode標(biāo)準(zhǔn)體系及相關(guān)標(biāo)準(zhǔn)同編程、字體技術(shù)、排版技術(shù)、輸入法、語言學(xué)等的關(guān)系已變得十分必要。但令我驚訝的是,國內(nèi)很多從事字符編碼標(biāo)準(zhǔn)制定工作的人都認(rèn)為翻譯著述“沒有必要”或“價值不大”。
c. 國內(nèi)媒體對相關(guān)問題的宣傳不夠。
其實,要弄懂Unicode標(biāo)準(zhǔn)的基本原理并不難,但我們接觸到的大多數(shù)媒體人貌似不了解,也不想了解:很多記者即使不顧正確性,也不愿意改變自己的宣傳傾向。比如,經(jīng)人介紹(十分感謝),天津大學(xué)新聞部的老師曾經(jīng)找到過我,詢問有關(guān)地名用字編碼工作的情況。當(dāng)初做八輔字情調(diào)查的時候,我們曾經(jīng)用開源字體的現(xiàn)成部件拼湊過一款使用了PUA來顯示未編碼字的字體,不論我怎么解釋,那位老師就是認(rèn)為制作字體這件事很值得宣傳,對我花費了近一年時間所做的資料總結(jié)[11]和提交至各提交源的提案絲毫不感興趣。最后,她再也沒找到過我,我也從沒聯(lián)系過她。這種事情不是孤例,我們甚至都已習(xí)慣。
在這里還要說明一點,宣傳力度不夠也不能完全“歸咎”于媒體人。因為字符編碼國際標(biāo)準(zhǔn)的制定是完全公益性的,所以從事標(biāo)準(zhǔn)制定工作的專家一般都對名利不太感興趣。但換個角度來說,他們往往不能很好地應(yīng)對公眾輿論,不適合充當(dāng)公眾人物,所以一般都會拒絕出鏡。由此便形成了一個尷尬的局面:漢字編碼工作很需要得到宣傳,而能否得到宣傳很大程度上取決于記者,拒絕出鏡又常會打消他們的積極性。
因為Unicode標(biāo)準(zhǔn)知名度低、推動解決人名和地名生僻字解決的社會力量又很弱,所以從事漢字編碼工作的專家數(shù)量非常少;國家、社會對此普遍不重視,愿意為這些專家提供證據(jù)的人也不多。我們中的某位專家在實地調(diào)查地名生僻字的時候,甚至差點被當(dāng)成騙子轟出村去。
很多人都問過我們這個問題:為什么這個字這么常見,竟然還沒編碼?為了回答這個問題,不妨假設(shè)有1000人每天花10小時在各類文獻(xiàn)里找未編碼字,每人每分鐘瀏覽500字;僅一部四庫全書即有10億字,其它各類文獻(xiàn)總字?jǐn)?shù)按其千倍計,由此可算得,他們檢查完全部的資料需要約9年。實際上,大陸常態(tài)化參與漢字編碼工作的專家不到20人;上文也提到,漢字編碼工作完全是公益性的,參與者不僅無法因此得益,還常常要付出大量錢和時間,所以不可能有人全職做編碼工作;同時,未編碼字的總體罕用度越來越高,尋找資料所耗費的精力也越來越大。如果沒有人向我們提供資料,錯過浩如煙海的文獻(xiàn)中的任何一個非通用字都不足為奇。即使有中華字庫等大型項目支持,漢字提交的速度也不可能太快。
(5)國內(nèi)相關(guān)機構(gòu)或積極性、專業(yè)性不足,或?qū)щy考慮的不夠全面,或是過于依賴某位特定的領(lǐng)導(dǎo),致使對項目的支持往往不能貫穿始終,從而產(chǎn)生爛尾工程。
這一節(jié),我想以兩個著名項目為例談一談這種情況。
首先,以中華字庫為例:
①其字庫的字體文件占用了Unicode標(biāo)準(zhǔn)字符集擴展E區(qū)之后的部分,因為當(dāng)時認(rèn)為CJKUI在擴展E區(qū)之后不會再發(fā)布新的擴展集,而提出這一論斷的竟然是中國大陸源的前任Editor;
②由方正公司承制的中華字庫第17包(當(dāng)代人名地名用字收集與整理)也不盡人意,首先,它把書寫習(xí)慣引起的微小差異和不小心寫錯的字都收進(jìn)了字庫;其次,其中過時和不準(zhǔn)確之處頗多。
③中華字庫項目于2006年立項,原預(yù)計5年內(nèi)完成,結(jié)果復(fù)雜程度遠(yuǎn)超想象。古琴譜、算籌符號和部分少數(shù)民族語言文字等至今為止仍未找到有效的編碼方案。幸運的是,中華字庫項目沒有中途夭折,仍然有一群有理想的人為此工作著。項目組現(xiàn)已完成古籍中漢字字形的整理工作,正在清刪字形、核對錯誤。
但中國·國家地名信息庫就沒有如此幸運了。看到這個字體文件,我雖然難隱笑意,但仍難以相信這個字體是花了那么多錢的一個國家項目的成果:
它的“審音定字”欄目,收字相比缺字甚至可以忽略不計[12],反映出其整體水平有多糟糕:
那么,中國·國家地名信息庫何以至此呢?
首先,第二次地名普查因為工作外包等原因,從事基礎(chǔ)工作的人不專業(yè)且缺少責(zé)任感,造成二普志書與現(xiàn)實脫節(jié)。很多二普地名志有海量的錯誤、遺漏,參考價值很低。而中國·國家地名信息庫正是以第二次全國地名普查的資料為基礎(chǔ)編制的。再加上對項目困難預(yù)料不足,原項目負(fù)責(zé)人離開崗位,最后只能草草結(jié)項,是非常典型的爛尾工程[13]。
有的學(xué)者可能聽到過XX專家在XX會議上談到過更新電腦字庫的事情,而且看起來很重視相關(guān)問題。對此,我想說:任何脫離編碼標(biāo)準(zhǔn)談升級電腦字庫的行為都是耍流氓、故弄玄虛。如果有學(xué)者大講特講升級電腦字庫的必要性而絲毫不提編碼標(biāo)準(zhǔn),那只不過是為了豐富自己的議論喊喊口號而已,實際上根本不懂問題的實質(zhì)。
(6) IRG部分審批流程條理不清晰、效率不高,在語言學(xué)或者漢字學(xué)問題上過于糾纏
在現(xiàn)在IRG的日常工作中,“文科思維”有占主流的趨向,對字義、字理、漢字歸部的討論占用時間越來越多——我當(dāng)然不是說文科思維不好,作為國際標(biāo)準(zhǔn)的一部分,審核過程謹(jǐn)慎、嚴(yán)格是必須的;對于CJKUI,在編碼之前對字的音、義、源進(jìn)行考證更是十分必要。但總的來說,這畢竟是一個計算機科學(xué)范疇的國際標(biāo)準(zhǔn),全用文科思維處理工程技術(shù)問題不合適,在語言學(xué)或者漢字學(xué)上過于糾纏意義不大。拿漢字歸部的問題來說,有的專家認(rèn)為應(yīng)優(yōu)先按字義進(jìn)行歸部,有的專家認(rèn)為有爭議的字應(yīng)一字歸兩部,我認(rèn)為都不可取。對于計算機處理來說,一個集合到另一個集合的映射是相對簡單的,像Unicode標(biāo)準(zhǔn)這種基礎(chǔ)性的標(biāo)準(zhǔn)更應(yīng)該在各方面遵守此規(guī)則。所以對于生僻字歸部問題,尤其是涉及到字理常人難以理解的壯字、喃字時,我認(rèn)為有必要:采取略顯“粗暴”、程式化的規(guī)則處理,規(guī)則以外的特例特審;單獨定義編碼意義上的“部首”,而不必拘泥于本身就存在爭議的漢字學(xué)上的“部首”。如果能將這種理念應(yīng)用于IRG審批流程的其他方面,應(yīng)該可以在一定程度上減輕IRG的負(fù)擔(dān)、提高工作效率。
讀到這里,你可能已經(jīng)開始?xì)w納:上述各種狀況相互作用,形成強烈的負(fù)反饋,或者說,惡性循環(huán),所以導(dǎo)致此問題長期無法解決。但我認(rèn)為這還不是最根本的原因。
2
地名及人名用字輸入問題無法解決的根本原因
一個人要完成一件事情,至少需要以下三種動力之一:因為利益產(chǎn)生的動力、因為信念產(chǎn)生的動力、被強力逼迫產(chǎn)生的動力。讓各類機構(gòu)完成一件事情也是類似的,需要不斷的利益驅(qū)動力、信念理想驅(qū)動力或者是被形勢逼迫產(chǎn)生的驅(qū)動力。但現(xiàn)在無論是掌握資源的各機構(gòu),或是應(yīng)該負(fù)責(zé)的政府部門、字庫有升級必要的各機構(gòu)仿佛都有一種無形的惰性,這反映出致其行動的三種驅(qū)動力均不足。
(1)解決問題所產(chǎn)生的利益不足,甚至沒有利益產(chǎn)生
前文已經(jīng)說明過,實際受影響的人只占總?cè)丝诤苄〉囊徊糠郑麄兊牧α亢苋酰越鉀Q他們的問題獲得的經(jīng)濟或名譽利益也就很少。對此,某輸入法的負(fù)責(zé)人表達(dá)得非常直白:“用的人少,何必麻煩[14]。”
對于有必要同公安及民政等部門同步字庫的機構(gòu)來說,以銀行系統(tǒng)為例,更新整個系統(tǒng)所有電腦的字庫,同時可能還要升級硬件和軟件、培訓(xùn)業(yè)務(wù)員,其所消耗的經(jīng)濟成本要遠(yuǎn)遠(yuǎn)大于因解決生僻字輸入問題所產(chǎn)生的經(jīng)濟效益。更多的機構(gòu)不會因此產(chǎn)生經(jīng)濟收入,所以從經(jīng)濟上來說,各機構(gòu)有更新字庫的惰性。另外,對于掌握相關(guān)資料的機構(gòu)來說,公開資料意味著放棄一部分資料的版權(quán),這些資料最開始也是他們用真金白銀、從無到有積累的,公開其中的生僻字資料,不僅需要支付整理資料所產(chǎn)生的費用,還會在日后喪失一定討價還價的資本。
除此之外,利益因素對IRG專家也不是沒有影響。雖然大多數(shù)IRG專家不那么在乎個人利益得失,但是對于某些IRG專家來說,不足的物質(zhì)基礎(chǔ)會讓他們更加看中自己在編碼工作中的作用,甚至把這看成是他們實現(xiàn)人生意義的主要方式。他們?yōu)榇俗龀龅臓奚侵档米鹁吹模瑥恼w來看,起到的作用也是非常積極的,但是如果將個人實現(xiàn)的情緒帶入日常工作中,就會與國際標(biāo)準(zhǔn)所應(yīng)具有的國際性和公益性產(chǎn)生沖突,對純學(xué)術(shù)氛圍造成潛移默化的影響。
可以毫不夸張地說,國內(nèi)很多從事漢字編碼工作的專家完全可以利用他們的能力獲得比現(xiàn)在多一倍甚至幾倍的薪酬和名望,但他們?nèi)匀桓手顼崱<词故亲龀鲞@樣的犧牲,他們還是很難被人理解,經(jīng)常被潑一身冷水。這往往是很“誅心”的,對人內(nèi)心好的方面?zhèn)艽蟆?/p>
(2)相關(guān)機構(gòu)為人民服務(wù)意識的集體缺失
公安部門經(jīng)常建議不用生僻字取名[15],很多媒體也鼓吹宣傳。這體現(xiàn)的其實是相關(guān)機構(gòu)為人民服務(wù)思想的集體缺失。這也很容易理解:當(dāng)一個規(guī)則為人民的利益而改,官員為人民的利益而動,是謂為人民服務(wù);如果制定規(guī)則,方便管理而損害人民的利益,是讓人民為規(guī)則服務(wù)。如果說地名用字問題還可以通過查找資料解決,人名用字除了政府提交外幾無他法。然而現(xiàn)在的情況是,測繪、公安及民政部之間的數(shù)據(jù)相互保密,甚至有一些屬于“涉密”資料,既不公開也不積極提交編碼。究其原因,不過是利益驅(qū)動力不足,又缺乏為人民服務(wù)的精神,相關(guān)機構(gòu)就拿保密做擋箭牌躺下而已。在這個問題上,相關(guān)機構(gòu)的負(fù)責(zé)人躺的太舒服了。
但如果再深究,他們?nèi)笔槿嗣穹?wù)的意識是不是只是他們自身的錯,我認(rèn)為也不盡然。
(3)言論表達(dá)受到了過分限制,很多項目過于依賴單個領(lǐng)導(dǎo)
中國在近代已經(jīng)吃盡了保守的虧,但這種保守的執(zhí)念似乎仍在當(dāng)代繼續(xù)。尤其是近段時間,很多國人的思想更趨保守,從而形成改變的強烈惰性。眾所周知,自由是學(xué)術(shù)的生命,但國內(nèi)的很多研究是沒有生命、沒有生氣的,從而也不可能提出有創(chuàng)見性的觀點、無法發(fā)現(xiàn)問題。再加上很多當(dāng)事人因為擔(dān)心對自己產(chǎn)生不利影響而不敢發(fā)聲,少量敢于發(fā)聲的當(dāng)事人也大多因為其言論得不到有效傳播、看不到改變的跡象而放棄。這就造成了問題似乎并不嚴(yán)重的假象——看不到問題,又何談解決?所以還是那句話,堵不如疏。
另外一個人不可能洞察所有領(lǐng)域,如果某個機構(gòu)的領(lǐng)導(dǎo)者不熟悉相關(guān)領(lǐng)域,又沒有開明的態(tài)度,往往會導(dǎo)致正確的建議得不到及時采納,產(chǎn)生長期無法逆轉(zhuǎn)的影響。漢字編碼屬于極冷門研究范疇的子范疇,推動問題解決的聲音又小,所以這個問題很難得到“上級”的重視且不能形成強烈的輿論力量以倒逼相關(guān)機構(gòu)進(jìn)行改進(jìn)。
3
結(jié)語
我在之前的文章中提到過,漢字與拼音文字不同:對于拼音文字來說,只要編碼少量字母和符號,就可以記述其所有文獻(xiàn);而漢字?jǐn)?shù)量眾多,很難統(tǒng)計窮盡。換句話說,相比于拼音文字語言,漢字編碼的發(fā)展程度會在更大程度上影響今后漢語文本的信息化能力,這又在一定程度上決定了漢語文化圈在信息時代的文化競爭力。只要讓專業(yè)人員去做,收集未編碼字并不像想象中的那么難。即使花個十幾年、幾十年,也比讓百萬人甚至千萬人適應(yīng)幾十年要好。但就目前的狀況來看,由于第2節(jié)中提到的狀況無法在短時間內(nèi)得到改觀,漢字編碼工作仍會長期得不到國家和社會的重視,地名、人名用生僻字輸入困難的問題在國內(nèi)仍是短期,甚至是中長期內(nèi)無法解決的。雖然有很多人在為解決這一問題默默努力,但是他們的力量太小,根本無法改變現(xiàn)狀——比如,本文不會被多少人看到,也沒有多少人愿意讀完如此冗長乏味的一篇文章,甚至不能原封不動地發(fā)出去。
1.中國電子技術(shù)標(biāo)準(zhǔn)化研究所、國家測繪局地名研究所(隸屬中國測繪科學(xué)研究院)和合力金橋公司(今北京合力金橋軟件技術(shù)有限公司)起草的,中華人民共和國信息工業(yè)部于 2001 年 12 月 28 日發(fā)布的字集標(biāo)準(zhǔn)文件,用于滿足地名信息處理的特殊需求。
2.包括其它提交方提交的字形恰好和《八輔》中字形完全一致或者可認(rèn)為是同一字的情況。
3.我傾盡全力,一年不過也只找到了幾百個地名用字的提交資料而已,這還是既有針對性地清理資料的結(jié)果。剩下的字分散出現(xiàn)于更稀見的資料中,這幾乎是不可能的。
4.ab方正字庫——人口信息冷僻字解決方案:http://www.foundertype.com/index.php/About/solvePersonName.html
5.《可信地名外字證據(jù)征集(未竟)》中的「?米田米」: https://zhuanlan.zhihu.com/p/44576181
6.http://www.myzaker.com/article/5c8760ac77ac647e524824ea
7.這是上文所說的“人類的悲歡并不相通”非常鮮明的體現(xiàn),國內(nèi)同性戀、亞文化群體、特殊性癖者、殘疾人等邊緣人群的處境更是充分體現(xiàn)了這一點。“正常人”們無法以相同的感情回路感受到他們的喜怒哀樂,所以高傲地視其為異端。
8.問題“有哪些來源奇特的地名?”下我的回答,32贊:https://www.zhihu.com/question/27825456/answer/276125324
9.八輔字情調(diào)查中期報告-字?jǐn)?shù)統(tǒng)計、字形差異處理、字體情況: https://zhuanlan.zhihu.com/p/33938594
10.問題“你讀過哪些不值得一讀的爛書?它們分別爛在哪里?”下Kushim Jiang的回答:https://www.zhihu.com/question/60921684/answer/313001979
11.《八輔字情調(diào)查表》: https://zhuanlan.zhihu.com/p/34207648
12.未收字?jǐn)?shù)量統(tǒng)計可以參考上文。中國·國家地名信息庫“審音定字”欄目下絕大多數(shù)都是已編碼字。
13.本句信息來源不一定可靠。
14.《【技術(shù)貼】快速輸入生僻字》: https://zhuanlan.zhihu.com/p/43378578
15.可以以“警方 不用生僻字取名”為關(guān)鍵詞在百度上搜索
地名詞典 地名志條目的標(biāo)示問題
北京地名羅馬化拼寫的謬誤
天津胡同命名理據(jù)
地名分類與類別代碼編輯規(guī)則
我國河流名稱變遷的規(guī)律及成因
作者:王謝楊
編輯:華麗 黃海紅 耿曈
終校:耿曈
審訂:王謝楊