戰國經學家谷梁赤有言:人之所以為人者,言也。人而不能言,何以為人。法國喜劇作家莫里哀也曾說過:語言是賜于人類表達思想的工具。語言的重要性不言而喻。那么大家知道世界上共有多少種語言嗎?竟有5000多種!這個驚人的數字是如何產生的呢?
《圣經·舊約·創世記》第11章給出了如下解釋:在上帝創世之初,人類只說一種語言,沒有任何溝通障礙,于是當時的人類聯合起來興建一座高聳入云的巴別塔(Babel),希望能通往天堂。人類狂妄的舉動引起了上帝的不滿,為了阻止人類的計劃,上帝讓人類說不同的語言,使他們不能相互交流,巴別塔計劃因此失敗,世上從此也出現了不同語言和種族。
關于語言多樣性這個話題,現代人類更加腦洞大開,科幻小說家們取代了圣經撰寫者,嘗試給出人類與外星種族交流的方案。在經典科幻電影《星際迷航》(Star Trek)中,星艦隊員與跨星系物種之間語言不通,萬能翻譯器就成了一個溝通神器;同樣的,在“科幻圣經”《銀河系漫游指南》(The 's Guide to the )中,主人公和他的外星人朋友在穿越銀河的冒險中,只要把“巴別魚”(Babel fish)這種奇妙生物塞進耳朵里,就能夠聽懂任何外星語言,簡直6到飛起!
>
盡管在現實中,我們既看不到上帝,也還沒有發現任何外星物種,但是關于如何跨越語言障礙實現有效溝通,一直是人類在探索的話題。隨著機器翻譯技術的興起,是否在將來的某一天,萬能翻譯器不再只是科幻電影里的“黑科技”(black ),而成為了現實呢?
要回答這個問題,首先讓我們來看一段TED-ed的科普視頻,了解一下機器是如何做到翻譯人類語言的(How human )。Are you ready?
為了方便大家學習,小編還準備了熱乎乎的英語原文,快來享受知識大餐吧!
向上滑動閱覽
00:06
How is it that so many (星際物種) in and TV just to speak ? The short is that no one wants to watch a crew (星艦隊員)spend years an alien . But to keep , the of Star Trek(《星際迷航》) and other - have the of a (萬能翻譯器), a that can any . So is a in real life?
00:38
We have many that claim to do just that, a word, , or book in one and it into any other, it's or (古代梵語). And if were just a of up words in a , these would run (遠遠超過). The , , is a bit more .
01:03
A rule-based uses a , which all the words you'd find in a and all forms they can take, and set of rules to the basic in the input . For a like, "The eat the ," the first (分析) its (句法), or , by the as the , and the rest of the as the of a verb "eat," and a "the ." It then needs to (形態), or how the can be down into its units, such as the word and the "s," used to . , it needs to the (語義), what the parts of the mean.
01:56
To this , the would refer to a set of and rules for each of the . But this is where it gets . The of some words to be in any order, while in , doing so could make the eat the child. can also pose a . (斯洛文尼亞語) two and three or more using a dual (雙重后綴) in many other , while 's lack of might leave you the are some , or just eat in . , even when the are , the might miss their finer (失于精細), such as the ""(意大利語:吃) the , or ""(意大利語:狼吞虎咽) them.
02:47
is , which a of books, , and that have been by 。 By and text that are to occur by , the can and , and use them for 。 , the of this type of on the size of the and the of for or of 。
The that have with the , and of (語義色彩) that seem to come to has led some to that our of is a of our brain 。 In fact, one of the most , the Babel fish(巴別魚) from "The 's Guide to the "(《銀河系漫游指南》), is not a at all but a small that the brain waves and nerve of (有感知能力的) a form of (心電感應)。
03:57
For now, a the old way will still give you than any . But this is no easy task, and the sheer of in the world, as well as the the who speak them, will only to spur in . by the time we life forms, we'll be able to with them a tiny gizmo(小發明), or we might have to start that , after all.
看到這里,你們一定在期待小編羅列出本文的所有生詞短語供大家學習。不不不,今天我們換一個更有意思的玩法,先來學習本文表達交際效果的手段。什么是交際效果呢?就是講話人在說話時,除了傳遞干貨信息外,還會用邏輯結構和小詞體現出自己說話的目的,這既有利于聽眾理解,又能體現講話人的發言風格。
廢話不多說,直接看例子:
1. 如果我們想在演講開篇提問,引發聽眾思考,可以用什么樣的句型呢?
How is it many in and TV just to speak ? The short is one wants to watch a crew spend years an alien .
這個句型可以用來表達的交際效果是:
“……實在是太神奇了,它是怎么做到的呢?!———其實簡單來說就是……”
這個句型的妙處在于兩個that,后面可以隨便接句子呀,簡直不要太萬能!
2. 我們在講話時,經常喜歡設這樣的一個包袱,把一個眾所周知表象先說出來,然后話鋒一轉,告訴大家你們這樣想其實圖樣圖森破,現實情況要復雜的多:
The , , is a bit more .
但是,在現實中,情況就復雜多了。
But this is where it gets .
到這一步,事情就開始變得棘手了。
But this is no easy task.
但這并不是一件容易的事情。
現在大家可以再回到原文去看看這些句子出現的上下文,轉折效果一下就出來了有木有!
3. 講完句子我們再來學習兩個小詞吧:
第一個是just:
How is it that so many in and TV just to speak ?
為什么電視劇里會有那么多的星際物種恰好都會說一口流利的英語呢?
We have many that claim to do just that…
現在已經有許多程序聲稱他們恰巧可以做到…
“對對對,就是這個;沒錯沒錯,是的是的” 這樣的語氣用一個小小的“just”就能在句中體現得淋漓盡致!
再來感受一下另一個神奇語氣助攻的小詞:
For a like, "The eat the ,"
比如說,一個看起來很簡單的句子“孩子們吃松餅”。大家平常會怎么說這個句子呢:
This looks very , but it’s not like that…,
終于明白自己說英語這么啰嗦了吧。不明覺厲?
好了,交際效果部分就介紹到此,有沒有覺得這種看似簡單的表達,實際用起來非常能提升逼格呢。所以大家平時在學習篇章時,除了查那些高大上的詞匯,還可以扒一扒文章中的交際表達,例如,如何表達比較、對比、轉折、假設、強調、舉例等等,絕對讓你在同等詞匯量的英語學習者中脫穎而出。
開胃菜結束,正餐來啦!
在機器翻譯神秘的面紗背后,有兩種不同的翻譯原理,即基于規則的翻譯原理和基于數據庫的翻譯原理。
首先我們來看一下第一種基于規則的翻譯程序(a rule-based ),這是早期通用的機器翻譯方法,它的出現還要歸功于電子詞庫( )和語言學()的發展。詞匯部分就不用說了,當然是越大越好,最好是牛津劍橋柯林斯都要有,比較復雜的還是語法規則部分。
語言專業的童鞋都知道,語言學是一門非常燒腦的學科,非語言專業的同學想想你們有多討厭背英語語法就能體會了。但貼心的TED-ed大神非常考慮大家的感受,用了一個炒雞簡單的例子幫助大家梳理第一類機翻的語言學原理:
The eat the .
孩子們在吃松餅。
這句話的語法看似簡單,但要使機器能準確地翻譯出來,需要為它“灌輸”三個方面的語言學知識:
01
句法學()
也就是說機器需要解析(parse)句子的主謂賓,顯然在這句話中主語部分()是,謂語部分()是eat,而是整個句子的直接賓語( )。
02
形態學()
由于英語是屈折語(),也就是名詞有單復數變化,動詞有時態和語態變化,因此機器需要把每個單詞進一步切分為最小的意義單位( down into its units),如由詞干(stem)“”和后綴()“s”構成。
03
語義學()
分析完句法和形態,機器還需要理解每個詞的具體意思。盡管機器能儲存大量的詞匯及詞義,但要找到一個符合該語境的精確意思卻不是這么容易的事(miss their finer )。如在本句中,eat一詞在意大利語里就很難找到一個精確的詞,到底孩子們是在(吃)還是在(狼吞虎咽)松餅呢?
聽起來好有道理又好高深的樣子。但是,任何兩種語言的之間語法和詞匯是無法完全對應的,有時甚至大相徑庭。因此就算機器能記住所有的單詞和語法,也經常會翻出一些讓人啼笑皆非的句子。例如下面這幾組奇葩的漢譯英就是機翻中的“戰斗機”谷歌翻譯做的:
1.詞語:英雄救美
翻譯: save the
再翻譯:英雄救了美國。
2.句子:一點小意思,請笑納。
翻譯:A bit , laugh .
再翻譯:有一點無聊,請保持滿意的微笑。
(那些年打的架可能都是因為語言上犯得蠢。)
所幸的是,隨著大數據(big data)和語料庫()技術的發展,第二種基于數據庫的機器翻譯( )應運而生。由于這種翻譯并不是基于死板(rigid)的語法規則,而是收集大量已被翻譯出來的平行文本( text),然后在源語言和目標語中尋找對應的表達(find and text),此類機翻出來的譯文的“更像人話”了,大家現在經常使用的谷歌、有道、金山、百度等軟件或網頁翻譯都廣泛采納了這種技術。這個邏輯聽起來似乎非常萬能(),但在實際操作中,由于受語料庫的大小的限制(計算機存儲能力有限),以及平行語料庫來源的有限性(比如某些專業領域的語料會涉及商業保密),此類機翻的準確度也會大打折扣。
盡管上述兩種機器翻譯的成果都還不盡人意,但其語料容量和翻譯速度已經遠超人類翻譯軟件可以代替人工翻譯嗎,從而極大地提高了人工翻譯的效率。2014年神經網絡翻譯模型問世,機器翻譯迎來了人工智能時代。AI的飛速發展引發了人們的爭論和恐慌:是否有一天機器翻譯將完全取代人工翻譯?人類是否終將建成“巴別塔”?
小編作為一個還未出道的翻譯,粗淺地認為不會有那么一天。首先從思想層面來說翻譯軟件可以代替人工翻譯嗎,語言是思想的載體,而人類才是思想的創造者,機器永遠只能滯后地模仿和復制。其次從藝術層面來說,文學作品、歌曲、戲劇等觸動人心的藝術形式需要人類自身參與才能達到情感交融的藝術效果;最后在文化層面,不同民族的風俗、傳統也不是僅僅通過機器的字面翻譯就能解讀的。簡而言之,照目前的發展方向,機器翻譯要達到人類語言的復雜交際效果還為之尚早。
但是我們也應該意識到,機器翻譯已經基本能夠處理簡單的日常對話(試試微信的同步翻譯功能就知道了),初級語言翻譯已經可以被替代(趕緊再去把“交際效果分析”部分復習一下吧!不然這點詞匯量很快就要被機器秒殺哦【邪惡臉】)。站在時代發展的十字路口,如何保持創新能力才是未來人類要努力的方向。
投票環節
上文提到的神經網絡翻譯模型是不是聽起來就很高大上?小編將在今后某一期推送中為大家詳細介紹,敬請期待!關于機器翻譯是否會取代人工翻譯,你還有什么高見呢?歡迎在評論區留言!
“
訂閱“廈大口譯”公眾號,讓我們在口譯路上紅塵作伴,一起瀟瀟灑灑吧!
”
指導老師:傅彥琦
文案:彭雅晴 陳彥青
排版:翁思貝