(2018-03-20)「翻譯」對大部分人來說不容易,那對AI來說呢?微軟以先進的神經網路深層機器學習,日前宣佈了簡體中文自動翻譯英文的系統,並在網路開放250字的實驗。

(圖:sohu.com)

(2018-03-20)隨著AI的發展,語文的翻譯也越來越成熟,口語的翻譯多不是問題,但不同語系的文字翻譯,尤其像中文翻譯成英文,多年來一直是一大挑戰。微軟致力這一領域的研究有年,以先進的神經網路深層機器學習,日前宣佈了簡體中文自動翻譯英文的系統,並在網路開放250字的實驗。我知道了以後,就迫不急待的用了兩段文字試驗。

下面是第一段中翻英的對照結果。文稿是去年初寫給北京「數碼印刷」雜誌最後一篇告別文稿的第一段。(原文為簡體,下轉為繁體。)

對我這樣年紀的人來說,時間過得越來越快,不知不覺已經在《數碼印刷》寫七年了。每篇雖然僅有一頁,莫不盡力簡述國外的技術與市場概念。出版與印刷是文化的延伸,國外的營運方式未必適用國內的環境,但如果能帶給國內業界朋友對照參考,任務就算有所交代了。
For people my age, time is getting faster and quicker, unknowingly has been in the "digital printing" written for seven years. Each article, although only one page, does not try to describe the foreign technology and market concepts. Publishing and printing is the extension of culture, foreign operations may not be applicable to the domestic environment, but if you can bring to the domestic industry friend reference, the task even if there is an account.
 


上一段翻譯的還算得體,但有一個瑕疵,就是中文的「莫不」兩個反意字的正面意思,翻譯成「does not」一個反意字,意思正好相反。最後一句「任務就算有所交代了」,翻譯的也有些勉強。

我選用這一段話的用意,在語句略帶感性,而微軟系統是以新聞類敘述語句為基礎,所以試驗中出現狀況並不意外。下面一段也是我以前在同一刊物寫的文稿,是直接的敘述,類似新聞語句,翻譯的就比第一段通順。(原文為簡體,下轉為繁體。)

紙本書復甦的另一原因,是電子書售價的提高,電子書與紙本書同樣價格,讀者就自然舍電子而取紙本了。去年出版社與亞馬遜協商的結果,電子書可以由出版社自行定價,為了推銷紙本書故意抬高電子書價格,使紙本書的銷售增加。亞馬遜更進一步,把一些大眾化的紙本書大幅降價,低於電子書,至2015前五個月平裝紙本書的銷售,增加了8.4%。
Another reason for the revival of the paper book is the increase in the price of E-books, the same prices for e-books and paper books. Last year, publishers and Amazon negotiated the results, E-books can be priced by the publishers themselves, in order to promote the paper book deliberately raise the price of e-books, so that the sales of paper books increased. Amazon went a step further by slashing some popular paper prices below E-books, adding 8.4% to the sales of paperback books for the first five months of 2015.


這一系統的研發,是從網路報紙擷取2,000句語句作為樣本,經反覆系統測試,把翻譯出來的結果與人翻譯的結果比較,同時也邀請雙語專家核對翻譯的結果,所以新聞性的敘述文稿,目前應能通順的翻譯。公佈的研究報告說,翻譯出錯的機率平均在5%,不正確用詞、不正確文法、缺字、名稱混淆,是四種主要出錯的地方,所以系統仍有改善的空間。

AI用在很多地方都超越人的智慧或能力,但說機器翻譯的比人更好,在邏輯上有些說不通,如果翻譯的與人同樣的好,所謂Human Parity,就應是達到目標,所以翻譯的好與不好還是由人來評定。

微軟為此聘用了中英雙語專家作裁判,把翻譯的結果與原文在語意上比較,打一個分數,然後把這些分數統計處理,把在統計上沒有顯著差異的,認為是跟人的翻譯相等。但專家與專家不同,打分數就像批改作文,所以同樣程序重複多次,減少人為的偏差。

讀者有興趣進一步知道翻譯結果的認定,以及神經網路深層機器學習細節,可以在文後閱覽、下載這份25頁PDF研究報告:
Achieving Human Parity on Automatic Chinese to English News Translation

中文電腦的發展,幾十年一路走來,從輸入法的百家爭鳴,到單筆字型在電腦畫面顯示、在印字機印出,發展到多種精美印刷字體,改變了出版與印刷的生態。電腦進一步辨識字型、辨識語音,減少人力打字輸入,暢通人與電腦互動,中文電腦處理遂進入新的境界。

但中文電腦處理的最高境界,語意辨識,懂得一個詞彙、一句話的內涵意思,形同文化與技術的複雜結合,最為困難,而微軟的中對英的機器翻譯,卻克服了這一困難。

微軟的中對英機器翻譯系統,是微軟的 AI 研究中心,特別是結合亞洲研究中心的一群中國專家,共同研發的成果。微軟技術院士黃學東說,雖然此次突破意義非凡,但研究人員也提醒大家,這並不代表人類已經完全解決了機器翻譯的問題,只能說明我們離終極目標又更近了一步。話雖如此,這仍是了不起的成就,意義深遠自不待言。


微軟主導「語音、自然語言、機器翻譯」的技術院士黃學東。

*本文取材自2018年3月18日「那福忠西海岸數位隨筆(43)」:微軟首創中對英機器翻譯
對本文有任何看法,歡迎 E-Mail:frank.na@gmail.com 給作者,分享您對本文的看法。