(2018-03-20)「翻譯」對大部分人來說不容易,那對AI來說呢?微軟以先進的神經網路深層機器學習,日前宣佈了簡體中文自動翻譯英文的系統,並在網路開放250字的實驗。
(2018-03-20)隨著AI的發展,語文的翻譯也越來越成熟,口語的翻譯多不是問題,但不同語系的文字翻譯,尤其像中文翻譯成英文,多年來一直是一大挑戰。微軟致力這一領域的研究有年,以先進的神經網路深層機器學習,日前宣佈了簡體中文自動翻譯英文的系統,並在網路開放250字的實驗。我知道了以後,就迫不急待的用了兩段文字試驗。
下面是第一段中翻英的對照結果。文稿是去年初寫給北京「數碼印刷」雜誌最後一篇告別文稿的第一段。(原文為簡體,下轉為繁體。)
上一段翻譯的還算得體,但有一個瑕疵,就是中文的「莫不」兩個反意字的正面意思,翻譯成「does not」一個反意字,意思正好相反。最後一句「任務就算有所交代了」,翻譯的也有些勉強。
我選用這一段話的用意,在語句略帶感性,而微軟系統是以新聞類敘述語句為基礎,所以試驗中出現狀況並不意外。下面一段也是我以前在同一刊物寫的文稿,是直接的敘述,類似新聞語句,翻譯的就比第一段通順。(原文為簡體,下轉為繁體。)
這一系統的研發,是從網路報紙擷取2,000句語句作為樣本,經反覆系統測試,把翻譯出來的結果與人翻譯的結果比較,同時也邀請雙語專家核對翻譯的結果,所以新聞性的敘述文稿,目前應能通順的翻譯。公佈的研究報告說,翻譯出錯的機率平均在5%,不正確用詞、不正確文法、缺字、名稱混淆,是四種主要出錯的地方,所以系統仍有改善的空間。
AI用在很多地方都超越人的智慧或能力,但說機器翻譯的比人更好,在邏輯上有些說不通,如果翻譯的與人同樣的好,所謂Human Parity,就應是達到目標,所以翻譯的好與不好還是由人來評定。
微軟為此聘用了中英雙語專家作裁判,把翻譯的結果與原文在語意上比較,打一個分數,然後把這些分數統計處理,把在統計上沒有顯著差異的,認為是跟人的翻譯相等。但專家與專家不同,打分數就像批改作文,所以同樣程序重複多次,減少人為的偏差。
讀者有興趣進一步知道翻譯結果的認定,以及神經網路深層機器學習細節,可以在文後閱覽、下載這份25頁PDF研究報告:
Achieving Human Parity on Automatic Chinese to English News Translation
中文電腦的發展,幾十年一路走來,從輸入法的百家爭鳴,到單筆字型在電腦畫面顯示、在印字機印出,發展到多種精美印刷字體,改變了出版與印刷的生態。電腦進一步辨識字型、辨識語音,減少人力打字輸入,暢通人與電腦互動,中文電腦處理遂進入新的境界。
但中文電腦處理的最高境界,語意辨識,懂得一個詞彙、一句話的內涵意思,形同文化與技術的複雜結合,最為困難,而微軟的中對英的機器翻譯,卻克服了這一困難。
微軟的中對英機器翻譯系統,是微軟的 AI 研究中心,特別是結合亞洲研究中心的一群中國專家,共同研發的成果。微軟技術院士黃學東說,雖然此次突破意義非凡,但研究人員也提醒大家,這並不代表人類已經完全解決了機器翻譯的問題,只能說明我們離終極目標又更近了一步。話雖如此,這仍是了不起的成就,意義深遠自不待言。
微軟主導「語音、自然語言、機器翻譯」的技術院士黃學東。
*本文取材自2018年3月18日「那福忠西海岸數位隨筆(43)」:微軟首創中對英機器翻譯
對本文有任何看法,歡迎 E-Mail:frank.na@gmail.com 給作者,分享您對本文的看法。