Popular science work
《自然》5日發表的一篇論文報道了一個Meta人工智能(AI)模型的底層技術。該模型能翻譯200種不同語言,增加了機器翻譯的語言數量。
神經機器翻譯模型利用人工神經網絡翻譯各種語言。這些模型通常需要大量可在線獲取的數據加以訓練,但并非所有語言數據都是公開、低成本或是普遍可及的,這類語言被稱為低資源語言。一味地增加模型翻譯語言數量,可能會影響模型的翻譯質量。
此次,Meta的法國研究團隊和“不落下任何語言”(NLLB)團隊開發了一種跨語言技術,能讓神經機器翻譯模型學習如何利用翻譯高資源語言的預存能力,實現對低資源語言的翻譯。研究團隊開發了一個在線多語言翻譯工具,名為“NLLB-200”。該工具能容納200種語言,其低資源語言數量是高資源語言數量的3倍,翻譯表現則比當今已有系統高44%。
由于團隊在許多低資源語言上只能獲取1000—2000例樣本,為了擴大“NLLB-200”的訓練數據量,他們用一個語言識別系統發現了這些特定語言的更多實例。團隊還從互聯網存檔中挖掘雙語文本數據,幫助提升其翻譯質量。
研究團隊指出,這個工具可以幫助很少被翻譯的那些語言的使用者,讓他們也能用上互聯網和其他技術。此外,教育是一個非常重要的應用,因為這個模型可以幫助低資源語言使用者獲取更多圖書和研究文章。但團隊也表示,目前誤譯的情況仍有可能出現。