中文字幕精品一区二区精品_久久一二三区_亚洲韩日在线_日韩中文字幕视频

神經機器模型能翻譯200種語言

日期:2024-06-06 08:49

《自然》5日發表的一篇論文報道了一個Meta人工智能(AI)模型的底層技術。該模型能翻譯200種不同語言,增加了機器翻譯的語言數量。

神經機器翻譯模型利用人工神經網絡翻譯各種語言。這些模型通常需要大量可在線獲取的數據加以訓練,但并非所有語言數據都是公開、低成本或是普遍可及的,這類語言被稱為低資源語言。一味地增加模型翻譯語言數量,可能會影響模型的翻譯質量。

此次,Meta的法國研究團隊和“不落下任何語言”(NLLB)團隊開發了一種跨語言技術,能讓神經機器翻譯模型學習如何利用翻譯高資源語言的預存能力,實現對低資源語言的翻譯。研究團隊開發了一個在線多語言翻譯工具,名為“NLLB-200”。該工具能容納200種語言,其低資源語言數量是高資源語言數量的3倍,翻譯表現則比當今已有系統高44%

由于團隊在許多低資源語言上只能獲取10002000例樣本,為了擴大“NLLB-200”的訓練數據量,他們用一個語言識別系統發現了這些特定語言的更多實例。團隊還從互聯網存檔中挖掘雙語文本數據,幫助提升其翻譯質量。

研究團隊指出,這個工具可以幫助很少被翻譯的那些語言的使用者,讓他們也能用上互聯網和其他技術。此外,教育是一個非常重要的應用,因為這個模型可以幫助低資源語言使用者獲取更多圖書和研究文章。但團隊也表示,目前誤譯的情況仍有可能出現。