規模性能雙殺 OpenAI,Meta 語音達 LLaMA 級里程碑!開源 MMS 模型可識別 1100+ 語言

華爾街見聞
2023.05.23 11:55
portai
I'm PortAI, I can summarize articles.

Meta 的大規模多語言語音(MMS)項目將徹底改變語音技術,使用 wav2vec 2.0 的自監督學習,MMS 將語音技術擴展到 1100 到 4000 種語言。

在語音方面,Meta 又達到了另一個 LLaMA 級的里程碑。

今天,Meta 推出了一個名為 MMS 的大規模多語言語音項目,它將徹底改變語音技術。

MMS 支持 1000 多種語言,用聖經訓練,錯誤率僅為 Whisper 數據集的一半。

只憑一個模型,Meta 就建起了一座巴別塔。

並且,Meta 選擇將所有模型和代碼開源,希望為保護世界語種的多樣性做出貢獻。

在此之前的模型可以覆蓋大約 100 種語言,而這次,MMS 直接把這個數字增加了 10-40 倍!

具體來説,Meta 開放了 1100 多種語言的多語種語音識別/合成模型,以及 4000 多種語言的語音識別模型。

與 OpenAI Whisper 相比,多語言 ASR 模型支持 11 倍以上的語言,但在 54 種語言上的平均錯誤率還不到 FLEURS 的一半。

而且,將 ASR 擴展到如此多語言之後,只造成了非常小的性能下降。

論文地址:https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/

保護消失語種,MMS 把語音識別增加 40 倍

讓機器具備識別和產生語音的能力,可以讓更多人獲得信息。

然而,為這些任務生成高質量的機器學習模型,就需要大量的標記數據,比如數千小時的音頻以及轉錄——對於大多數語言來説,這種數據根本就不存在。

現有的語音識別模型,只涵蓋了大約 100 種語言,在地球上的 7000 多種已知語言中,這隻佔很小一部分。令人擔憂的是,在我們有生之年,這些語言中有一半都面臨着消失的危險。

在 Massively Multilingual Speech(MMS)項目中,研究者通過結合 wav2vec 2.0(Meta 在自監督學習方面的開創性工作)和一個新的數據集來克服了一些挑戰。

這個數據集提供了超過 1100 種語言的標記數據,和近 4000 種語言的未標記數據。

通過跨語言訓練,wav2vec 2.0 學習了多種語言中使用的語音單元

其中一些語言,如 Tatuyo 語,只有幾百個使用者,而數據集中的大多數語言,以前根本就不存在語音技術。

而結果顯示,MMS 模型的性能優於現有的模型,覆蓋語言的數量是現有模型的 10 倍。

Meta 一向專注於多語言工作:在文本上,Meta 的 NLLB 項目將多語言翻譯擴展到了 200 種語言,而 MMS 項目,則將語音技術擴展到更多語言。

MMS 支持 1,107 種語言的語音轉文本和文本轉語音,支持 4,000 多種語言的識別

聖經解決語音數據集難題

收集數千種語言的音頻數據並不是一件簡單的事情,這也是 Meta 的研究人員面臨的第一個挑戰。

要知道,現有的最大語音數據集最多也只涵蓋了 100 種語言。為了克服這個問題,研究人員轉向了宗教文本,如《聖經》。

這類文本已經被翻譯成許多不同的語言,被用於廣泛的研究,還有各種公開的錄音。

為此,Meta 的研究者專門創建了一個超過 1100 種語言的《新約》閲讀數據集,平均每種語言提供 32 小時的數據。

再加上其他各種宗教讀物的無標籤錄音,研究者將可用的語言數量增加到了 4000 多種。

在 MMS 數據上訓練的自動語音識別模型,在 FLEURS 基準測試中,對男性和女性説話者具有相似的錯誤率

這些數據通常是由男性朗讀的,但模型對男性和女性的聲音表現得同樣好。

並且,雖然錄音的內容是宗教性的,但這並沒有使模型過度偏向於產生更多的宗教語言。

研究人員分析認為,這是因為他們使用了連接主義時間分類方法,與用於語音識別的大語言模型或序列對序列模型相比,它的約束性要大得多。

模型越大,越能打?

研究人員首先對數據進行了預處理,以提高數據的質量,並使其能被機器學習算法所利用。

為此,研究人員在 100 多種語言的現有數據上訓練了一個對齊模型,並將這個模型與一個高效的強制對齊算法一起使用,而該算法可以處理大約 20 分鐘或更長時間的錄音。

研究人員多次重複了這個過程,並根據模型的準確性進行了最後的交叉驗證過濾步驟,為的是去除潛在的錯誤對齊數據。

為了使其他研究人員能夠創建新的語音數據集,研究人員將對齊算法添加到了 PyTorch 中併發布了對齊模型。

目前,每種語言都有 32 小時的數據,但這並不足以訓練傳統的監督式語音識別模型。

這也就是為什麼研究人員在 wav2vec 2.0 上訓練模型,這樣可以大大減少訓練一個模型所需的標註數據量。

具體來説,研究人員在超過 1400 種語言的約 50 萬小時的語音數據上訓練了自監督模型——這個量比過去多了近 5 倍。

然後針對特定的語音任務,如多語言語音識別或語言識別,研究人員再對模型進行微調即可。

為了更好地瞭解在大規模多語言語音數據上訓練的模型的表現,研究人員在現有的基準數據集上對它們進行了評估。

研究人員使用一個 1B 參數的 wav2vec 2.0 模型對超過 1100 種語言進行多語言語音識別模型的訓練。

隨着語言數量的增加,性能確實有所下降,但這種下降比較輕微——從 61 種語言到 1107 種語言,字符錯誤率只增加了約 0.4%,但語言覆蓋率卻增加了 18 倍以上。

將每個系統支持的語言數量從 61 增加到 1,107 時,使用 MMS 數據訓練的多語言識別系統的 61 種 FLEURS 語言的錯誤率。錯誤率越高表示性能越低

在與 OpenAI 的 Whisper 進行同類比較時,研究人員發現,在 Massively Multilingual Speech 數據上訓練的模型有將近一半的單詞錯誤率,但 Massively Multilingual Speech 涵蓋的語言是 Whisper 的 11 倍。

從數據中我們可以看出,與目前最好的語音模型相比,Meta 的模型表現的真的非常不錯。

OpenAI Whisper 與 Massively Multilingual Speech 在 54 種 FLEURS 語言上的單詞錯誤率對比

接下來,研究人員使用自己的以及現有的數據集,如 FLEURS 和 CommonVoice,為超過 4000 種語言訓練了一個語言識別(LID)模型,並在 FLEURS LID 任務上對其進行了評估。

事實證明,哪怕支持了將近 40 倍的語言數量,性能依然很能打。

在現有工作的 VoxLingua-107 基準上的語言識別準確性,支持的語言剛剛超過 100 種,而 MMS 則支持超過 4000 種語言

研究人員還為超過 1100 種語言建立了文本轉語音的系統。

大規模多語種語音數據有一個侷限性,那就是對於許多語言來説,它包含的不同説話者數量相對較少,通常只有一個説話者。

然而,這個特點對於建立文本到語音系統來説是一個優勢,因此研究人員為超過 1100 種語言訓練了類似系統。

結果表明,這些系統產生的語音質量還算不錯。

未來屬於單一模型

Meta 的研究人員對這個結果感到很滿意,但與所有新興的 AI 技術一樣,Meta 目前的模型並不算完美。

比方説,語音到文本模型可能會誤寫選定的單詞或短語,可能會導致冒犯性的或者不準確的輸出結果。

同時,Meta 認為,AI 巨頭的合作對於負責任的 AI 技術的發展至關重要。

世界上的許多語言都有消失的危險,而目前語音識別和語音生成技術的侷限性只會加速這一趨勢。

研究人員設想一個技術產生相反效果的世界,鼓勵人們保持其語言的活力,因為他們可以通過説自己喜歡的語言來獲取信息和使用技術。

大規模多語言語音項目是朝着這個方向邁出的重要一步。

在未來,研究人員希望進一步增加語言的覆蓋面,支持更多的語言,甚至還會想辦法搞定方言。要知道,方言對現有的語音技術來説可不簡單。

Meta 的最終目標是讓人們能更容易地用自己喜歡的語言獲取信息、使用設備。

最後,Meta 的研究人員還設想了這樣一個未來場景——靠一個單一的模型就可以解決所有語言的幾個語音任務。

目前雖然 Meta 為語音識別、語音合成和語言識別訓練了單獨的模型,但研究人員相信,在未來,只需一個模型就能完成所有這些任務,甚至不止。

本文來源:新智元,原文標題:《規模性能雙殺 OpenAI,Meta 語音達 LLaMA 級里程碑!開源 MMS 模型可識別 1100+ 語言》

風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。