版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

什么?聽(tīng)說(shuō)AI能用北京話念繞口令了!

學(xué)術(shù)頭條
一起見(jiàn)證人類探索征途上的每一個(gè)重大突破。
收藏

今年 10 月,智譜在 CNCC2024 大會(huì)上推出了他們?cè)诙嗄B(tài)領(lǐng)域的最新成果——端到端情感語(yǔ)音模型 GLM-4-Voice,讓人和機(jī)器的交流能夠以自然聊天的狀態(tài)進(jìn)行。

以下為他們?cè)诠俜?GitHub 上給出的 demo。

先用北京話念一句繞口令。

據(jù)介紹,GLM-4-Voice 能夠直接理解和生成中英文語(yǔ)音,進(jìn)行實(shí)時(shí)語(yǔ)音對(duì)話,在情緒感知、情感共鳴、情緒表達(dá)、多語(yǔ)言、多方言等方面實(shí)現(xiàn)突破,且延時(shí)更低,可隨時(shí)打斷。

日前,來(lái)自清華大學(xué)和智譜的研究團(tuán)隊(duì)發(fā)布了 GLM-4-Voice 的研究論文,對(duì)這一端到端語(yǔ)音模型的核心技術(shù)與評(píng)估結(jié)果進(jìn)行了詳細(xì)論述。

GLM-4-Voice 是如何練成的?

與傳統(tǒng)的 ASR + LLM + TTS 的級(jí)聯(lián)方案相比,端到端模型以音頻 token 的形式直接建模語(yǔ)音,在一個(gè)模型里面同時(shí)完成語(yǔ)音的理解和生成,避免了級(jí)聯(lián)方案“語(yǔ)音轉(zhuǎn)文字再轉(zhuǎn)語(yǔ)音” 的中間過(guò)程中帶來(lái)的信息損失,也解鎖了更高的能力上限。

圖片

圖|GLM-4-Voice 模型架構(gòu)圖。

GLM-4-Voice 由三個(gè)部分組成:

GLM-4-Voice-Tokenizer:通過(guò)在 Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 數(shù)據(jù)上有監(jiān)督訓(xùn)練,將連續(xù)的語(yǔ)音輸入轉(zhuǎn)化為離散的 token。每秒音頻平均只需要用 12.5 個(gè)離散 token 表示。

GLM-4-Voice-Decoder:基于 CosyVoice 的 Flow Matching 模型結(jié)構(gòu)訓(xùn)練的支持流式推理的語(yǔ)音解碼器,將離散化的語(yǔ)音 token 轉(zhuǎn)化為連續(xù)的語(yǔ)音輸出。最少只需要 10 個(gè)語(yǔ)音 token 即可開始生成,降低端到端對(duì)話延遲。

GLM-4-Voice-9B:在 GLM-4-9B 的基礎(chǔ)上進(jìn)行語(yǔ)音模態(tài)的預(yù)訓(xùn)練和對(duì)齊,從而能夠理解和生成離散化的語(yǔ)音 token。

圖片

圖|GLM-4-Voice-Tokenizer 和 GLM-4-Voice-Decoder 的架構(gòu)。

預(yù)訓(xùn)練方面,為了攻克模型在語(yǔ)音模態(tài)下的智商和合成表現(xiàn)力兩個(gè)難關(guān),他們將 Speech2Speech 任務(wù)解耦合為“根據(jù)用戶音頻做出文本回復(fù)”和“根據(jù)文本回復(fù)和用戶語(yǔ)音合成回復(fù)語(yǔ)音”兩個(gè)任務(wù),并設(shè)計(jì)兩種預(yù)訓(xùn)練目標(biāo),分別基于文本預(yù)訓(xùn)練數(shù)據(jù)和無(wú)監(jiān)督音頻數(shù)據(jù)合成語(yǔ)音-文本交錯(cuò)數(shù)據(jù)以適配這兩種任務(wù)形式。

具體而言,模型的預(yù)訓(xùn)練包括 2 個(gè)階段。

第一階段為大規(guī)模語(yǔ)音-文本聯(lián)合預(yù)訓(xùn)練,在該階段中 GLM-4-Voice 采用了三種類型的語(yǔ)音數(shù)據(jù):語(yǔ)音-文本交錯(cuò)數(shù)據(jù)、無(wú)監(jiān)督語(yǔ)音數(shù)據(jù)和有監(jiān)督語(yǔ)音-文本數(shù)據(jù),實(shí)現(xiàn)了促進(jìn)文本和語(yǔ)音模態(tài)之間知識(shí)遷移、幫助模型學(xué)習(xí)真實(shí)世界語(yǔ)音特征以及提升模型基本任務(wù)方面性能方面的效果。尤其,GLM-4-Voice-9B 在 GLM-4-9B 的基座模型基礎(chǔ)之上,經(jīng)過(guò)了數(shù)百萬(wàn)小時(shí)音頻和數(shù)千億 token 的音頻文本交錯(cuò)數(shù)據(jù)預(yù)訓(xùn)練,擁有很強(qiáng)的音頻理解和建模能力。

第二階段為監(jiān)督微調(diào)階段,旨在進(jìn)一步提高 GLM-4-Voice 的對(duì)話能力。研究人員使用了兩種類型的對(duì)話數(shù)據(jù),包括多輪對(duì)話數(shù)據(jù)與語(yǔ)音風(fēng)格控制對(duì)話數(shù)據(jù)。前者主要來(lái)自文本數(shù)據(jù),經(jīng)過(guò)精心篩選和語(yǔ)音合成,確保對(duì)話內(nèi)容的質(zhì)量和多樣性。而后者包含高質(zhì)量的對(duì)話數(shù)據(jù),用于訓(xùn)練模型生成不同風(fēng)格和語(yǔ)調(diào)的語(yǔ)音輸出。

此外,在對(duì)齊方面,為了支持高質(zhì)量的語(yǔ)音對(duì)話,降低語(yǔ)音生成的延遲,研究團(tuán)隊(duì)設(shè)計(jì)了一套流式思考架構(gòu):根據(jù)用戶語(yǔ)音,GLM-4-Voice 可以流式交替輸出文本和語(yǔ)音兩個(gè)模態(tài)的內(nèi)容,其中語(yǔ)音模態(tài)以文本作為參照保證回復(fù)內(nèi)容的高質(zhì)量,并根據(jù)用戶的語(yǔ)音指令要求做出相應(yīng)的聲音變化,在最大程度保留語(yǔ)言模型智商的情況下仍然具有端到端建模的能力,同時(shí)具備低延遲性,最低只需要輸出 20 個(gè) token 便可以合成語(yǔ)音。

效果怎么樣?

研究團(tuán)隊(duì)在基礎(chǔ)模型評(píng)估聊天模型評(píng)估兩方面對(duì) GLM-4-Voice 進(jìn)行了性能評(píng)估。

他們首先通過(guò)語(yǔ)音語(yǔ)言建模、語(yǔ)音問(wèn)答以及 ASR 和 TTS 這三項(xiàng)任務(wù)對(duì)基礎(chǔ)模型進(jìn)行了評(píng)估。

在語(yǔ)音語(yǔ)言建模任務(wù)中,GLM-4-Voice 在 Topic-StoryCloze 和 StoryCloze 等數(shù)據(jù)集上的準(zhǔn)確率顯著領(lǐng)先同類模型。在從語(yǔ)音到文本生成(S→T)的任務(wù)中,GLM-4-Voice 的準(zhǔn)確率達(dá)到 93.6%(Topic-StoryCloze),遠(yuǎn)高于其他模型。同時(shí),在語(yǔ)音到語(yǔ)音生成(S→S)的任務(wù)中,GLM-4-Voice 依然在 Topic-StoryCloze 數(shù)據(jù)集中獲得了與 Spirit-LM 相近的高分(82.9%)。

圖片

圖|語(yǔ)音語(yǔ)言建模結(jié)果。

在語(yǔ)音問(wèn)答任務(wù)中,GLM-4-Voice 在 Web Questions、Llama Questions 和 TriviaQA 等數(shù)據(jù)集上全面領(lǐng)先,進(jìn)一步提升了模型在長(zhǎng)上下文交互場(chǎng)景中的適應(yīng)性。

S→T 模態(tài):在所有數(shù)據(jù)集中,GLM-4-Voice 均顯著超過(guò)基線模型,TriviaQA 數(shù)據(jù)集中準(zhǔn)確率達(dá)到 39.1%,相比Moshi提升了 16.3%。

S→S 模態(tài):在語(yǔ)音到語(yǔ)音的問(wèn)答任務(wù)中,GLM-4-Voice 同樣表現(xiàn)優(yōu)異,尤其是在 Llama Questions 中準(zhǔn)確率達(dá)到 50.7%,大幅領(lǐng)先其余模型。

圖片

圖|語(yǔ)音問(wèn)答結(jié)果。

在 ASR 和 TTS 任務(wù)中,GLM-4-Voice 的性能也同樣接近或超越專門設(shè)計(jì)的語(yǔ)音處理模型。

圖片

圖|ASR 和 TTS 結(jié)果。

之后,研究團(tuán)隊(duì)對(duì)聊天模型進(jìn)行了評(píng)估。

為評(píng)估對(duì)話質(zhì)量,研究團(tuán)隊(duì)引入 ChatGPT 作為自動(dòng)評(píng)分工具,對(duì)模型的回答進(jìn)行多維度評(píng)價(jià)。GLM-4-Voice 在常見(jiàn)問(wèn)題(General QA)和知識(shí)問(wèn)答(Knowledge QA)兩類任務(wù)中得分遙遙領(lǐng)先:在 General QA 中 GLM-4-Voice 得分為 5.40,相比 Llama-Omni(3.50)和 Moshi(2.42)提升顯著。在 Knowledge QA 中 GLM-4-Voice 的得分同樣超過(guò)其他模型。

GLM-4-Voice 在語(yǔ)音生成質(zhì)量方面也實(shí)現(xiàn)了新突破。模型主觀評(píng)價(jià)指標(biāo)(MOS)的評(píng)分中達(dá)到 4.45,超越現(xiàn)有基線模型,表明 GLM-4-Voice 生成的語(yǔ)音更加自然流暢,能夠滿足用戶對(duì)高質(zhì)量語(yǔ)音交互的需求。

同時(shí),在文本與語(yǔ)音對(duì)齊性測(cè)試中,GLM-4-Voice 的語(yǔ)音轉(zhuǎn)文本誤差率(ASR-WER)降至 5.74%,顯示出優(yōu)異的文本-語(yǔ)音一致性。這種能力進(jìn)一步提升了模型在多模態(tài)交互中的應(yīng)用潛力。

圖片

圖|聊天模型評(píng)估結(jié)果。

評(píng)估結(jié)果顯示,GLM-4-Voice 在語(yǔ)音語(yǔ)言建模、語(yǔ)音問(wèn)答等任務(wù)上表現(xiàn)卓越,同時(shí)大幅降低了延遲,并顯著提升了語(yǔ)音質(zhì)量和對(duì)話能力,性能超過(guò)現(xiàn)有基線模型。這一創(chuàng)新為構(gòu)建高性能語(yǔ)音交互系統(tǒng)提供了全新路徑,開拓了更廣泛的應(yīng)用可能性。

目前,GLM-4-Voice 已開源,目前已有 2.4k stars。研究團(tuán)隊(duì)表示,這將鼓勵(lì)人們進(jìn)一步探索建立實(shí)用、易用的語(yǔ)音人工智能系統(tǒng)。

作者:阮文韻

評(píng)論
興仁小學(xué)張正梅
大學(xué)士級(jí)
GLM-4-Voice 能夠直接理解和生成中英文語(yǔ)音,進(jìn)行實(shí)時(shí)語(yǔ)音對(duì)話,在情緒感知、情感共鳴、情緒表達(dá)、多語(yǔ)言、多方言等方面實(shí)現(xiàn)突破,且延時(shí)更低,可隨時(shí)打斷。
2024-12-30
科普員趙鵬
太師級(jí)
據(jù)介紹,GLM-4-Voice 能夠直接理解和生成中英文語(yǔ)音,進(jìn)行實(shí)時(shí)語(yǔ)音對(duì)話,在情緒感知、情感共鳴、情緒表達(dá)、多語(yǔ)言、多方言等方面實(shí)現(xiàn)突破,且延時(shí)更低,可隨時(shí)打斷
2024-12-30
臭皮匠心
少傅級(jí)
GLM-4-Voice的出現(xiàn)標(biāo)志著AI語(yǔ)音技術(shù)的一個(gè)重要里程碑。它不僅能夠理解和生成多種語(yǔ)言和方言,還能夠在情緒感知和表達(dá)方面表現(xiàn)出色。這使得AI在模擬人類交流方面更加逼真,也為未來(lái)的AI應(yīng)用提供了更多的可能性。
2024-12-30