資訊文章
供應(yīng)信息
企業(yè)大全
網(wǎng)站技術(shù)
品牌大全
招商商機(jī)
展會(huì)展覽
有問(wèn)有答
資源下載

推廣 熱搜： APP 品牌深圳APP外包公司中國(guó) 發(fā)展吉三代智能出口產(chǎn)業(yè) 手機(jī)

3秒復(fù)制任何人的嗓音！微軟音頻版DALL·E細(xì)思極恐連環(huán)境背景音也能模仿

日期：2023-01-11 來(lái)源：快科技作者：蕭簫瀏覽：47 違規(guī)舉報(bào)

只需3秒鐘,，一個(gè)根本沒(méi)聽(tīng)過(guò)你說(shuō)話的AI,，就能完美模仿出你的聲音,。

是不是細(xì)思極恐,？

這是微軟最新AI成果——語(yǔ)音合成模型VALL·E,，只需3秒語(yǔ)音,，就能隨意復(fù)制任何人的聲音,。

它脫胎于DALL·E，但專攻音頻領(lǐng)域,，語(yǔ)音合成效果在網(wǎng)上放出后火了：

3秒復(fù)制任何人的嗓音,！微軟音頻版DALL·E細(xì)思極恐連環(huán)境背景音也能模仿

有網(wǎng)友表示，要是將VALL·E和ChatGPT結(jié)合起來(lái),，效果簡(jiǎn)直爆炸：

看來(lái)與GPT-4在Zoom里聊天的日子不遠(yuǎn)了,。

3秒復(fù)制任何人的嗓音！微軟音頻版DALL·E細(xì)思極恐連環(huán)境背景音也能模仿

還有網(wǎng)友調(diào)侃,，（繼AI搞定作家,、畫(huà)家之后）下一個(gè)就是配音演員了,。

3秒復(fù)制任何人的嗓音！微軟音頻版DALL·E細(xì)思極恐連環(huán)境背景音也能模仿

所以VALL·E究竟怎么做到3秒鐘模仿“沒(méi)聽(tīng)過(guò)”的聲音,？

用語(yǔ)言模型來(lái)分析音頻

基于AI“沒(méi)聽(tīng)過(guò)”的聲音合成語(yǔ)音,，即零樣本學(xué)習(xí)。

語(yǔ)音合成趨于成熟,，但之前零樣本語(yǔ)音合成效果并不好,。

主流語(yǔ)音合成方案基本是預(yù)訓(xùn)練+微調(diào)模式，如果用到零樣本場(chǎng)景下,，會(huì)導(dǎo)致生成語(yǔ)音相似度和自然度很差,。

基于此，VALL·E橫空出世,，相比主流語(yǔ)音模型提出了不太一樣的思路,。

3秒復(fù)制任何人的嗓音！微軟音頻版DALL·E細(xì)思極恐連環(huán)境背景音也能模仿

相比傳統(tǒng)模型采用梅爾頻譜提取特征,，VALL·E直接將語(yǔ)音合成當(dāng)成了語(yǔ)言模型的任務(wù),，前者是連續(xù)的，后者是離散化的,。

具體來(lái)說(shuō),，傳統(tǒng)語(yǔ)音合成流程往往是“音素→梅爾頻譜（mel-spectrogram）→波形”這樣的路子。

但VALL·E將這一流程變成了“音素→離散音頻編碼→波形”：

3秒復(fù)制任何人的嗓音,！微軟音頻版DALL·E細(xì)思極恐連環(huán)境背景音也能模仿

具體到模型設(shè)計(jì)上,，VALL·E也和VQVAE類似，將音頻量化成一系列離散tokens,，其中第一個(gè)量化器負(fù)責(zé)捕捉音頻內(nèi)容和說(shuō)話者身份特征,，后幾個(gè)量化器則負(fù)責(zé)細(xì)化信號(hào)，使之聽(tīng)起來(lái)更自然：

3秒復(fù)制任何人的嗓音,！微軟音頻版DALL·E細(xì)思極恐連環(huán)境背景音也能模仿

隨后以文本和3秒鐘的聲音提示作為條件,，自回歸地輸出離散音頻編碼：

3秒復(fù)制任何人的嗓音！微軟音頻版DALL·E細(xì)思極恐連環(huán)境背景音也能模仿

VALL·E還是個(gè)全能選手,，除了零樣本語(yǔ)音合成,，同時(shí)還支持語(yǔ)音編輯、與GPT-3結(jié)合的語(yǔ)音內(nèi)容創(chuàng)建,。

那么在實(shí)際測(cè)試中,，VALL·E的效果如何呢？

連環(huán)境背景音都能還原

根據(jù)已合成的語(yǔ)音效果來(lái)看,，VALL·E能還原的絕不僅僅是說(shuō)話人的音色,。

不僅語(yǔ)氣模仿到位，而且還支持多種不同語(yǔ)速的選擇，例如這是在兩次說(shuō)同一句話時(shí),，VALL·E給出的兩種不同語(yǔ)速,，但音色相似度仍然較高：

3秒復(fù)制任何人的嗓音！微軟音頻版DALL·E細(xì)思極恐連環(huán)境背景音也能模仿

同時(shí),，連說(shuō)話者的環(huán)境背景音也能準(zhǔn)確還原,。

除此之外，VALL·E還能模仿說(shuō)話者的多種情緒,，包括憤怒,、困倦、中立,、愉悅和惡心等好幾種類型,。

值得一提的是，VALL·E訓(xùn)練用的數(shù)據(jù)集不算特別大,。

相比OpenAI的Whisper用了68萬(wàn)小時(shí)的音頻訓(xùn)練,，在只用了7000多名演講者、6萬(wàn)小時(shí)訓(xùn)練的情況下,，VALL·E就在語(yǔ)音合成相似度上超過(guò)了經(jīng)過(guò)預(yù)訓(xùn)練的語(yǔ)音合成模型YourTTS,。

而且，YourTTS在訓(xùn)練時(shí),，事先已經(jīng)聽(tīng)過(guò)108個(gè)演講者中的97人聲音,，但在實(shí)際測(cè)試中還是比不過(guò)VALL·E。

3秒復(fù)制任何人的嗓音,！微軟音頻版DALL·E細(xì)思極恐連環(huán)境背景音也能模仿

有網(wǎng)友已經(jīng)在暢想它可以應(yīng)用的地方了：

不僅可以用在模仿自己的聲音上,，例如幫助殘障人士和別人完成對(duì)話，也可以在自己不想說(shuō)話時(shí)用它代替自己發(fā)語(yǔ)音,。

當(dāng)然,，還可以用在有聲書(shū)的錄制上,。

3秒復(fù)制任何人的嗓音,！微軟音頻版DALL·E細(xì)思極恐連環(huán)境背景音也能模仿

不過(guò)，VALL·E目前還沒(méi)開(kāi)源,，要想試用可能還得再等等,。

3秒復(fù)制任何人的嗓音！微軟音頻版DALL·E細(xì)思極恐連環(huán)境背景音也能模仿

作者介紹這篇論文所有作者均來(lái)自微軟,，其中有三位共同一作,。

3秒復(fù)制任何人的嗓音！微軟音頻版DALL·E細(xì)思極恐連環(huán)境背景音也能模仿

一作Chengyi Wang,，南開(kāi)大學(xué)和微軟亞研院聯(lián)合培養(yǎng)博士生,，研究興趣是語(yǔ)音識(shí)別、語(yǔ)音翻譯和語(yǔ)音預(yù)訓(xùn)練模型等。

3秒復(fù)制任何人的嗓音,！微軟音頻版DALL·E細(xì)思極恐連環(huán)境背景音也能模仿

共同一作Sanyuan Chen,，哈工大和微軟亞研院聯(lián)合培養(yǎng)博士生，研究方向包括自監(jiān)督學(xué)習(xí),、NLP和語(yǔ)音處理等,。

3秒復(fù)制任何人的嗓音！微軟音頻版DALL·E細(xì)思極恐連環(huán)境背景音也能模仿

共同一作Yu Wu,，微軟亞研院NLP小組研究員,，在北航獲得博士學(xué)位，研究方向是語(yǔ)音處理,、聊天機(jī)器人系統(tǒng)和機(jī)器翻譯等,。

3秒復(fù)制任何人的嗓音！微軟音頻版DALL·E細(xì)思極恐連環(huán)境背景音也能模仿

感興趣的小伙伴可以戳下方論文地址查看~

論文地址：https://arxiv.org/abs/2301.02111

音頻試聽(tīng)地址：https://valle-demo.github.io/

參考鏈接：https://twitter.com/DrJimFan/status/1611397525541617665

文章出處：量子位

免責(zé)聲明：
1,、本站所收集的部分公開(kāi)資料來(lái)源于互聯(lián)網(wǎng),，轉(zhuǎn)載的目的在于傳遞更多信息及用于網(wǎng)絡(luò)分享，并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),，也不構(gòu)成任何其他建議,。
2、本站部分作品內(nèi)容是由網(wǎng)友自主投稿和發(fā)布,、編輯整理上傳,，對(duì)此類內(nèi)容本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé),，更不為其觀點(diǎn)承擔(dān)任何責(zé)任,。
3、因行業(yè)及專業(yè)性有限,，故未能核驗(yàn)會(huì)員發(fā)布內(nèi)容的真實(shí)性及有效性,，不為其負(fù)責(zé)，如有虛假或違規(guī)內(nèi)容敬請(qǐng)準(zhǔn)備材料圖片發(fā)郵件到info@n#舉報(bào),，本站核實(shí)后積極配合刪除,。
4、如果您發(fā)現(xiàn)網(wǎng)站上有侵犯您的知識(shí)產(chǎn)權(quán)的作品,，請(qǐng)與我們?nèi)〉寐?lián)系,，我們會(huì)及時(shí)處理或刪除。

標(biāo)簽： 音頻微軟環(huán)境背景模型地址

更多>同類資訊文章

0 條相關(guān)評(píng)論

推薦圖文

第八屆中國(guó)國(guó)際管道會(huì)	全國(guó)三八紅旗手｜張
追求卓越· 邁向第一	年薪超47萬(wàn) 15年不用
汽車配件生意怎么做（	武漢一女子懷孕后遭公
賽凡回應(yīng)《流浪地球2	百度：文心一言發(fā)布首

推薦資訊文章

• 下周登場(chǎng),！OpenAI將正式鋪開(kāi)聯(lián)網(wǎng)和“王炸”插件	• 央視3·15晚會(huì)揭穿藥販子套路：免費(fèi)評(píng)書(shū)機(jī)暗藏
• 針對(duì)315曝光問(wèn)題各地連夜行動(dòng)：已調(diào)查免費(fèi)評(píng)書(shū)	• 十大配音兼職平臺(tái)，正規(guī)配音接單平臺(tái)推薦！
• 快手10萬(wàn)紅心有什么用,？短視頻收入怎么算	• 樂(lè)嘉智慧機(jī)
• 電腦怎么用HDMI連接電視,有圖象,沒(méi)聲音,如何解	• 電腦提示音頻服務(wù)未運(yùn)行怎么辦,？
• 詳解win10控制面板命令行是什么	• Windows10中的音量混合器中缺少應(yīng)用程序

3秒復(fù)制任何人的嗓音！微軟音頻版DALL·E細(xì)思極恐 連環(huán)境背景音也能模仿

3秒復(fù)制任何人的嗓音！微軟音頻版DALL·E細(xì)思極恐連環(huán)境背景音也能模仿