當(dāng)前位置：系統(tǒng)之家 > IT快訊 > 詳細(xì)頁面

谷歌人工智能發(fā)展新突破語言交互將更逼真模擬人聲

編輯：chenbing 2016-09-11 13:20:54 來源于：互聯(lián)網(wǎng)

　　據(jù)悉，近日，谷歌DeepMind研究實(shí)驗(yàn)室公布了在計(jì)算機(jī)合成領(lǐng)域的最新成果WaveNet。這就意味著，廣告語言交互研究領(lǐng)域有了新的突破，在計(jì)算機(jī)理解自然語音的能力上有了更大的提升。在模擬人聲的時(shí)候更加的逼真。

　　谷歌DeepMind研究實(shí)驗(yàn)室昨天公布了在計(jì)算機(jī)合成領(lǐng)域的最新成果WaveNet，該語音合成系統(tǒng)能夠模仿人類的聲音，生成的原始音頻相比現(xiàn)有的技術(shù)與人類聲音的差異縮小了一半。

　　DeepMind在周五發(fā)布的一份博客中稱：“該技術(shù)已經(jīng)通過了美國英語和中文普通話的盲測(cè)，聽眾認(rèn)為WaveNet產(chǎn)生的語音聽起來比谷歌現(xiàn)有的語音技術(shù)產(chǎn)生的語音更加自然。不過DeppMind表示，目前這種技術(shù)還沒有被應(yīng)用到谷歌的任何產(chǎn)品中，而且該系統(tǒng)需要強(qiáng)大的計(jì)算能力，近期還不會(huì)應(yīng)用到真實(shí)世界的場(chǎng)景中。

　　讓人類和機(jī)器自由交談是人機(jī)交互研究領(lǐng)域長(zhǎng)久以來的夢(mèng)想。過去幾年，深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用大幅提升了計(jì)算機(jī)理解自然語音的能力。然而，運(yùn)用計(jì)算機(jī)生成語音仍然主要依靠語音合成或者拼接式TTS文本到語言（text to speech）。需要人們先錄制單一說話者的大量語音片段，建立一個(gè)大型數(shù)據(jù)庫，然后將語音片段合成完整的話語。這種語音合成方式的缺陷在于很難對(duì)聲音加以修飾，無法表達(dá)情感。

　　為了解決語音合成的這一難題，研究人員嘗試運(yùn)用一種參量改頻式TTS（parametric TTS）。在這種TTS系統(tǒng)中，生成數(shù)據(jù)所需要的所有信息被存儲(chǔ)于模型的參數(shù)中，語音所傳達(dá)的內(nèi)容以及語音特征可以通過模型的輸入信息得以控制。不過現(xiàn)有的參量改頻式TTS生成的語音通常是將輸出的信息交給信號(hào)處理算法去做處理，從而生成音頻信號(hào)，因此聽起來還不如拼接式的TTS生成的語音自然。

　　WaveNet的突破在于改變了這種利用信號(hào)處理器轉(zhuǎn)化生成音頻信號(hào)的范式，直接使用音頻信號(hào)的原始波形建模，這項(xiàng)技術(shù)基于人工智能神經(jīng)網(wǎng)絡(luò)，能夠模仿人類大腦的功能，比如對(duì)于大量信息庫數(shù)據(jù)的處理，因此不僅能夠模仿任何人的聲音，還能生成音樂。在測(cè)試中，WaveNet已經(jīng)通過分析古典音樂生成了鋼琴曲。

　　上海威盛電子語音交互部門研發(fā)總監(jiān)張國峰對(duì)第一財(cái)經(jīng)表示：“通過語音特征來生成波形的方式是比較早期的一種技術(shù)，它的原理是語音識(shí)別的逆過程，采用的技術(shù)和識(shí)別也比較接近。從描述上來看，DeepMind應(yīng)該是基于深度神經(jīng)網(wǎng)絡(luò)波形生成的語音。這一點(diǎn)和現(xiàn)在的技術(shù)有所不同。深度神經(jīng)網(wǎng)絡(luò)的一個(gè)重要訓(xùn)練方法就是輸出結(jié)果經(jīng)過逆網(wǎng)絡(luò)后重現(xiàn)輸出，也就是自我復(fù)制神經(jīng)網(wǎng)絡(luò)。”

　　DeepMind表示，WaveNet還不能馬上做商業(yè)化應(yīng)用，因?yàn)樵撓到y(tǒng)還需要獲得非常強(qiáng)大的計(jì)算能力，每秒鐘需要采集信號(hào)的次數(shù)多達(dá)16000次或者更多。而且對(duì)于采集到的每一個(gè)信號(hào)，它都要基于前一個(gè)信號(hào)的樣本，分析預(yù)測(cè)下一個(gè)聲波會(huì)是什么樣子。DeepMind研究人員承認(rèn)這是一個(gè)非常大的挑戰(zhàn)。

　　盡管如此，科技公司仍然對(duì)DeepMind此次在語音合成方面取得的進(jìn)展予以極大關(guān)注。人機(jī)交互已經(jīng)成為人們與他們的移動(dòng)電話和汽車取得溝通的重要途徑。亞馬遜、蘋果、微軟和谷歌都在個(gè)人數(shù)字助力的研發(fā)上投入大量資金，希望有朝一日能夠?qū)崿F(xiàn)人類和機(jī)器自然地對(duì)話。芝麻科技創(chuàng)始人CEO朱智對(duì)第一財(cái)經(jīng)表示：“智能設(shè)備的發(fā)展注定了機(jī)器與人溝通的方式越來越重要，它說話說得越順，與人交流就越深入，學(xué)會(huì)說話了，就意味著它像孩子那樣長(zhǎng)大了。”

　　谷歌2014年斥資4億英鎊收購了總部位于英國的DeepMind公司。此后DeepMind就一直從事與人工智能相關(guān)的研究。Google Play國際事業(yè)部總監(jiān)Mark Bennett上周在倫敦的一場(chǎng)開發(fā)者會(huì)議上表示，谷歌移動(dòng)端語音搜索的比重已經(jīng)占到20%。

　　不過在機(jī)器對(duì)人類語言有了更強(qiáng)的理解能力的同時(shí)，他們開口說話的能力并沒有跟上。DeepMind希望WaveNet能夠成為公司的下一個(gè)人工智能主打產(chǎn)品。DeepMind此前因AlphaGo打敗韓國圍棋大師李世石而一鳴驚人。

　　截至目前，谷歌依然對(duì)人工智能的應(yīng)用守口如瓶，最近以此谷歌公布人工智能成果在于其對(duì)谷歌數(shù)據(jù)中心的能耗節(jié)省方面做出的貢獻(xiàn)。這也令谷歌能把節(jié)省下來的高達(dá)40%的能源開支用于人工智能的研發(fā)。

　　在技術(shù)越來越突飛猛進(jìn)的今天，人工智能的發(fā)展的步伐也將越來越來。廣告的人工智能應(yīng)用將來在各個(gè)領(lǐng)域?qū)?huì)有更大的突破。不過，到底什么時(shí)候能真正實(shí)現(xiàn)人與機(jī)器的自由交流的夢(mèng)想將交給時(shí)間和技術(shù)實(shí)現(xiàn)。相信也就在不久的將來了。