系統(tǒng)之家 - 系統(tǒng)光盤下載網(wǎng)站!

當(dāng)前位置:系統(tǒng)之家 > IT快訊 > 詳細(xì)頁面

谷歌人工智能發(fā)展新突破 語言交互將更逼真模擬人聲

編輯:chenbing 2016-09-11 13:20:54 來源于:互聯(lián)網(wǎng)

  據(jù)悉,近日,谷歌DeepMind研究實(shí)驗(yàn)室公布了在計(jì)算機(jī)合成領(lǐng)域的最新成果WaveNet。這就意味著,廣告語言交互研究領(lǐng)域有了新的突破,在計(jì)算機(jī)理解自然語音的能力上有了更大的提升。在模擬人聲的時(shí)候更加的逼真。

  谷歌DeepMind研究實(shí)驗(yàn)室昨天公布了在計(jì)算機(jī)合成領(lǐng)域的最新成果WaveNet,該語音合成系統(tǒng)能夠模仿人類的聲音,生成的原始音頻相比現(xiàn)有的技術(shù)與人類聲音的差異縮小了一半。

  DeepMind在周五發(fā)布的一份博客中稱:“該技術(shù)已經(jīng)通過了美國英語和中文普通話的盲測(cè),聽眾認(rèn)為WaveNet產(chǎn)生的語音聽起來比谷歌現(xiàn)有的語音技術(shù)產(chǎn)生的語音更加自然。不過DeppMind表示,目前這種技術(shù)還沒有被應(yīng)用到谷歌的任何產(chǎn)品中,而且該系統(tǒng)需要強(qiáng)大的計(jì)算能力,近期還不會(huì)應(yīng)用到真實(shí)世界的場(chǎng)景中。

谷歌人工智能發(fā)展新突破 語言交互將更逼真模擬人聲

  讓人類和機(jī)器自由交談是人機(jī)交互研究領(lǐng)域長(zhǎng)久以來的夢(mèng)想。過去幾年,深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用大幅提升了計(jì)算機(jī)理解自然語音的能力。然而,運(yùn)用計(jì)算機(jī)生成語音仍然主要依靠語音合成或者拼接式TTS文本到語言(text to speech)。需要人們先錄制單一說話者的大量語音片段,建立一個(gè)大型數(shù)據(jù)庫,然后將語音片段合成完整的話語。這種語音合成方式的缺陷在于很難對(duì)聲音加以修飾,無法表達(dá)情感。

  為了解決語音合成的這一難題,研究人員嘗試運(yùn)用一種參量改頻式TTS(parametric TTS)。在這種TTS系統(tǒng)中,生成數(shù)據(jù)所需要的所有信息被存儲(chǔ)于模型的參數(shù)中,語音所傳達(dá)的內(nèi)容以及語音特征可以通過模型的輸入信息得以控制。不過現(xiàn)有的參量改頻式TTS生成的語音通常是將輸出的信息交給信號(hào)處理算法去做處理,從而生成音頻信號(hào),因此聽起來還不如拼接式的TTS生成的語音自然。

  WaveNet的突破在于改變了這種利用信號(hào)處理器轉(zhuǎn)化生成音頻信號(hào)的范式,直接使用音頻信號(hào)的原始波形建模,這項(xiàng)技術(shù)基于人工智能神經(jīng)網(wǎng)絡(luò),能夠模仿人類大腦的功能,比如對(duì)于大量信息庫數(shù)據(jù)的處理,因此不僅能夠模仿任何人的聲音,還能生成音樂。在測(cè)試中,WaveNet已經(jīng)通過分析古典音樂生成了鋼琴曲。

  上海威盛電子語音交互部門研發(fā)總監(jiān)張國峰對(duì)第一財(cái)經(jīng)表示:“通過語音特征來生成波形的方式是比較早期的一種技術(shù),它的原理是語音識(shí)別的逆過程,采用的技術(shù)和識(shí)別也比較接近。從描述上來看,DeepMind應(yīng)該是基于深度神經(jīng)網(wǎng)絡(luò)波形生成的語音。這一點(diǎn)和現(xiàn)在的技術(shù)有所不同。深度神經(jīng)網(wǎng)絡(luò)的一個(gè)重要訓(xùn)練方法就是輸出結(jié)果經(jīng)過逆網(wǎng)絡(luò)后重現(xiàn)輸出,也就是自我復(fù)制神經(jīng)網(wǎng)絡(luò)。”

  DeepMind表示,WaveNet還不能馬上做商業(yè)化應(yīng)用,因?yàn)樵撓到y(tǒng)還需要獲得非常強(qiáng)大的計(jì)算能力,每秒鐘需要采集信號(hào)的次數(shù)多達(dá)16000次或者更多。而且對(duì)于采集到的每一個(gè)信號(hào),它都要基于前一個(gè)信號(hào)的樣本,分析預(yù)測(cè)下一個(gè)聲波會(huì)是什么樣子。DeepMind研究人員承認(rèn)這是一個(gè)非常大的挑戰(zhàn)。

  盡管如此,科技公司仍然對(duì)DeepMind此次在語音合成方面取得的進(jìn)展予以極大關(guān)注。人機(jī)交互已經(jīng)成為人們與他們的移動(dòng)電話和汽車取得溝通的重要途徑。亞馬遜、蘋果、微軟和谷歌都在個(gè)人數(shù)字助力的研發(fā)上投入大量資金,希望有朝一日能夠?qū)崿F(xiàn)人類和機(jī)器自然地對(duì)話。芝麻科技創(chuàng)始人CEO朱智對(duì)第一財(cái)經(jīng)表示:“智能設(shè)備的發(fā)展注定了機(jī)器與人溝通的方式越來越重要,它說話說得越順,與人交流就越深入,學(xué)會(huì)說話了,就意味著它像孩子那樣長(zhǎng)大了。”

  谷歌2014年斥資4億英鎊收購了總部位于英國的DeepMind公司。此后DeepMind就一直從事與人工智能相關(guān)的研究。Google Play國際事業(yè)部總監(jiān)Mark Bennett上周在倫敦的一場(chǎng)開發(fā)者會(huì)議上表示,谷歌移動(dòng)端語音搜索的比重已經(jīng)占到20%。

  不過在機(jī)器對(duì)人類語言有了更強(qiáng)的理解能力的同時(shí),他們開口說話的能力并沒有跟上。DeepMind希望WaveNet能夠成為公司的下一個(gè)人工智能主打產(chǎn)品。DeepMind此前因AlphaGo打敗韓國圍棋大師李世石而一鳴驚人。

  截至目前,谷歌依然對(duì)人工智能的應(yīng)用守口如瓶,最近以此谷歌公布人工智能成果在于其對(duì)谷歌數(shù)據(jù)中心的能耗節(jié)省方面做出的貢獻(xiàn)。這也令谷歌能把節(jié)省下來的高達(dá)40%的能源開支用于人工智能的研發(fā)。

  在技術(shù)越來越突飛猛進(jìn)的今天,人工智能的發(fā)展的步伐也將越來越來。廣告的人工智能應(yīng)用將來在各個(gè)領(lǐng)域?qū)?huì)有更大的突破。不過,到底什么時(shí)候能真正實(shí)現(xiàn)人與機(jī)器的自由交流的夢(mèng)想將交給時(shí)間和技術(shù)實(shí)現(xiàn)。相信也就在不久的將來了。

發(fā)表評(píng)論

0

沒有更多評(píng)論了

評(píng)論就這些咯,讓大家也知道你的獨(dú)特見解

立即評(píng)論

以上留言僅代表用戶個(gè)人觀點(diǎn),不代表系統(tǒng)之家立場(chǎng)

官方交流群 軟件收錄