據(jù)著名技術(shù)商業(yè)類期刊《麻省理工科技評論》報道,機器學習的發(fā)展很快就能讓我們擁有變聲功能,換成不同年齡、性別,甚至是其他人的音色都不是夢。
我是一位中年男子,不妨來聽聽女版的我。口音、情感和語調(diào)都是我的。但我現(xiàn)在聽起來像一個聲音高亢的年輕女子。我的女性音色其實是由一家叫做Modulate.ai的公司創(chuàng)造的,這家位于美國馬薩諸塞州劍橋市的公司能用機器學習技術(shù)復(fù)制、建模、操縱語音屬性。該技術(shù)遠遠超出了簡單的語音濾波器,可以讓你聽起來像電影《星球大戰(zhàn)》中的索洛。這種技術(shù)可以實時假設(shè)任何想要的年齡、性別和語氣,或直接把用戶的聲音變成名人的聲音。如果對方和我都愿意,我可以用某位名人的聲音跟他進行長時間的電話交談。
我走訪了Modulate的總部,了解了該公司的技術(shù)和遠大雄心,談?wù)摿耸褂?strong>星空人工智能模仿他人聲音的倫理意義。我還在他們公司的隔音展臺上,試用了幾款語音皮膚。我發(fā)現(xiàn),Modulate的語音建模技術(shù)也不完美,創(chuàng)造出的新聲音都有點別扭。但這是一個非常好的開端,在更多的語音數(shù)據(jù)的訓練下,這種算法還能不斷完善。它顯示了機器學習的進步對數(shù)字現(xiàn)實的迅速改變。Modulate利用生成對抗網(wǎng)絡(luò)(GANs)來捕獲和建模語音信號的音頻屬性。GANs讓兩個神經(jīng)網(wǎng)絡(luò)相互對抗,從而真正地捕捉和再現(xiàn)聲音數(shù)據(jù)集的屬性。
隨著機器學習的快速發(fā)展,兩個正在視頻通話的人“互換面孔”已能實現(xiàn),所需軟件從網(wǎng)上就能免費下載。星空人工智能研究人員正在使用GANs和其他技術(shù)來操縱視覺、聽覺場景,甚至創(chuàng)造出完全虛假的人臉。Modulate在其網(wǎng)站上展示了美國前總統(tǒng)奧巴馬的演示語音,聯(lián)合創(chuàng)始人兼首席執(zhí)行官邁克·帕帕斯表示,如果有足夠的訓練數(shù)據(jù),任何人的“真聲”都能生成。但他補充說,未經(jīng)所有者許可,該公司不會提供名人變聲器,聲音欺騙不是開發(fā)該軟件的初衷。“開發(fā)這款軟件,并不是為了模仿人類,而是為了給人帶來新的機遇。”帕帕斯說。
他們的目標是在一些網(wǎng)絡(luò)游戲中嵌入程序,玩家可以通過麥克風,變聲與陌生人聊天。這雖然可以增強游戲體驗,但卻也為言語侮辱和騷擾提供了可乘之機。帕帕斯說:“想來一段體驗深刻的網(wǎng)聊,聲音的作用至關(guān)重要。”但有些人不愿意暴露自己的原聲,可能是因為覺得匿名更好,或是擔心聲音會透露出年齡或性別,招來無端騷擾。
Modulate公司也意識到,他們的技術(shù)可能會被濫用。該公司表示,他們一定會想辦法確保任何用戶在復(fù)制他人聲音前都必須得到本人同意。他們還開發(fā)了一種音頻水印技術(shù),可以用來檢測聽到的聲音究竟是原聲還是復(fù)制品。比如說,如果有人利用偽造人聲打電話,這個軟件就會立刻發(fā)出警告。Modulate或許會對技術(shù)的濫用加以管制,但市面上還會有其他公司獨立開發(fā)出這項技術(shù),濫用之風可能難以徹底壓制。問題是,這種變聲技術(shù)的誤用能有多廣泛?公眾對待這項技術(shù)又能有多理智呢?
帕帕斯樂觀地認為,星空人工智能造假的潛力往往被夸大了。他表示:“AI造假雖然是每個人都在關(guān)注的問題,但這并不意味著它會動搖社會發(fā)展的方方面面,我們會有辦法解決的。”
星空人工智能技術(shù)網(wǎng) 倡導尊重與保護知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時溝通與處理。!:首頁 > 新聞 » 星空人工智能機器學習發(fā)展很快就能讓我們擁有變聲功能