只需3秒學(xué)習(xí)就能克隆別人聲音 微軟VALL-E AI模型惹爭議

極客網(wǎng)·人工智能1月12日 訓(xùn)練文本到語音模型通常需要更多或更長的樣本,但微軟開發(fā)的VALL-E可以從三秒鐘的音頻剪輯中克隆出任何人的聲音。網(wǎng)絡(luò)安全專家表示,如果沒有適當(dāng)?shù)南拗拼胧?,它可能被用于網(wǎng)絡(luò)釣魚攻擊或傳播錯(cuò)誤信息。

image001.png除了減少生成新聲音的訓(xùn)練時(shí)間之外,VALL-E通過保留原始樣本的語調(diào)、魅力和風(fēng)格,創(chuàng)造出比其他模型更自然的合成聲音。在編寫文本轉(zhuǎn)語音腳本時(shí),可以根據(jù)需要對這些參數(shù)進(jìn)行調(diào)整。 

擁有這些功能意味著,只要從某人的電話、會(huì)談甚至播客中錄下三秒鐘的聲音,該模型就可以將其聲音合成為任何語音,例如可能會(huì)讓政客、演員甚至家庭成員說出轉(zhuǎn)帳或付款的話語。 

微軟表示,與之前的合成語音模型相比,VALL-E的性能有所提高,以至于人們很難分辨聲音的真假。 

就像用于訓(xùn)練DALL-E2和GPT-3的大型生成式人工智能模型一樣,開發(fā)人員向人工智能系統(tǒng)中輸入了大量的音頻材料進(jìn)行訓(xùn)練。在訓(xùn)練模型時(shí),他們使用了長達(dá)6萬小時(shí)的演講錄音,其中大部分來自使用視頻會(huì)議Teams應(yīng)用程序錄制的錄音。 

VALL-E的使用場景 

微軟目前還沒有對外開放VALL-E的代碼,只是發(fā)布了使用該工具生成的示例音頻文件。目前還不清楚微軟何時(shí)或是否計(jì)劃將VALL-E作為公共訪問或商業(yè)工具提供。 

人工智能開發(fā)商Tovie.AI首席執(zhí)行官Joshua Kaiser表示,該模型的設(shè)計(jì)方式允許用戶采用更少的數(shù)據(jù)做更多的事情,這對于那些試圖創(chuàng)建語音合成的開發(fā)商來說至關(guān)重要,因?yàn)檫@些公司沒有足夠的數(shù)據(jù)來提高性能。他說:“我們認(rèn)為,這將使許多行業(yè)受益,例如零售業(yè)、金融科技業(yè)以及游戲行業(yè),這些行業(yè)已經(jīng)開始采用語音界面,使整個(gè)過程更容易訪問?!?/p>

Gartner副總裁兼分析師Arun Chandrasekaran表示,VALL-E最大的好處在于其潛在的規(guī)模。它可以在“零樣本”或“少樣本”場景中有效,在這些場景中,很少有特定領(lǐng)域的訓(xùn)練數(shù)據(jù)可用。他說:“此外,如果這些模型可以作為云計(jì)算服務(wù)交付,與傳統(tǒng)方法相比,它們可以減少建立和運(yùn)行模型所需的時(shí)間和精力?!?nbsp;

Chandrasekaran解釋稱,這項(xiàng)技術(shù)在現(xiàn)實(shí)世界中有幾個(gè)用例,包括語音編輯(可以糾正某個(gè)單詞或句子),不同場景下的語音背景化,交互式虛擬學(xué)習(xí),以及客戶服務(wù)自動(dòng)化。 

VALL-E的使用確實(shí)存在風(fēng)險(xiǎn),包括欺騙語音識(shí)別或模仿特定的演講者和名人,這可能會(huì)導(dǎo)致錯(cuò)誤信息的快速傳播。這可能是微軟遲遲不發(fā)布該技術(shù)背后的代碼或發(fā)布API的原因,就像OpenAI和其他公司對GPT-3和DALL-E2等文本和圖像生成工具所做的那樣。這將使采用真實(shí)聲音進(jìn)行網(wǎng)絡(luò)釣魚攻擊,或通過YouTube視頻或播客在網(wǎng)上傳播假新聞變得更容易。

VALL-E的欺詐風(fēng)險(xiǎn) 

網(wǎng)絡(luò)欺詐可能包括允許網(wǎng)絡(luò)犯罪者訪問使用聲紋作為密碼的銀行或安全系統(tǒng),盡管其中許多系統(tǒng)都有檢測實(shí)時(shí)聲音還是錄音聲音的機(jī)制。它也可以用于網(wǎng)絡(luò)釣魚騙局,從電話中提取簡短的語音樣本,然后使用該樣本創(chuàng)建一個(gè)新的語音模型,可以更容易地說服某人透露密碼,也可能欺騙一些公司的財(cái)務(wù)經(jīng)理。 

互聯(lián)網(wǎng)安全解決方案供應(yīng)商Check Point Software安全工程師Muhammad Yahya Patel表示,VALL-E等技術(shù)的進(jìn)步不應(yīng)該令人擔(dān)憂,但仍應(yīng)謹(jǐn)慎對待此類系統(tǒng)。他說,“盡管VALL-E有其顯著的優(yōu)點(diǎn),但隨著它越來越成熟并融入我們的日常生活,微軟新的VALL-E文本到語音模型可能會(huì)對網(wǎng)絡(luò)安全產(chǎn)生一些令人擔(dān)憂的影響。如果說我們從去年吸取了什么教訓(xùn)的話,那就是網(wǎng)絡(luò)犯罪分子會(huì)利用任何途徑誘騙毫無戒心的受害者,讓他們透露重要的密碼或財(cái)務(wù)信息。詐騙電話是威脅行為者常用的一種方法,考慮到這些活動(dòng)的成功率,這種擔(dān)憂是有充分理由的。” 

他表示,這項(xiàng)新技術(shù)可能會(huì)給網(wǎng)絡(luò)犯罪分子提供升級(jí)技術(shù)的機(jī)會(huì),并引入個(gè)人元素,包括允許他們模仿受害者熟悉的人員的聲音。“這將使任何人都很難區(qū)分他們信任的人的請求和網(wǎng)絡(luò)罪犯分子的請求。同樣,隨著我們走向銀行現(xiàn)在都在使用語音認(rèn)證來授權(quán)交易的時(shí)代,很容易看到網(wǎng)絡(luò)犯罪分子以個(gè)人為目標(biāo)獲得帳戶的訪問權(quán)限。關(guān)鍵是要理解黑客利用新技術(shù)的機(jī)會(huì),并因此采取必要的預(yù)防措施。” 

行業(yè)媒體已經(jīng)聯(lián)系微軟就其如何減輕VALL-E的潛在濫用發(fā)表評(píng)論,但未予置評(píng)。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2023-01-12
只需3秒學(xué)習(xí)就能克隆別人聲音 微軟VALL-E AI模型惹爭議
極客網(wǎng)·人工智能1月12日 訓(xùn)練文本到語音模型通常需要更多或更長的樣本,但微軟開發(fā)的VALL-E可以從三秒鐘的音頻剪輯中克隆出任何人的聲音。網(wǎng)絡(luò)安全專家表示,如果沒有適當(dāng)?shù)南拗拼胧赡鼙挥糜诰W(wǎng)絡(luò)釣魚攻擊或傳播錯(cuò)誤信息。除了減少生成新聲音的訓(xùn)練時(shí)間之外,VALL-E通過保留原...

長按掃碼 閱讀全文