,

只需3秒學(xué)習(xí)就能克隆別人聲音微軟VALL-E AI模型惹爭議

人閱讀

2023-01-12 13:48:59

來源：極客網(wǎng)
作者：極客AI
相關(guān)關(guān)鍵詞

極客網(wǎng)·人工智能1月12日 訓(xùn)練文本到語音模型通常需要更多或更長的樣本，但微軟開發(fā)的VALL-E可以從三秒鐘的音頻剪輯中克隆出任何人的聲音。網(wǎng)絡(luò)安全專家表示，如果沒有適當(dāng)?shù)南拗拼胧赡鼙挥糜诰W(wǎng)絡(luò)釣魚攻擊或傳播錯(cuò)誤信息。

除了減少生成新聲音的訓(xùn)練時(shí)間之外，VALL-E通過保留原始樣本的語調(diào)、魅力和風(fēng)格，創(chuàng)造出比其他模型更自然的合成聲音。在編寫文本轉(zhuǎn)語音腳本時(shí)，可以根據(jù)需要對這些參數(shù)進(jìn)行調(diào)整。

擁有這些功能意味著，只要從某人的電話、會(huì)談甚至播客中錄下三秒鐘的聲音，該模型就可以將其聲音合成為任何語音，例如可能會(huì)讓政客、演員甚至家庭成員說出轉(zhuǎn)帳或付款的話語。

微軟表示，與之前的合成語音模型相比，VALL-E的性能有所提高，以至于人們很難分辨聲音的真假。

就像用于訓(xùn)練DALL-E2和GPT-3的大型生成式人工智能模型一樣，開發(fā)人員向人工智能系統(tǒng)中輸入了大量的音頻材料進(jìn)行訓(xùn)練。在訓(xùn)練模型時(shí)，他們使用了長達(dá)6萬小時(shí)的演講錄音，其中大部分來自使用視頻會(huì)議Teams應(yīng)用程序錄制的錄音。

VALL-E的使用場景

微軟目前還沒有對外開放VALL-E的代碼，只是發(fā)布了使用該工具生成的示例音頻文件。目前還不清楚微軟何時(shí)或是否計(jì)劃將VALL-E作為公共訪問或商業(yè)工具提供。

人工智能開發(fā)商Tovie.AI首席執(zhí)行官Joshua Kaiser表示，該模型的設(shè)計(jì)方式允許用戶采用更少的數(shù)據(jù)做更多的事情，這對于那些試圖創(chuàng)建語音合成的開發(fā)商來說至關(guān)重要，因?yàn)檫@些公司沒有足夠的數(shù)據(jù)來提高性能。他說：“我們認(rèn)為，這將使許多行業(yè)受益，例如零售業(yè)、金融科技業(yè)以及游戲行業(yè)，這些行業(yè)已經(jīng)開始采用語音界面，使整個(gè)過程更容易訪問。”

Gartner副總裁兼分析師Arun Chandrasekaran表示，VALL-E最大的好處在于其潛在的規(guī)模。它可以在“零樣本”或“少樣本”場景中有效，在這些場景中，很少有特定領(lǐng)域的訓(xùn)練數(shù)據(jù)可用。他說：“此外，如果這些模型可以作為云計(jì)算服務(wù)交付，與傳統(tǒng)方法相比，它們可以減少建立和運(yùn)行模型所需的時(shí)間和精力。”

Chandrasekaran解釋稱，這項(xiàng)技術(shù)在現(xiàn)實(shí)世界中有幾個(gè)用例，包括語音編輯(可以糾正某個(gè)單詞或句子)，不同場景下的語音背景化，交互式虛擬學(xué)習(xí)，以及客戶服務(wù)自動(dòng)化。

VALL-E的使用確實(shí)存在風(fēng)險(xiǎn)，包括欺騙語音識(shí)別或模仿特定的演講者和名人，這可能會(huì)導(dǎo)致錯(cuò)誤信息的快速傳播。這可能是微軟遲遲不發(fā)布該技術(shù)背后的代碼或發(fā)布API的原因，就像OpenAI和其他公司對GPT-3和DALL-E2等文本和圖像生成工具所做的那樣。這將使采用真實(shí)聲音進(jìn)行網(wǎng)絡(luò)釣魚攻擊，或通過YouTube視頻或播客在網(wǎng)上傳播假新聞變得更容易。

VALL-E的欺詐風(fēng)險(xiǎn)

網(wǎng)絡(luò)欺詐可能包括允許網(wǎng)絡(luò)犯罪者訪問使用聲紋作為密碼的銀行或安全系統(tǒng)，盡管其中許多系統(tǒng)都有檢測實(shí)時(shí)聲音還是錄音聲音的機(jī)制。它也可以用于網(wǎng)絡(luò)釣魚騙局，從電話中提取簡短的語音樣本，然后使用該樣本創(chuàng)建一個(gè)新的語音模型，可以更容易地說服某人透露密碼，也可能欺騙一些公司的財(cái)務(wù)經(jīng)理。

互聯(lián)網(wǎng)安全解決方案供應(yīng)商Check Point Software安全工程師Muhammad Yahya Patel表示，VALL-E等技術(shù)的進(jìn)步不應(yīng)該令人擔(dān)憂，但仍應(yīng)謹(jǐn)慎對待此類系統(tǒng)。他說，“盡管VALL-E有其顯著的優(yōu)點(diǎn)，但隨著它越來越成熟并融入我們的日常生活，微軟新的VALL-E文本到語音模型可能會(huì)對網(wǎng)絡(luò)安全產(chǎn)生一些令人擔(dān)憂的影響。如果說我們從去年吸取了什么教訓(xùn)的話，那就是網(wǎng)絡(luò)犯罪分子會(huì)利用任何途徑誘騙毫無戒心的受害者，讓他們透露重要的密碼或財(cái)務(wù)信息。詐騙電話是威脅行為者常用的一種方法，考慮到這些活動(dòng)的成功率，這種擔(dān)憂是有充分理由的?！?nbsp;

他表示，這項(xiàng)新技術(shù)可能會(huì)給網(wǎng)絡(luò)犯罪分子提供升級(jí)技術(shù)的機(jī)會(huì)，并引入個(gè)人元素，包括允許他們模仿受害者熟悉的人員的聲音?！斑@將使任何人都很難區(qū)分他們信任的人的請求和網(wǎng)絡(luò)罪犯分子的請求。同樣，隨著我們走向銀行現(xiàn)在都在使用語音認(rèn)證來授權(quán)交易的時(shí)代，很容易看到網(wǎng)絡(luò)犯罪分子以個(gè)人為目標(biāo)獲得帳戶的訪問權(quán)限。關(guān)鍵是要理解黑客利用新技術(shù)的機(jī)會(huì)，并因此采取必要的預(yù)防措施?！?nbsp;

行業(yè)媒體已經(jīng)聯(lián)系微軟就其如何減輕VALL-E的潛在濫用發(fā)表評(píng)論，但未予置評(píng)。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）