合成數(shù)據(jù)即將改變?nèi)斯ぶ悄?/h1>

想象一下,如果有可能以廉價和快速的方式生產(chǎn)出無限量的世界上最有價值的資源。那么,這將會帶來什么樣的巨大經(jīng)濟(jì)轉(zhuǎn)型和機(jī)遇呢?

這這就是今天的現(xiàn)實(shí),它被稱為合成數(shù)據(jù)。

合成數(shù)據(jù)并不是一個新想法,但就現(xiàn)實(shí)世界的影響而言,其現(xiàn)在正接近一個關(guān)鍵的拐點(diǎn)。它有望顛覆人工智能的整個價值鏈和技術(shù)堆棧,并產(chǎn)生巨大的經(jīng)濟(jì)影響。

數(shù)據(jù)是現(xiàn)代人工智能的命脈。獲取正確的數(shù)據(jù)是構(gòu)建強(qiáng)大 AI 的最重要和最具挑戰(zhàn)性的部分。從現(xiàn)實(shí)世界中收集高質(zhì)量數(shù)據(jù)是復(fù)雜、昂貴且耗時的。這就是合成數(shù)據(jù)的價值所在。

合成數(shù)據(jù)是一個非常簡單的概念——其中一個想法似乎好得令人難以置信。簡而言之,合成數(shù)據(jù)技術(shù)使從業(yè)者能夠簡單地以數(shù)字方式生成他們需要的數(shù)據(jù),無論他們需要多少數(shù)量,都可以根據(jù)他們的精確規(guī)格定制。

根據(jù)一項廣泛引用的 Gartner 研究,到 2024 年,用于人工智能開發(fā)的所有數(shù)據(jù)中,60% 將是合成的,而不是真實(shí)的。

花點(diǎn)時間消化一下。這是一個驚人的預(yù)測。

數(shù)據(jù)是現(xiàn)代經(jīng)濟(jì)的基礎(chǔ)。用《經(jīng)濟(jì)學(xué)人》的話說,它是“世界上最寶貴的資源”。在短短幾年內(nèi),用于人工智能的大部分?jǐn)?shù)據(jù)可能來自一個顛覆性的新來源——如今很少有企業(yè)了解甚至不知道。

不用說,這將帶來巨大的商業(yè)機(jī)會。

合成數(shù)據(jù)初創(chuàng)公司Datagen的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Ofir Zuk表示 :“我們可以簡單地說,合成數(shù)據(jù)的總目標(biāo)市場和數(shù)據(jù)的總目標(biāo)市場將會融合。”

合成數(shù)據(jù)的興起將徹底改變數(shù)據(jù)的經(jīng)濟(jì)、所有權(quán)、戰(zhàn)略動態(tài),甚至(地緣)政治。這是一項值得關(guān)注的技術(shù)。

從自動駕駛汽車到人臉

雖然合成數(shù)據(jù)的概念已經(jīng)存在了幾十年,但從 2010 年代中期開始,該技術(shù)首次在自動駕駛汽車領(lǐng)域得到了廣泛的商業(yè)應(yīng)用。

合成數(shù)據(jù)開始出現(xiàn)在自動駕駛汽車領(lǐng)域也就不足為奇了。首先,因?yàn)?AV(Audio and Video)領(lǐng)域吸引了更多的機(jī)器學(xué)習(xí)人才和投資資金,甚至可能比任何其他人工智能商業(yè)應(yīng)用都要多,它通常是合成數(shù)據(jù)等基礎(chǔ)創(chuàng)新的催化劑。

鑒于 AV 世界中“邊緣案例”的挑戰(zhàn)和重要性,合成數(shù)據(jù)和自動駕駛汽車特別適合彼此。為自動駕駛汽車在道路上可能遇到的每個可能場景收集真實(shí)世界的駕駛數(shù)據(jù)是不可能的。鑒于世界是多么不可預(yù)測和未知情況,實(shí)際上需要數(shù)百年的真實(shí)駕駛才能收集構(gòu)建真正安全的自動駕駛汽車所需的所有數(shù)據(jù)。

因此,自動駕駛汽車公司開發(fā)了復(fù)雜的模擬引擎來綜合生成必要的數(shù)據(jù)量,并有效地將他們的人工智能系統(tǒng)暴露在駕駛場景的“長尾”中。這些模擬世界可以自動生成任何可以想象的駕駛場景的數(shù)千或數(shù)百萬個排列——例如,改變其他汽車的位置、添加或移除行人、增加或降低車速、調(diào)整天氣等等。

多年來,領(lǐng)先的自動駕駛汽車廠商——Waymo、Cruise、Aurora、Zoox——都在合成數(shù)據(jù)和模擬方面進(jìn)行了大量投資,并將其作為其技術(shù)堆棧的核心部分。例如,2016 年,Waymo生成了 25 億英里的模擬駕駛數(shù)據(jù)來訓(xùn)練其自動駕駛系統(tǒng)(相比之下,從現(xiàn)實(shí)世界收集的駕駛數(shù)據(jù)僅為 300 萬英里)。到 2019 年,這一數(shù)字已達(dá)到100 億英里。

正如 Andreessen Horowitz 的合伙人 Chris Dixon在 2017 年所說:“現(xiàn)在,你幾乎可以通過他們對模擬的認(rèn)真程度來衡量自主團(tuán)隊——無人機(jī)團(tuán)隊、汽車團(tuán)隊的成熟度?!?/p>

因此,出現(xiàn)的第一批合成數(shù)據(jù)初創(chuàng)公司瞄準(zhǔn)了自動駕駛汽車終端市場。其中包括 Applied Intuition(最近估值為 36 億美元)、Parallel Domain 和 Cognata 等公司。

但沒過多久,人工智能企業(yè)家就認(rèn)識到,為自動駕駛汽車行業(yè)開發(fā)的合成數(shù)據(jù)功能可以推廣并應(yīng)用于許多其他計算機(jī)視覺應(yīng)用。

從機(jī)器人技術(shù)到物理安全,從地理空間圖像到制造,近年來計算機(jī)視覺在整個經(jīng)濟(jì)中發(fā)現(xiàn)了廣泛的有價值的應(yīng)用。對于所有這些用例,構(gòu)建 AI 模型需要大量的標(biāo)記圖像數(shù)據(jù)。

合成數(shù)據(jù)在這里代表了一個強(qiáng)大的解決方案。

使用合成數(shù)據(jù)方法,企業(yè)可以比其他方法更快、更便宜地獲取訓(xùn)練數(shù)據(jù)——即從現(xiàn)實(shí)世界中費(fèi)力地收集數(shù)據(jù)。想象一下,在系統(tǒng)上人工生成 100,000 張智能手機(jī)圖像比在現(xiàn)實(shí)世界中一張一張地收集這些圖像要容易得多。

重要的是,現(xiàn)實(shí)世界的圖像數(shù)據(jù)必須先手動標(biāo)記,然后才能用于訓(xùn)練 AI 模型——這是一個昂貴、耗時且容易出錯的過程。合成數(shù)據(jù)的一個關(guān)鍵優(yōu)勢是不需要手動數(shù)據(jù)標(biāo)記:因?yàn)閳D像首先是從頭開始以數(shù)字方式定制的,所以它們會自動帶有“像素完美”的標(biāo)簽。

計算機(jī)視覺的合成數(shù)據(jù)究竟是如何工作的?如何人工生成如此高保真、逼真的圖像數(shù)據(jù)?

合成數(shù)據(jù)核心的一項關(guān)鍵人工智能技術(shù)被稱為生成對抗網(wǎng)絡(luò)或 GAN。

GAN由 AI 先驅(qū) Ian Goodfellow于 2014 年發(fā)明,自那時以來一直是研究和創(chuàng)新的活躍領(lǐng)域。Goodfellow 的核心概念突破是用兩個獨(dú)立的神經(jīng)網(wǎng)絡(luò)構(gòu)建 GAN,然后讓它們相互對抗。

從給定的數(shù)據(jù)集(例如,人臉照片的集合)開始,第一個神經(jīng)網(wǎng)絡(luò)(稱為“生成器”)開始生成新圖像,就像素而言,這些圖像在數(shù)學(xué)上與現(xiàn)有圖像相似。同時,第二個神經(jīng)網(wǎng)絡(luò)(“鑒別器”)被輸入照片,而不會被告知它們是來自原始數(shù)據(jù)集還是來自生成器的輸出;它的任務(wù)是識別哪些照片是合成生成的。

當(dāng)這兩個網(wǎng)絡(luò)迭代地相互對抗時——生成器試圖欺騙鑒別器,鑒別器試圖停止生成器的創(chuàng)造——它們相互磨練彼此的能力。最終判別器的分類成功率下降到 50%,并不比隨機(jī)猜測好,這意味著合成生成的照片已經(jīng)與原件無法區(qū)分。

2016 年,人工智能巨匠 Yann LeCun稱GAN 是“機(jī)器學(xué)習(xí)過去十年中最有趣的想法”。

推動視覺合成數(shù)據(jù)近期發(fā)展勢頭的另外兩個重要研究進(jìn)展是擴(kuò)散模型和神經(jīng)輻射場(NeRF)。

最初受熱力學(xué)概念的啟發(fā),擴(kuò)散模型通過增加噪聲破壞訓(xùn)練數(shù)據(jù)來學(xué)習(xí),然后找出如何逆轉(zhuǎn)這種噪聲過程以恢復(fù)原始圖像。一旦經(jīng)過訓(xùn)練,擴(kuò)散模型就可以應(yīng)用這些去噪方法從隨機(jī)輸入中合成新穎的“干凈”數(shù)據(jù)。

擴(kuò)散模型在過去一年中大受歡迎,包括作為DALL-E 2的技術(shù)支柱,這是OpenAI 備受討論的新文本到圖像模型。與 GAN 相比,具有一些有意義的優(yōu)勢,預(yù)計擴(kuò)散模型將在生成 AI 的世界中發(fā)揮越來越重要的作用。

與此同時,NeRF 是一種強(qiáng)大的新方法,可以快速準(zhǔn)確地將二維圖像轉(zhuǎn)換為復(fù)雜的三維場景,然后可以對其進(jìn)行操作和導(dǎo)航以生成多樣化的高保真合成數(shù)據(jù)。

為計算機(jī)視覺提供合成數(shù)據(jù)解決方案的兩家領(lǐng)先初創(chuàng)公司是 Datagen(最近宣布了 5000 萬美元的 B輪融資)和 Synthesis AI(最近宣布了 1700 萬美元的 A 輪融資)。兩家公司都專注于人類數(shù)據(jù),尤其是人臉;他們的平臺使用戶能夠以編程方式自定義跨維度的面部數(shù)據(jù)集,包括頭部姿勢、面部表情、種族、注視方向和發(fā)型。

AI.Reverie 是這一領(lǐng)域的先行者,去年被 Facebook 收購——這表明大型科技公司對合成數(shù)據(jù)越來越感興趣。早期創(chuàng)業(yè)公司包括 Rendered.ai、Bifrost 和 Mirage。

循環(huán)往復(fù),雖然幾年前自動駕駛汽車為合成數(shù)據(jù)的增長提供了原始動力,但時至今日,自動駕駛汽車行業(yè)仍在繼續(xù)推動該領(lǐng)域的最新發(fā)展。

Waabi 是自動駕駛汽車類別中最引人入勝的新創(chuàng)業(yè)公司之一,他將模擬技術(shù)提升到了一個新的水平。Waabi 由曾負(fù)責(zé) Uber 的 AV 研究工作的 AI 杰出人物 Raquel Urtasun 創(chuàng)立,去年憑借一支星光熠熠的團(tuán)隊和超過 8000 萬美元的資金脫穎而出。

Waabi 的目標(biāo)是通過利用下一代 AI 構(gòu)建一種新型的自主堆棧,避免更多傳統(tǒng)方法的缺點(diǎn),從而超越更成熟的 AV 玩家。該堆棧的中心是合成數(shù)據(jù)。

與 AV 領(lǐng)域的其他公司相比,Waabi 沒有大量投資于在現(xiàn)實(shí)世界的道路上部署汽車以收集駕駛數(shù)據(jù)。相反,Waabi 大膽地尋求主要通過虛擬仿真來訓(xùn)練其自主系統(tǒng)。2 月,該公司公開推出了名為Waabi World的尖端模擬平臺。

“在 Waabi,我們在生成合成數(shù)據(jù)方面更進(jìn)一步,”Urtasun 說?!拔覀儾粌H可以近乎實(shí)時地以前所未有的保真度模擬車輛的傳感器,而且我們以閉環(huán)方式進(jìn)行模擬,以便環(huán)境對我們做出反應(yīng),我們也對其做出反應(yīng)。這對于自動駕駛汽車等機(jī)器人系統(tǒng)非常重要,因?yàn)槲覀儾粌H需要學(xué)習(xí)感知世界,還需要安全地采取行動?!?/p>語言至上

雖然合成數(shù)據(jù)將改變計算機(jī)視覺的游戲規(guī)則,但該技術(shù)將在另一個領(lǐng)域釋放更多的轉(zhuǎn)變和機(jī)會:語言。

基于文本的合成數(shù)據(jù)的巨大潛力反映了語言在人類事務(wù)中無處不在的基本現(xiàn)實(shí);它基本上是所有重要商業(yè)活動的核心。自然語言處理 (NLP) 的最新進(jìn)展為整個經(jīng)濟(jì)領(lǐng)域的價值創(chuàng)造提供了幾乎無限的機(jī)會。合成數(shù)據(jù)在這里可以發(fā)揮關(guān)鍵作用。

以下幾個具體的例子將有助于說明這種可能性。

Anthem 是世界上最大的健康保險公司之一,它使用其大量的患者醫(yī)療記錄和索賠數(shù)據(jù)來支持人工智能應(yīng)用,例如自動欺詐檢測和個性化患者護(hù)理。

上個月,Anthem宣布與 Google Cloud 合作生成大量合成文本數(shù)據(jù),以改進(jìn)和擴(kuò)展這些 AI 用例。例如,這個合成數(shù)據(jù)語料庫將包括人工生成的病史、醫(yī)療保健索賠和相關(guān)的醫(yī)療數(shù)據(jù),這些數(shù)據(jù)保留了真實(shí)患者數(shù)據(jù)的結(jié)構(gòu)和“信號”。

除其他好處外,合成數(shù)據(jù)直接解決了多年來阻礙人工智能在醫(yī)療保健中部署的數(shù)據(jù)隱私問題。在真實(shí)患者數(shù)據(jù)上訓(xùn)練 AI 模型會帶來棘手的隱私問題,但當(dāng)數(shù)據(jù)被合成時,這些問題就會消失。

Anthem 的首席信息官 Anil Bhatt說:“越來越多……合成數(shù)據(jù)將超越并成為人們未來使用 AI 的方式?!?/p>

最近的另一個例子暗示了更具變革性的可能性。

去年年底,全球領(lǐng)先的基因測序公司 Illumina宣布與初創(chuàng)公司 Gretel.ai 合作創(chuàng)建合成基因組數(shù)據(jù)集。

基因組數(shù)據(jù)是世界上最復(fù)雜、多維、信息豐富的數(shù)據(jù)類型之一。從字面上看,它包含了生命的秘密——如何構(gòu)建有機(jī)體的說明。長度超過 30 億個堿基對,每個人獨(dú)特的 DNA 序列在很大程度上定義了他們的身份,從身高到眼睛顏色,再到患心臟病或藥物濫用的風(fēng)險。(雖然不是自然語言,但基因組序列是文本數(shù)據(jù);每個人的 DNA 序列都可以通過簡單的 4 個字母“字母表”進(jìn)行編碼。)

使用領(lǐng)先的人工智能分析人類基因組,使研究人員能夠更深入地了解疾病、健康以及生命本身的運(yùn)作方式。但由于基因組數(shù)據(jù)的可用性有限,這項研究受到了瓶頸。圍繞人類基因數(shù)據(jù)的嚴(yán)格隱私法規(guī)和數(shù)據(jù)共享限制阻礙了研究人員大規(guī)模處理基因組數(shù)據(jù)集的能力。

合成數(shù)據(jù)提供了一種潛在的革命性解決方案:它可以復(fù)制真實(shí)基因組數(shù)據(jù)集的特征和信號,同時回避這些數(shù)據(jù)隱私問題,因?yàn)閿?shù)據(jù)是人工生成的,并不對應(yīng)于現(xiàn)實(shí)世界中的任何特定個體。

當(dāng)涉及到由合成數(shù)據(jù)解鎖的各種基于語言的機(jī)會時,這兩個例子只是冰山一角。

近年來出現(xiàn)了一些有前途的初創(chuàng)公司來尋求這些機(jī)會。

這一類別中最著名的初創(chuàng)公司是上文提到的 Gretel.ai,迄今為止,該公司已從 Greylock 和其他人那里籌集了超過 6500 萬美元的資金。

從醫(yī)療保健到金融服務(wù),從游戲到電子商務(wù),各行各業(yè)的藍(lán)籌客戶對其技術(shù)有著強(qiáng)勁的市場需求。

Gretel.ai 首席執(zhí)行官/聯(lián)合創(chuàng)始人 Ali Golshan 說:“看到客戶開始以如此快的速度采用合成數(shù)據(jù)真是令人驚訝?!薄凹词古c 12 或 18 個月前相比,企業(yè)對合成數(shù)據(jù)的認(rèn)識和需求也在快速增長。我們的客戶繼續(xù)以創(chuàng)新的新方式應(yīng)用我們的技術(shù)給我們帶來驚喜。”

該領(lǐng)域另一個有趣的早期參與者是 DataCebo。DataCebo 由麻省理工學(xué)院的一群教師和他們的學(xué)生創(chuàng)立,他們之前創(chuàng)建了 Synthetic Data Vault (SDV),這是最大的開源模型、數(shù)據(jù)、基準(zhǔn)和其他合成數(shù)據(jù)工具的生態(tài)系統(tǒng)。DataCebo 和 Synthetic Data Vault 專注于結(jié)構(gòu)化(即表格或關(guān)系)文本數(shù)據(jù)集,即在表格或數(shù)據(jù)庫中組織的文本數(shù)據(jù)。

DataCebo 聯(lián)合創(chuàng)始人 Kalyan Veeramachaneni 說:“使用這項技術(shù)最重要的動態(tài)是保真度和隱私之間的權(quán)衡?!薄癉ataCebo 平臺提供的核心是一個微調(diào)選項,使客戶能夠圍繞他們生成的合成數(shù)據(jù)加強(qiáng)隱私保證,但要以保真度為代價,反之亦然?!?/p>

Tonic.ai 是另一家熱門的初創(chuàng)公司,為綜合生成的文本數(shù)據(jù)提供工具。Tonic 的主要用例是用于軟件測試和開發(fā)的合成數(shù)據(jù),而不是用于構(gòu)建機(jī)器學(xué)習(xí)模型。

最后一個值得注意的初創(chuàng)公司是 Syntegra,它專注于專門針對醫(yī)療保健的合成數(shù)據(jù),其用例涵蓋醫(yī)療保健提供者、健康保險公司和制藥公司??紤]到市場規(guī)模和現(xiàn)實(shí)世界患者數(shù)據(jù)的棘手隱私挑戰(zhàn),合成數(shù)據(jù)在醫(yī)療保健領(lǐng)域的長期影響可能比任何其他領(lǐng)域都要大。

值得注意的是,在很大程度上,這里討論的公司和示例使用經(jīng)典的統(tǒng)計方法或傳統(tǒng)的機(jī)器學(xué)習(xí)來生成合成數(shù)據(jù),重點(diǎn)是結(jié)構(gòu)化文本。但在過去的幾年里,語言 AI 的世界已經(jīng)發(fā)生了革命性的變化,引入了Transformer 架構(gòu)和新興的大規(guī)?!盎A(chǔ)模型”范式,如 OpenAI 的 GPT-3。

通過利用大型語言模型 (LLM) 來生成具有以前無法想象的真實(shí)性、原創(chuàng)性、復(fù)雜性和多樣性的非結(jié)構(gòu)化文本(或多模態(tài))數(shù)據(jù)語料庫,這是構(gòu)建下一代合成數(shù)據(jù)技術(shù)的機(jī)會。

“大型語言模型的最新進(jìn)展為我們帶來了機(jī)器生成的數(shù)據(jù),這些數(shù)據(jù)通常與人類編寫的文本無法區(qū)分,”DeepMind 專注于生成語言模型的高級研究科學(xué)家 Dani Yogatama 說。“這種新型合成數(shù)據(jù)已成功應(yīng)用于構(gòu)建廣泛的人工智能產(chǎn)品,從簡單的文本分類器到問答系統(tǒng),再到機(jī)器翻譯引擎到會話代理。使這項技術(shù)民主化將對我們開發(fā)生產(chǎn) AI 模型的方式產(chǎn)生變革性的影響?!?/p>模擬到現(xiàn)實(shí)的差距

退后一步,該領(lǐng)域的基本概念挑戰(zhàn)是合成生成的數(shù)據(jù)必須與真實(shí)數(shù)據(jù)足夠相似,才能對數(shù)據(jù)服務(wù)的任何目的有用。這是大多數(shù)人在學(xué)習(xí)合成數(shù)據(jù)時的第一個問題——它真的能準(zhǔn)確到足以替代真實(shí)數(shù)據(jù)嗎?

合成數(shù)據(jù)集與真實(shí)數(shù)據(jù)的相似程度稱為保真度。對我們來說,重要的是要問:合成數(shù)據(jù)需要多高的保真度才能有用?我們到那里了嗎?我們?nèi)绾魏饬亢土炕U娑龋?/blockquote>

人工智能的最新進(jìn)展極大地提高了合成數(shù)據(jù)的保真度。對于計算機(jī)視覺和自然語言處理的廣泛應(yīng)用,今天的合成數(shù)據(jù)技術(shù)已經(jīng)足夠先進(jìn),可以部署在生產(chǎn)環(huán)境中。但這里還有更多工作要做。

在計算機(jī)視覺中,由于神經(jīng)輻射場 (NeRF) 等持續(xù)的深度學(xué)習(xí)創(chuàng)新,俗稱“模擬到真實(shí)的差距”正在迅速縮小。Nvidia 的Omniverse等開發(fā)人員平臺的發(fā)布,一個領(lǐng)先的 3D 圖形模擬平臺,通過使開發(fā)人員可以廣泛使用最先進(jìn)的合成數(shù)據(jù)功能,在這方面發(fā)揮了重要作用。

衡量給定合成數(shù)據(jù)集有效性的最直接方法是將其換成真實(shí)數(shù)據(jù),然后查看 AI 模型的性能。例如,計算機(jī)視覺研究人員可能會在合成數(shù)據(jù)上訓(xùn)練一個分類模型,在真實(shí)數(shù)據(jù)上訓(xùn)練第二個分類模型,將兩個模型部署在相同的先前未見過的測試數(shù)據(jù)集上,然后比較兩個模型的性能。

在實(shí)踐中,計算機(jī)視覺中合成數(shù)據(jù)的使用不需要,通常也不是,這種二進(jìn)制。研究人員可以通過在他們的訓(xùn)練數(shù)據(jù)集中結(jié)合真實(shí)數(shù)據(jù)和合成數(shù)據(jù)來推動顯著的性能改進(jìn),而不是只使用真實(shí)數(shù)據(jù)或合成數(shù)據(jù),使人工智能能夠從兩者中學(xué)習(xí)并擴(kuò)大訓(xùn)練語料庫的整體規(guī)模。

還值得注意的是,合成數(shù)據(jù)集有時實(shí)際上優(yōu)于真實(shí)數(shù)據(jù)。這是什么原因呢?

數(shù)據(jù)是從現(xiàn)實(shí)世界收集的這一事實(shí)并不能保證它是 100% 準(zhǔn)確和高質(zhì)量的。一方面,現(xiàn)實(shí)世界的圖像數(shù)據(jù)通常必須由人工手動標(biāo)記,然后才能用于訓(xùn)練 AI 模型;這種數(shù)據(jù)標(biāo)記可能不準(zhǔn)確或不完整,從而降低 AI 的性能。另一方面,合成數(shù)據(jù)自動帶有完美的數(shù)據(jù)標(biāo)簽。此外,合成數(shù)據(jù)集可以比真實(shí)世界的數(shù)據(jù)集更大、更多樣化(畢竟這就是重點(diǎn)),這可以轉(zhuǎn)化為卓越的 AI 性能。

對于文本數(shù)據(jù),行業(yè)從業(yè)者已經(jīng)開始開發(fā)指標(biāo)來量化和基準(zhǔn)化合成數(shù)據(jù)的保真度。

例如,Gretel.ai 根據(jù)三個不同的統(tǒng)計嚴(yán)格指標(biāo)(場相關(guān)穩(wěn)定性、深層結(jié)構(gòu)穩(wěn)定性和場分布穩(wěn)定性)對其合成數(shù)據(jù)集進(jìn)行評分,并將其匯總以產(chǎn)生 0 到 100 之間的整體合成數(shù)據(jù)質(zhì)量分?jǐn)?shù)。簡而言之,這個總體數(shù)字代表“如果使用原始數(shù)據(jù)集,從合成數(shù)據(jù)集得出的科學(xué)結(jié)論是否相同的置信度得分?!?/p>

Gretel 的合成數(shù)據(jù)通常表現(xiàn)得很好:相對于在現(xiàn)實(shí)世界數(shù)據(jù)上訓(xùn)練的模型,基于它訓(xùn)練的 AI 模型的準(zhǔn)確度通常在幾個百分點(diǎn)之內(nèi),有時甚至更準(zhǔn)確。

合成數(shù)據(jù)初創(chuàng)公司 Syntegra 同樣提出了深思熟慮的分析框架,用于評估醫(yī)療保健環(huán)境中的合成數(shù)據(jù)保真度。

對于文本數(shù)據(jù),保真度和隱私之間存在一個基本的權(quán)衡:隨著合成數(shù)據(jù)越來越類似于它所基于的真實(shí)世界數(shù)據(jù),可以從合成數(shù)據(jù)中重建原始真實(shí)世界數(shù)據(jù)的風(fēng)險相應(yīng)增加數(shù)據(jù)。如果原始的真實(shí)數(shù)據(jù)是敏感的——比如醫(yī)療記錄或金融交易——這是一個問題。因此,合成文本數(shù)據(jù)的核心挑戰(zhàn)不僅僅是在真空中最大化保真度,而是在保護(hù)隱私的同時最大化保真度。

前方的路

下圖說明了很多問題。據(jù) Gartner 稱,到 2030 年,合成數(shù)據(jù)將完全蓋過 AI 模型中的真實(shí)數(shù)據(jù)。

資料來源:GARTNER

隨著合成數(shù)據(jù)在未來幾個月和幾年內(nèi)變得越來越普遍,它將對各個行業(yè)產(chǎn)生顛覆性影響。它將改變數(shù)據(jù)的經(jīng)濟(jì)學(xué)。

通過使高質(zhì)量的訓(xùn)練數(shù)據(jù)更容易獲得和負(fù)擔(dān)得起,合成數(shù)據(jù)將削弱專有數(shù)據(jù)資產(chǎn)作為持久競爭優(yōu)勢的優(yōu)勢。

從歷史上看,無論是哪個行業(yè),為了了解人工智能的戰(zhàn)略動態(tài)和機(jī)遇,最重要的第一個問題是:誰擁有數(shù)據(jù)?近年來,谷歌、Facebook 和亞馬遜等科技巨頭取得如此市場主導(dǎo)地位的主要原因之一是其無與倫比的客戶數(shù)據(jù)量。

合成數(shù)據(jù)將改變這一點(diǎn)。通過大規(guī)模普及數(shù)據(jù)訪問,它將有助于公平競爭,使較小的新貴能夠與更成熟的參與者競爭,否則他們可能沒有機(jī)會挑戰(zhàn)。

回到自動駕駛汽車的例子:谷歌(Waymo)已經(jīng)投入了數(shù)十億美元,并花費(fèi)了十多年的時間來收集數(shù)百萬英里的真實(shí)駕駛數(shù)據(jù)。任何競爭對手都不太可能在這方面趕上他們。但如果生產(chǎn)級自動駕駛系統(tǒng)幾乎可以完全使用合成訓(xùn)練數(shù)據(jù)構(gòu)建,那么谷歌強(qiáng)大的數(shù)據(jù)優(yōu)勢就會消失,而像 Waabi 這樣的年輕初創(chuàng)公司就有合法的競爭機(jī)會。

合成數(shù)據(jù)興起的最終結(jié)果將是賦能全新一代的人工智能新貴,并通過降低構(gòu)建人工智能優(yōu)先產(chǎn)品的數(shù)據(jù)壁壘來掀起人工智能創(chuàng)新浪潮。

合成數(shù)據(jù)擴(kuò)散的一個有趣的相關(guān)影響將是減少對數(shù)據(jù)標(biāo)記的需求和重要性,因?yàn)楹铣缮傻臄?shù)據(jù)不需要手動標(biāo)記。

數(shù)據(jù)標(biāo)記一直是現(xiàn)代機(jī)器學(xué)習(xí)中一個笨拙、不雅的部分。直覺上,真正的智能代理(如人類)不應(yīng)該需要手動將標(biāo)簽附加到他們觀察到的每個對象上以識別它們。

但由于在今天的 AI 范式下需要標(biāo)記數(shù)據(jù),數(shù)據(jù)標(biāo)記本身已經(jīng)成為一個龐大的產(chǎn)業(yè);許多公司每年花費(fèi)數(shù)千萬或數(shù)億美元來標(biāo)記他們的數(shù)據(jù)。在令人瞠目結(jié)舌的收入增長中,領(lǐng)先的數(shù)據(jù)標(biāo)簽服務(wù)提供商 Scale AI 去年的估值為 73 億美元。一個由小型數(shù)據(jù)標(biāo)簽初創(chuàng)公司組成的完整生態(tài)系統(tǒng)也同樣出現(xiàn)了。

合成數(shù)據(jù)將威脅這些公司的生計。似乎認(rèn)識到這一點(diǎn),Scale AI現(xiàn)在的目標(biāo)是進(jìn)入合成數(shù)據(jù)游戲本身,今年早些時候推出了一個名為 Scale Synthetic 的合成數(shù)據(jù)平臺。

合成數(shù)據(jù)技術(shù)將在未來幾年重塑人工智能世界,擾亂競爭格局并重新定義技術(shù)堆棧。它將通過民主化數(shù)據(jù)訪問來加速人工智能在社會中的傳播。它將成為我們?nèi)斯ぶ悄茯?qū)動的未來的關(guān)鍵催化劑。精通數(shù)據(jù)的個人、團(tuán)隊和組織應(yīng)注意。

本文作者:Rob Toews 是 Radical Ventures 的風(fēng)險投資家,該公司也是 Waabi 的投資者。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2022-06-13
合成數(shù)據(jù)即將改變?nèi)斯ぶ悄?/div>
合成數(shù)據(jù)直接解決了多年來阻礙人工智能在醫(yī)療保健中部署的數(shù)據(jù)隱私問題。在真實(shí)患者數(shù)據(jù)上訓(xùn)練 AI 模型會帶來棘手的隱私問題,但當(dāng)數(shù)據(jù)被合成時,這些問題就會消失。

長按掃碼 閱讀全文