肉丝高跟白领国产在线观看,日本成本人观看免费直播

上圖這些人是不存在的。這些面孔是使用一種深度學(xué)習(xí)形式人工生成的…… 資料來源：THIS-PERSON-DOES-NOT-EXIST.COM

想象一下，如果有可能以廉價和快速的方式生產(chǎn)出無限量的世界上最有價值的資源。那么，這將會帶來什么樣的巨大經(jīng)濟(jì)轉(zhuǎn)型和機(jī)遇呢？

這這就是今天的現(xiàn)實(shí)，它被稱為合成數(shù)據(jù)。

合成數(shù)據(jù)并不是一個新想法，但就現(xiàn)實(shí)世界的影響而言，其現(xiàn)在正接近一個關(guān)鍵的拐點(diǎn)。它有望顛覆人工智能的整個價值鏈和技術(shù)堆棧，并產(chǎn)生巨大的經(jīng)濟(jì)影響。

數(shù)據(jù)是現(xiàn)代人工智能的命脈。獲取正確的數(shù)據(jù)是構(gòu)建強(qiáng)大 AI 的最重要和最具挑戰(zhàn)性的部分。從現(xiàn)實(shí)世界中收集高質(zhì)量數(shù)據(jù)是復(fù)雜、昂貴且耗時的。這就是合成數(shù)據(jù)的價值所在。

合成數(shù)據(jù)是一個非常簡單的概念——其中一個想法似乎好得令人難以置信。簡而言之，合成數(shù)據(jù)技術(shù)使從業(yè)者能夠簡單地以數(shù)字方式生成他們需要的數(shù)據(jù)，無論他們需要多少數(shù)量，都可以根據(jù)他們的精確規(guī)格定制。

根據(jù)一項廣泛引用的 Gartner 研究，到 2024 年，用于人工智能開發(fā)的所有數(shù)據(jù)中，60% 將是合成的，而不是真實(shí)的。

花點(diǎn)時間消化一下。這是一個驚人的預(yù)測。

數(shù)據(jù)是現(xiàn)代經(jīng)濟(jì)的基礎(chǔ)。用《經(jīng)濟(jì)學(xué)人》的話說，它是“世界上最寶貴的資源”。在短短幾年內(nèi)，用于人工智能的大部分?jǐn)?shù)據(jù)可能來自一個顛覆性的新來源——如今很少有企業(yè)了解甚至不知道。

不用說，這將帶來巨大的商業(yè)機(jī)會。

合成數(shù)據(jù)初創(chuàng)公司Datagen的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Ofir Zuk表示 :“我們可以簡單地說，合成數(shù)據(jù)的總目標(biāo)市場和數(shù)據(jù)的總目標(biāo)市場將會融合。”

合成數(shù)據(jù)的興起將徹底改變數(shù)據(jù)的經(jīng)濟(jì)、所有權(quán)、戰(zhàn)略動態(tài)，甚至（地緣）政治。這是一項值得關(guān)注的技術(shù)。

從自動駕駛汽車到人臉

雖然合成數(shù)據(jù)的概念已經(jīng)存在了幾十年，但從 2010 年代中期開始，該技術(shù)首次在自動駕駛汽車領(lǐng)域得到了廣泛的商業(yè)應(yīng)用。

合成數(shù)據(jù)開始出現(xiàn)在自動駕駛汽車領(lǐng)域也就不足為奇了。首先，因?yàn)?AV（Audio and Video）領(lǐng)域吸引了更多的機(jī)器學(xué)習(xí)人才和投資資金，甚至可能比任何其他人工智能商業(yè)應(yīng)用都要多，它通常是合成數(shù)據(jù)等基礎(chǔ)創(chuàng)新的催化劑。

鑒于 AV 世界中“邊緣案例”的挑戰(zhàn)和重要性，合成數(shù)據(jù)和自動駕駛汽車特別適合彼此。為自動駕駛汽車在道路上可能遇到的每個可能場景收集真實(shí)世界的駕駛數(shù)據(jù)是不可能的。鑒于世界是多么不可預(yù)測和未知情況，實(shí)際上需要數(shù)百年的真實(shí)駕駛才能收集構(gòu)建真正安全的自動駕駛汽車所需的所有數(shù)據(jù)。

因此，自動駕駛汽車公司開發(fā)了復(fù)雜的模擬引擎來綜合生成必要的數(shù)據(jù)量，并有效地將他們的人工智能系統(tǒng)暴露在駕駛場景的“長尾”中。這些模擬世界可以自動生成任何可以想象的駕駛場景的數(shù)千或數(shù)百萬個排列——例如，改變其他汽車的位置、添加或移除行人、增加或降低車速、調(diào)整天氣等等。

多年來，領(lǐng)先的自動駕駛汽車廠商——Waymo、Cruise、Aurora、Zoox——都在合成數(shù)據(jù)和模擬方面進(jìn)行了大量投資，并將其作為其技術(shù)堆棧的核心部分。例如，2016 年，Waymo生成了 25 億英里的模擬駕駛數(shù)據(jù)來訓(xùn)練其自動駕駛系統(tǒng)（相比之下，從現(xiàn)實(shí)世界收集的駕駛數(shù)據(jù)僅為 300 萬英里）。到 2019 年，這一數(shù)字已達(dá)到100 億英里。

正如 Andreessen Horowitz 的合伙人 Chris Dixon在 2017 年所說：“現(xiàn)在，你幾乎可以通過他們對模擬的認(rèn)真程度來衡量自主團(tuán)隊——無人機(jī)團(tuán)隊、汽車團(tuán)隊的成熟度?！?/p>

因此，出現(xiàn)的第一批合成數(shù)據(jù)初創(chuàng)公司瞄準(zhǔn)了自動駕駛汽車終端市場。其中包括 Applied Intuition（最近估值為 36 億美元）、Parallel Domain 和 Cognata 等公司。

但沒過多久，人工智能企業(yè)家就認(rèn)識到，為自動駕駛汽車行業(yè)開發(fā)的合成數(shù)據(jù)功能可以推廣并應(yīng)用于許多其他計算機(jī)視覺應(yīng)用。

從機(jī)器人技術(shù)到物理安全，從地理空間圖像到制造，近年來計算機(jī)視覺在整個經(jīng)濟(jì)中發(fā)現(xiàn)了廣泛的有價值的應(yīng)用。對于所有這些用例，構(gòu)建 AI 模型需要大量的標(biāo)記圖像數(shù)據(jù)。

合成數(shù)據(jù)在這里代表了一個強(qiáng)大的解決方案。

使用合成數(shù)據(jù)方法，企業(yè)可以比其他方法更快、更便宜地獲取訓(xùn)練數(shù)據(jù)——即從現(xiàn)實(shí)世界中費(fèi)力地收集數(shù)據(jù)。想象一下，在系統(tǒng)上人工生成 100,000 張智能手機(jī)圖像比在現(xiàn)實(shí)世界中一張一張地收集這些圖像要容易得多。

重要的是，現(xiàn)實(shí)世界的圖像數(shù)據(jù)必須先手動標(biāo)記，然后才能用于訓(xùn)練 AI 模型——這是一個昂貴、耗時且容易出錯的過程。合成數(shù)據(jù)的一個關(guān)鍵優(yōu)勢是不需要手動數(shù)據(jù)標(biāo)記：因?yàn)閳D像首先是從頭開始以數(shù)字方式定制的，所以它們會自動帶有“像素完美”的標(biāo)簽。

計算機(jī)視覺的合成數(shù)據(jù)究竟是如何工作的？如何人工生成如此高保真、逼真的圖像數(shù)據(jù)？

合成數(shù)據(jù)核心的一項關(guān)鍵人工智能技術(shù)被稱為生成對抗網(wǎng)絡(luò)或 GAN。

GAN由 AI 先驅(qū) Ian Goodfellow于 2014 年發(fā)明，自那時以來一直是研究和創(chuàng)新的活躍領(lǐng)域。Goodfellow 的核心概念突破是用兩個獨(dú)立的神經(jīng)網(wǎng)絡(luò)構(gòu)建 GAN，然后讓它們相互對抗。

從給定的數(shù)據(jù)集（例如，人臉照片的集合）開始，第一個神經(jīng)網(wǎng)絡(luò)（稱為“生成器”）開始生成新圖像，就像素而言，這些圖像在數(shù)學(xué)上與現(xiàn)有圖像相似。同時，第二個神經(jīng)網(wǎng)絡(luò)（“鑒別器”）被輸入照片，而不會被告知它們是來自原始數(shù)據(jù)集還是來自生成器的輸出；它的任務(wù)是識別哪些照片是合成生成的。

當(dāng)這兩個網(wǎng)絡(luò)迭代地相互對抗時——生成器試圖欺騙鑒別器，鑒別器試圖停止生成器的創(chuàng)造——它們相互磨練彼此的能力。最終判別器的分類成功率下降到 50%，并不比隨機(jī)猜測好，這意味著合成生成的照片已經(jīng)與原件無法區(qū)分。

2016 年，人工智能巨匠 Yann LeCun稱GAN 是“機(jī)器學(xué)習(xí)過去十年中最有趣的想法”。

推動視覺合成數(shù)據(jù)近期發(fā)展勢頭的另外兩個重要研究進(jìn)展是擴(kuò)散模型和神經(jīng)輻射場(NeRF)。

最初受熱力學(xué)概念的啟發(fā)，擴(kuò)散模型通過增加噪聲破壞訓(xùn)練數(shù)據(jù)來學(xué)習(xí)，然后找出如何逆轉(zhuǎn)這種噪聲過程以恢復(fù)原始圖像。一旦經(jīng)過訓(xùn)練，擴(kuò)散模型就可以應(yīng)用這些去噪方法從隨機(jī)輸入中合成新穎的“干凈”數(shù)據(jù)。

擴(kuò)散模型在過去一年中大受歡迎，包括作為DALL-E 2的技術(shù)支柱，這是OpenAI 備受討論的新文本到圖像模型。與 GAN 相比，具有一些有意義的優(yōu)勢，預(yù)計擴(kuò)散模型將在生成 AI 的世界中發(fā)揮越來越重要的作用。

與此同時，NeRF 是一種強(qiáng)大的新方法，可以快速準(zhǔn)確地將二維圖像轉(zhuǎn)換為復(fù)雜的三維場景，然后可以對其進(jìn)行操作和導(dǎo)航以生成多樣化的高保真合成數(shù)據(jù)。

為計算機(jī)視覺提供合成數(shù)據(jù)解決方案的兩家領(lǐng)先初創(chuàng)公司是 Datagen（最近宣布了 5000 萬美元的 B輪融資）和 Synthesis AI（最近宣布了 1700 萬美元的 A 輪融資）。兩家公司都專注于人類數(shù)據(jù)，尤其是人臉；他們的平臺使用戶能夠以編程方式自定義跨維度的面部數(shù)據(jù)集，包括頭部姿勢、面部表情、種族、注視方向和發(fā)型。

AI.Reverie 是這一領(lǐng)域的先行者，去年被 Facebook 收購——這表明大型科技公司對合成數(shù)據(jù)越來越感興趣。早期創(chuàng)業(yè)公司包括 Rendered.ai、Bifrost 和 Mirage。

循環(huán)往復(fù)，雖然幾年前自動駕駛汽車為合成數(shù)據(jù)的增長提供了原始動力，但時至今日，自動駕駛汽車行業(yè)仍在繼續(xù)推動該領(lǐng)域的最新發(fā)展。

Waabi 是自動駕駛汽車類別中最引人入勝的新創(chuàng)業(yè)公司之一，他將模擬技術(shù)提升到了一個新的水平。Waabi 由曾負(fù)責(zé) Uber 的 AV 研究工作的 AI 杰出人物 Raquel Urtasun 創(chuàng)立，去年憑借一支星光熠熠的團(tuán)隊和超過 8000 萬美元的資金脫穎而出。

Waabi 的目標(biāo)是通過利用下一代 AI 構(gòu)建一種新型的自主堆棧，避免更多傳統(tǒng)方法的缺點(diǎn)，從而超越更成熟的 AV 玩家。該堆棧的中心是合成數(shù)據(jù)。

與 AV 領(lǐng)域的其他公司相比，Waabi 沒有大量投資于在現(xiàn)實(shí)世界的道路上部署汽車以收集駕駛數(shù)據(jù)。相反，Waabi 大膽地尋求主要通過虛擬仿真來訓(xùn)練其自主系統(tǒng)。2 月，該公司公開推出了名為Waabi World的尖端模擬平臺。

“在 Waabi，我們在生成合成數(shù)據(jù)方面更進(jìn)一步，”Urtasun 說?！拔覀儾粌H可以近乎實(shí)時地以前所未有的保真度模擬車輛的傳感器，而且我們以閉環(huán)方式進(jìn)行模擬，以便環(huán)境對我們做出反應(yīng)，我們也對其做出反應(yīng)。這對于自動駕駛汽車等機(jī)器人系統(tǒng)非常重要，因?yàn)槲覀儾粌H需要學(xué)習(xí)感知世界，還需要安全地采取行動?！?/p>語言至上

雖然合成數(shù)據(jù)將改變計算機(jī)視覺的游戲規(guī)則，但該技術(shù)將在另一個領(lǐng)域釋放更多的轉(zhuǎn)變和機(jī)會：語言。

基于文本的合成數(shù)據(jù)的巨大潛力反映了語言在人類事務(wù)中無處不在的基本現(xiàn)實(shí)；它基本上是所有重要商業(yè)活動的核心。自然語言處理 (NLP) 的最新進(jìn)展為整個經(jīng)濟(jì)領(lǐng)域的價值創(chuàng)造提供了幾乎無限的機(jī)會。合成數(shù)據(jù)在這里可以發(fā)揮關(guān)鍵作用。

以下幾個具體的例子將有助于說明這種可能性。

Anthem 是世界上最大的健康保險公司之一，它使用其大量的患者醫(yī)療記錄和索賠數(shù)據(jù)來支持人工智能應(yīng)用，例如自動欺詐檢測和個性化患者護(hù)理。

上個月，Anthem宣布與 Google Cloud 合作生成大量合成文本數(shù)據(jù)，以改進(jìn)和擴(kuò)展這些 AI 用例。例如，這個合成數(shù)據(jù)語料庫將包括人工生成的病史、醫(yī)療保健索賠和相關(guān)的醫(yī)療數(shù)據(jù)，這些數(shù)據(jù)保留了真實(shí)患者數(shù)據(jù)的結(jié)構(gòu)和“信號”。

除其他好處外，合成數(shù)據(jù)直接解決了多年來阻礙人工智能在醫(yī)療保健中部署的數(shù)據(jù)隱私問題。在真實(shí)患者數(shù)據(jù)上訓(xùn)練 AI 模型會帶來棘手的隱私問題，但當(dāng)數(shù)據(jù)被合成時，這些問題就會消失。

Anthem 的首席信息官 Anil Bhatt說：“越來越多……合成數(shù)據(jù)將超越并成為人們未來使用 AI 的方式?！?/p>

最近的另一個例子暗示了更具變革性的可能性。

去年年底，全球領(lǐng)先的基因測序公司 Illumina宣布與初創(chuàng)公司 Gretel.ai 合作創(chuàng)建合成基因組數(shù)據(jù)集。

基因組數(shù)據(jù)是世界上最復(fù)雜、多維、信息豐富的數(shù)據(jù)類型之一。從字面上看，它包含了生命的秘密——如何構(gòu)建有機(jī)體的說明。長度超過 30 億個堿基對，每個人獨(dú)特的 DNA 序列在很大程度上定義了他們的身份，從身高到眼睛顏色，再到患心臟病或藥物濫用的風(fēng)險。（雖然不是自然語言，但基因組序列是文本數(shù)據(jù)；每個人的 DNA 序列都可以通過簡單的 4 個字母“字母表”進(jìn)行編碼。）

使用領(lǐng)先的人工智能分析人類基因組，使研究人員能夠更深入地了解疾病、健康以及生命本身的運(yùn)作方式。但由于基因組數(shù)據(jù)的可用性有限，這項研究受到了瓶頸。圍繞人類基因數(shù)據(jù)的嚴(yán)格隱私法規(guī)和數(shù)據(jù)共享限制阻礙了研究人員大規(guī)模處理基因組數(shù)據(jù)集的能力。

合成數(shù)據(jù)提供了一種潛在的革命性解決方案：它可以復(fù)制真實(shí)基因組數(shù)據(jù)集的特征和信號，同時回避這些數(shù)據(jù)隱私問題，因?yàn)閿?shù)據(jù)是人工生成的，并不對應(yīng)于現(xiàn)實(shí)世界中的任何特定個體。

當(dāng)涉及到由合成數(shù)據(jù)解鎖的各種基于語言的機(jī)會時，這兩個例子只是冰山一角。

近年來出現(xiàn)了一些有前途的初創(chuàng)公司來尋求這些機(jī)會。

這一類別中最著名的初創(chuàng)公司是上文提到的 Gretel.ai，迄今為止，該公司已從 Greylock 和其他人那里籌集了超過 6500 萬美元的資金。

從醫(yī)療保健到金融服務(wù)，從游戲到電子商務(wù)，各行各業(yè)的藍(lán)籌客戶對其技術(shù)有著強(qiáng)勁的市場需求。

Gretel.ai 首席執(zhí)行官/聯(lián)合創(chuàng)始人 Ali Golshan 說：“看到客戶開始以如此快的速度采用合成數(shù)據(jù)真是令人驚訝?！薄凹词古c 12 或 18 個月前相比，企業(yè)對合成數(shù)據(jù)的認(rèn)識和需求也在快速增長。我們的客戶繼續(xù)以創(chuàng)新的新方式應(yīng)用我們的技術(shù)給我們帶來驚喜。”

該領(lǐng)域另一個有趣的早期參與者是 DataCebo。DataCebo 由麻省理工學(xué)院的一群教師和他們的學(xué)生創(chuàng)立，他們之前創(chuàng)建了 Synthetic Data Vault (SDV)，這是最大的開源模型、數(shù)據(jù)、基準(zhǔn)和其他合成數(shù)據(jù)工具的生態(tài)系統(tǒng)。DataCebo 和 Synthetic Data Vault 專注于結(jié)構(gòu)化（即表格或關(guān)系）文本數(shù)據(jù)集，即在表格或數(shù)據(jù)庫中組織的文本數(shù)據(jù)。

DataCebo 聯(lián)合創(chuàng)始人 Kalyan Veeramachaneni 說：“使用這項技術(shù)最重要的動態(tài)是保真度和隱私之間的權(quán)衡?！薄癉ataCebo 平臺提供的核心是一個微調(diào)選項，使客戶能夠圍繞他們生成的合成數(shù)據(jù)加強(qiáng)隱私保證，但要以保真度為代價，反之亦然?！?/p>

Tonic.ai 是另一家熱門的初創(chuàng)公司，為綜合生成的文本數(shù)據(jù)提供工具。Tonic 的主要用例是用于軟件測試和開發(fā)的合成數(shù)據(jù)，而不是用于構(gòu)建機(jī)器學(xué)習(xí)模型。

最后一個值得注意的初創(chuàng)公司是 Syntegra，它專注于專門針對醫(yī)療保健的合成數(shù)據(jù)，其用例涵蓋醫(yī)療保健提供者、健康保險公司和制藥公司?？紤]到市場規(guī)模和現(xiàn)實(shí)世界患者數(shù)據(jù)的棘手隱私挑戰(zhàn)，合成數(shù)據(jù)在醫(yī)療保健領(lǐng)域的長期影響可能比任何其他領(lǐng)域都要大。

值得注意的是，在很大程度上，這里討論的公司和示例使用經(jīng)典的統(tǒng)計方法或傳統(tǒng)的機(jī)器學(xué)習(xí)來生成合成數(shù)據(jù)，重點(diǎn)是結(jié)構(gòu)化文本。但在過去的幾年里，語言 AI 的世界已經(jīng)發(fā)生了革命性的變化，引入了Transformer 架構(gòu)和新興的大規(guī)?！盎A(chǔ)模型”范式，如 OpenAI 的 GPT-3。

通過利用大型語言模型 (LLM) 來生成具有以前無法想象的真實(shí)性、原創(chuàng)性、復(fù)雜性和多樣性的非結(jié)構(gòu)化文本（或多模態(tài)）數(shù)據(jù)語料庫，這是構(gòu)建下一代合成數(shù)據(jù)技術(shù)的機(jī)會。

“大型語言模型的最新進(jìn)展為我們帶來了機(jī)器生成的數(shù)據(jù)，這些數(shù)據(jù)通常與人類編寫的文本無法區(qū)分，”DeepMind 專注于生成語言模型的高級研究科學(xué)家 Dani Yogatama 說。“這種新型合成數(shù)據(jù)已成功應(yīng)用于構(gòu)建廣泛的人工智能產(chǎn)品，從簡單的文本分類器到問答系統(tǒng)，再到機(jī)器翻譯引擎到會話代理。使這項技術(shù)民主化將對我們開發(fā)生產(chǎn) AI 模型的方式產(chǎn)生變革性的影響?！?/p>模擬到現(xiàn)實(shí)的差距

退后一步，該領(lǐng)域的基本概念挑戰(zhàn)是合成生成的數(shù)據(jù)必須與真實(shí)數(shù)據(jù)足夠相似，才能對數(shù)據(jù)服務(wù)的任何目的有用。這是大多數(shù)人在學(xué)習(xí)合成數(shù)據(jù)時的第一個問題——它真的能準(zhǔn)確到足以替代真實(shí)數(shù)據(jù)嗎？

合成數(shù)據(jù)集與真實(shí)數(shù)據(jù)的相似程度稱為保真度。對我們來說，重要的是要問：合成數(shù)據(jù)需要多高的保真度才能有用？我們到那里了嗎？我們?nèi)绾魏饬亢土炕Ｕ娑龋?/blockquote>
人工智能的最新進(jìn)展極大地提高了合成數(shù)據(jù)的保真度。對于計算機(jī)視覺和自然語言處理的廣泛應(yīng)用，今天的合成數(shù)據(jù)技術(shù)已經(jīng)足夠先進(jìn)，可以部署在生產(chǎn)環(huán)境中。但這里還有更多工作要做。
在計算機(jī)視覺中，由于神經(jīng)輻射場 (NeRF) 等持續(xù)的深度學(xué)習(xí)創(chuàng)新，俗稱“模擬到真實(shí)的差距”正在迅速縮小。Nvidia 的Omniverse等開發(fā)人員平臺的發(fā)布，一個領(lǐng)先的 3D 圖形模擬平臺，通過使開發(fā)人員可以廣泛使用最先進(jìn)的合成數(shù)據(jù)功能，在這方面發(fā)揮了重要作用。
衡量給定合成數(shù)據(jù)集有效性的最直接方法是將其換成真實(shí)數(shù)據(jù)，然后查看 AI 模型的性能。例如，計算機(jī)視覺研究人員可能會在合成數(shù)據(jù)上訓(xùn)練一個分類模型，在真實(shí)數(shù)據(jù)上訓(xùn)練第二個分類模型，將兩個模型部署在相同的先前未見過的測試數(shù)據(jù)集上，然后比較兩個模型的性能。
在實(shí)踐中，計算機(jī)視覺中合成數(shù)據(jù)的使用不需要，通常也不是，這種二進(jìn)制。研究人員可以通過在他們的訓(xùn)練數(shù)據(jù)集中結(jié)合真實(shí)數(shù)據(jù)和合成數(shù)據(jù)來推動顯著的性能改進(jìn)，而不是只使用真實(shí)數(shù)據(jù)或合成數(shù)據(jù)，使人工智能能夠從兩者中學(xué)習(xí)并擴(kuò)大訓(xùn)練語料庫的整體規(guī)模。
還值得注意的是，合成數(shù)據(jù)集有時實(shí)際上優(yōu)于真實(shí)數(shù)據(jù)。這是什么原因呢？
數(shù)據(jù)是從現(xiàn)實(shí)世界收集的這一事實(shí)并不能保證它是 100% 準(zhǔn)確和高質(zhì)量的。一方面，現(xiàn)實(shí)世界的圖像數(shù)據(jù)通常必須由人工手動標(biāo)記，然后才能用于訓(xùn)練 AI 模型；這種數(shù)據(jù)標(biāo)記可能不準(zhǔn)確或不完整，從而降低 AI 的性能。另一方面，合成數(shù)據(jù)自動帶有完美的數(shù)據(jù)標(biāo)簽。此外，合成數(shù)據(jù)集可以比真實(shí)世界的數(shù)據(jù)集更大、更多樣化（畢竟這就是重點(diǎn)），這可以轉(zhuǎn)化為卓越的 AI 性能。
對于文本數(shù)據(jù)，行業(yè)從業(yè)者已經(jīng)開始開發(fā)指標(biāo)來量化和基準(zhǔn)化合成數(shù)據(jù)的保真度。
例如，Gretel.ai 根據(jù)三個不同的統(tǒng)計嚴(yán)格指標(biāo)（場相關(guān)穩(wěn)定性、深層結(jié)構(gòu)穩(wěn)定性和場分布穩(wěn)定性）對其合成數(shù)據(jù)集進(jìn)行評分，并將其匯總以產(chǎn)生 0 到 100 之間的整體合成數(shù)據(jù)質(zhì)量分?jǐn)?shù)。簡而言之，這個總體數(shù)字代表“如果使用原始數(shù)據(jù)集，從合成數(shù)據(jù)集得出的科學(xué)結(jié)論是否相同的置信度得分?！?/p>
Gretel 的合成數(shù)據(jù)通常表現(xiàn)得很好：相對于在現(xiàn)實(shí)世界數(shù)據(jù)上訓(xùn)練的模型，基于它訓(xùn)練的 AI 模型的準(zhǔn)確度通常在幾個百分點(diǎn)之內(nèi)，有時甚至更準(zhǔn)確。
合成數(shù)據(jù)初創(chuàng)公司 Syntegra 同樣提出了深思熟慮的分析框架，用于評估醫(yī)療保健環(huán)境中的合成數(shù)據(jù)保真度。
對于文本數(shù)據(jù)，保真度和隱私之間存在一個基本的權(quán)衡：隨著合成數(shù)據(jù)越來越類似于它所基于的真實(shí)世界數(shù)據(jù)，可以從合成數(shù)據(jù)中重建原始真實(shí)世界數(shù)據(jù)的風(fēng)險相應(yīng)增加數(shù)據(jù)。如果原始的真實(shí)數(shù)據(jù)是敏感的——比如醫(yī)療記錄或金融交易——這是一個問題。因此，合成文本數(shù)據(jù)的核心挑戰(zhàn)不僅僅是在真空中最大化保真度，而是在保護(hù)隱私的同時最大化保真度。
前方的路
下圖說明了很多問題。據(jù) Gartner 稱，到 2030 年，合成數(shù)據(jù)將完全蓋過 AI 模型中的真實(shí)數(shù)據(jù)。
資料來源：GARTNER
隨著合成數(shù)據(jù)在未來幾個月和幾年內(nèi)變得越來越普遍，它將對各個行業(yè)產(chǎn)生顛覆性影響。它將改變數(shù)據(jù)的經(jīng)濟(jì)學(xué)。
通過使高質(zhì)量的訓(xùn)練數(shù)據(jù)更容易獲得和負(fù)擔(dān)得起，合成數(shù)據(jù)將削弱專有數(shù)據(jù)資產(chǎn)作為持久競爭優(yōu)勢的優(yōu)勢。
從歷史上看，無論是哪個行業(yè)，為了了解人工智能的戰(zhàn)略動態(tài)和機(jī)遇，最重要的第一個問題是：誰擁有數(shù)據(jù)？近年來，谷歌、Facebook 和亞馬遜等科技巨頭取得如此市場主導(dǎo)地位的主要原因之一是其無與倫比的客戶數(shù)據(jù)量。
合成數(shù)據(jù)將改變這一點(diǎn)。通過大規(guī)模普及數(shù)據(jù)訪問，它將有助于公平競爭，使較小的新貴能夠與更成熟的參與者競爭，否則他們可能沒有機(jī)會挑戰(zhàn)。
回到自動駕駛汽車的例子：谷歌（Waymo）已經(jīng)投入了數(shù)十億美元，并花費(fèi)了十多年的時間來收集數(shù)百萬英里的真實(shí)駕駛數(shù)據(jù)。任何競爭對手都不太可能在這方面趕上他們。但如果生產(chǎn)級自動駕駛系統(tǒng)幾乎可以完全使用合成訓(xùn)練數(shù)據(jù)構(gòu)建，那么谷歌強(qiáng)大的數(shù)據(jù)優(yōu)勢就會消失，而像 Waabi 這樣的年輕初創(chuàng)公司就有合法的競爭機(jī)會。
合成數(shù)據(jù)興起的最終結(jié)果將是賦能全新一代的人工智能新貴，并通過降低構(gòu)建人工智能優(yōu)先產(chǎn)品的數(shù)據(jù)壁壘來掀起人工智能創(chuàng)新浪潮。
合成數(shù)據(jù)擴(kuò)散的一個有趣的相關(guān)影響將是減少對數(shù)據(jù)標(biāo)記的需求和重要性，因?yàn)楹铣缮傻臄?shù)據(jù)不需要手動標(biāo)記。
數(shù)據(jù)標(biāo)記一直是現(xiàn)代機(jī)器學(xué)習(xí)中一個笨拙、不雅的部分。直覺上，真正的智能代理（如人類）不應(yīng)該需要手動將標(biāo)簽附加到他們觀察到的每個對象上以識別它們。
但由于在今天的 AI 范式下需要標(biāo)記數(shù)據(jù)，數(shù)據(jù)標(biāo)記本身已經(jīng)成為一個龐大的產(chǎn)業(yè)；許多公司每年花費(fèi)數(shù)千萬或數(shù)億美元來標(biāo)記他們的數(shù)據(jù)。在令人瞠目結(jié)舌的收入增長中，領(lǐng)先的數(shù)據(jù)標(biāo)簽服務(wù)提供商 Scale AI 去年的估值為 73 億美元。一個由小型數(shù)據(jù)標(biāo)簽初創(chuàng)公司組成的完整生態(tài)系統(tǒng)也同樣出現(xiàn)了。
合成數(shù)據(jù)將威脅這些公司的生計。似乎認(rèn)識到這一點(diǎn)，Scale AI現(xiàn)在的目標(biāo)是進(jìn)入合成數(shù)據(jù)游戲本身，今年早些時候推出了一個名為 Scale Synthetic 的合成數(shù)據(jù)平臺。
合成數(shù)據(jù)技術(shù)將在未來幾年重塑人工智能世界，擾亂競爭格局并重新定義技術(shù)堆棧。它將通過民主化數(shù)據(jù)訪問來加速人工智能在社會中的傳播。它將成為我們?nèi)斯ぶ悄茯?qū)動的未來的關(guān)鍵催化劑。精通數(shù)據(jù)的個人、團(tuán)隊和組織應(yīng)注意。
本文作者：Rob Toews 是 Radical Ventures 的風(fēng)險投資家，該公司也是 Waabi 的投資者。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

下一篇