專家觀點(diǎn):AI應(yīng)用中寬數(shù)據(jù)比大數(shù)據(jù)更有價(jià)值

在當(dāng)今快節(jié)奏的數(shù)字世界中,數(shù)據(jù)的使用不斷發(fā)展,以幫助企業(yè)更好地理解來(lái)自大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)庫(kù)的見(jiàn)解。然而,雖然大數(shù)據(jù)可以提供對(duì)業(yè)務(wù)至關(guān)重要的分析,但這些數(shù)據(jù)主要是用來(lái)展示過(guò)去時(shí)態(tài)發(fā)生了什么。在執(zhí)行預(yù)測(cè)性和說(shuō)明性分析時(shí),越來(lái)越多地必須考慮廣泛的數(shù)據(jù)。

這就是人工智能可以發(fā)揮作用的地方,也是大數(shù)據(jù)對(duì)人工智能的需求出現(xiàn)分歧的地方。大數(shù)據(jù)被定義為三個(gè)因素:容量、速度和多樣性。體積是指可用數(shù)據(jù)的大小,速度是指數(shù)據(jù)到達(dá)和處理的速度。然而,企業(yè)要想有效地將數(shù)據(jù)用于人工智能的預(yù)測(cè)目的,就需要各種數(shù)據(jù)。隨著人工智能在各個(gè)領(lǐng)域的應(yīng)用日益普及,訪問(wèn)不同數(shù)據(jù)集的能力至關(guān)重要,也是人工智能算法的催化劑。換句話說(shuō),不要讓數(shù)據(jù)太過(guò)平淡無(wú)奇,而要讓它更多樣化。我們將這種數(shù)據(jù)稱為各種各樣的“寬數(shù)據(jù)”(Wide Data),這些數(shù)據(jù)來(lái)自組織的內(nèi)部、外部、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。這一點(diǎn)至關(guān)重要,因?yàn)樵谌蚧?jīng)濟(jì)中,企業(yè)業(yè)績(jī)?nèi)Q于許多參數(shù)。

大數(shù)據(jù)應(yīng)用的一個(gè)例子是看看在美國(guó)不同地區(qū)設(shè)計(jì)產(chǎn)品的兩個(gè)制造工廠。這兩家工廠的地理位置會(huì)對(duì)生產(chǎn)產(chǎn)生影響,尤其是在發(fā)生暴風(fēng)雪等自然災(zāi)害的情況下??紤]天氣和其他幾個(gè)不同的外部因素,再結(jié)合內(nèi)部數(shù)據(jù)來(lái)為人工智能算法提供數(shù)據(jù),將會(huì)對(duì)每個(gè)制造組織的庫(kù)存、供應(yīng)鏈和需求做出更準(zhǔn)確的預(yù)測(cè)。數(shù)據(jù)的多樣性提供了更多的相關(guān)性,因此AI算法可以更好地學(xué)習(xí),從而提供準(zhǔn)確的結(jié)果。

為什么不是數(shù)據(jù)容量?

由于缺乏不同的因變量,數(shù)據(jù)量并不一定意味著算法的學(xué)習(xí)效果更好。雖然從理論上講,擁有大量數(shù)據(jù)對(duì)人工智能應(yīng)用很重要,但對(duì)于高效的算法而言,數(shù)據(jù)的多樣性比數(shù)據(jù)的大小更重要。舉個(gè)例子,我們正在做一個(gè)預(yù)測(cè)癌癥患者數(shù)據(jù)的項(xiàng)目。研究對(duì)象并不多,只生成了150行數(shù)據(jù)。這產(chǎn)生了相對(duì)較少的數(shù)據(jù)來(lái)篩選,它不被認(rèn)為是大數(shù)據(jù)。這就提出了一個(gè)問(wèn)題——人工智能算法是否有足夠的數(shù)據(jù)來(lái)學(xué)習(xí)和預(yù)測(cè)癌癥患者的后續(xù)情況?在這種情況下,答案是肯定的。因?yàn)殡m然只有150行,但生物識(shí)別、生物傳感器和癥狀數(shù)據(jù)卻構(gòu)成了數(shù)千列,這使它成為一個(gè)廣泛的數(shù)據(jù)。

關(guān)鍵在于,對(duì)于人工智能應(yīng)用而言,數(shù)據(jù)的多樣性比數(shù)據(jù)量更重要。寬數(shù)據(jù)的類型

如前所述,有不同類型的數(shù)據(jù),當(dāng)組合時(shí),使其成為一個(gè)寬數(shù)據(jù),如:

內(nèi)部結(jié)構(gòu)化數(shù)據(jù):位于軟件應(yīng)用程序(如 ERP、CRM 系統(tǒng)甚至財(cái)務(wù)系統(tǒng))中的數(shù)據(jù)。內(nèi)部非結(jié)構(gòu)化數(shù)據(jù):作為內(nèi)部非結(jié)構(gòu)化數(shù)據(jù)一部分的文檔、圖像、報(bào)告、圖表和圖表。外部數(shù)據(jù):來(lái)自外部來(lái)源的數(shù)據(jù),如天氣、社會(huì)、經(jīng)濟(jì)數(shù)據(jù)、人口普查數(shù)據(jù)、證券交易所數(shù)據(jù)等。外部非結(jié)構(gòu)化數(shù)據(jù):來(lái)自組織防火墻外部的新聞、圖像、視頻等。CUPP 框架:提供數(shù)據(jù)策略

為了成功采用人工智能,擁有最佳人工智能實(shí)踐非常重要。一個(gè)這樣的框架是 CUPP,它代表收集、統(tǒng)一、處理和呈現(xiàn)。部署這四個(gè)步驟是組織開(kāi)始其 AI 之旅的典型方式。

可能沒(méi)有數(shù)據(jù)戰(zhàn)略或數(shù)據(jù)平臺(tái)的傳統(tǒng)企業(yè)將受益于創(chuàng)建像 CUPP 這樣的框架。在確保準(zhǔn)確性或數(shù)據(jù)準(zhǔn)確性方面,框架也很重要。組織需要干凈、高質(zhì)量的數(shù)據(jù)來(lái)確定理想的結(jié)果,而準(zhǔn)確性會(huì)顯著加快這一過(guò)程。

以下是組織使用 CUPP 框架所經(jīng)歷的基本步驟:

1. 從數(shù)據(jù)普查開(kāi)始

利用數(shù)據(jù)普查方法來(lái)發(fā)現(xiàn)組織內(nèi)部和外部擁有的數(shù)據(jù)資產(chǎn)。

此規(guī)劃過(guò)程的一部分是定位結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的來(lái)源。許多組織可能會(huì)對(duì)他們擁有多少非結(jié)構(gòu)化數(shù)據(jù)感到驚訝,并且進(jìn)行數(shù)據(jù)普查可以讓他們盤(pán)點(diǎn)所有數(shù)據(jù)資產(chǎn)。

2. 了解您的數(shù)據(jù)資產(chǎn)

在建模之前,重要的是要了解組織已經(jīng)擁有什么。這有助于開(kāi)發(fā) AI 最佳實(shí)踐,但需要一點(diǎn)耐心。這將作為AI 應(yīng)用采用的基礎(chǔ)并提供能力投資回報(bào)率。

企業(yè)還需要研究其內(nèi)部-外部結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的收集和統(tǒng)一策略。

3. 使用機(jī)器學(xué)習(xí)和自然語(yǔ)言處理以及機(jī)器學(xué)習(xí)來(lái)轉(zhuǎn)換和理解非結(jié)構(gòu)化內(nèi)容

組織可以獲取他們獲取的非結(jié)構(gòu)化數(shù)據(jù)并利用自然語(yǔ)言處理將其轉(zhuǎn)換為結(jié)構(gòu)化內(nèi)容以訓(xùn)練您的數(shù)據(jù)。

組織也應(yīng)該對(duì)非結(jié)構(gòu)化內(nèi)容感到鼓舞,而不是害怕它,因?yàn)楝F(xiàn)在有幾種技術(shù)可用于對(duì)這些內(nèi)容進(jìn)行非常有意義的使用。

關(guān)于需要使用寬數(shù)據(jù)的關(guān)鍵要點(diǎn)

廣泛的數(shù)據(jù)可以更快地啟動(dòng) AI 之旅,并且對(duì)于幫助組織將來(lái)自各種大小、非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)源的見(jiàn)解情境化至關(guān)重要。隨著技術(shù)的發(fā)展和發(fā)展,沒(méi)有企業(yè)可以忽視數(shù)據(jù)的作用和價(jià)值,都需要圍繞獲取和分析各種數(shù)據(jù)來(lái)制定數(shù)據(jù)策略。

本文作者:Anand Mahurkar是 Findability.Sciences 的首席執(zhí)行官兼創(chuàng)始人。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2022-05-10
專家觀點(diǎn):AI應(yīng)用中寬數(shù)據(jù)比大數(shù)據(jù)更有價(jià)值
對(duì)于企業(yè)來(lái)說(shuō),為了實(shí)現(xiàn)人工智能的預(yù)測(cè)目的,必須有效地使用他們的數(shù)據(jù),必須使用各種數(shù)據(jù),特別是廣泛的數(shù)據(jù)。

長(zhǎng)按掃碼 閱讀全文