雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))AI科技評(píng)論按:6月24日下午,鈦媒體和杉數(shù)科技主辦的2017 AI 大師論壇在京舉行,論壇邀請(qǐng)了五位算法優(yōu)化、機(jī)器學(xué)習(xí)領(lǐng)域的頂尖教授、學(xué)者出席并發(fā)表學(xué)術(shù)演講,雷鋒網(wǎng)記者也對(duì)論壇進(jìn)行了跟蹤報(bào)道。本篇內(nèi)容根據(jù)機(jī)器學(xué)習(xí)領(lǐng)域?qū)<依罱ǖ恼搲窒韺?shí)錄整理而成。
李建,清華大學(xué)交叉信息研究院助理教授、杉樹(shù)科技科學(xué)家,美國(guó)馬里蘭大學(xué)博士、國(guó)內(nèi)機(jī)器學(xué)習(xí)領(lǐng)域最頂尖的前沿科學(xué)家之一,國(guó)際學(xué)術(shù)會(huì)議VLDB 2009和ESA 2010最佳論文獎(jiǎng)獲得者,清華211基礎(chǔ)研究青年人才支持計(jì)劃以及教育部新世紀(jì)人才支持計(jì)劃青年學(xué)者,主要研究方向?yàn)樗惴ㄔO(shè)計(jì)與分析、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)、隨機(jī)優(yōu)化與組合優(yōu)化等。
清華大學(xué)交叉信息研究院:該院于2011年成立,由姚期智院士建立,姚其智院士是我國(guó)唯一的圖靈獎(jiǎng)獲得者(圖靈獎(jiǎng)是計(jì)算機(jī)科學(xué)最高獎(jiǎng))。他在2005年從普林斯頓大學(xué)辭去職位,回國(guó)全職到清華創(chuàng)立姚班,也就是交叉信息研究院的本科生班,也被稱為清華大學(xué)計(jì)算機(jī)科學(xué)實(shí)驗(yàn)班。
以下為李建在論壇的分享實(shí)錄,雷鋒網(wǎng)做了不改動(dòng)愿意的編輯整理:
什么是時(shí)空大數(shù)據(jù)
時(shí)空大數(shù)據(jù),顧名思義,也全都是大數(shù)據(jù),有時(shí)間的屬性和空間的屬性兩個(gè)維度。比如說(shuō),GPS數(shù)據(jù),首先有定位點(diǎn),定位點(diǎn)就是空間的屬性,進(jìn)入的時(shí)間就是時(shí)間的屬性。還有網(wǎng)約車(chē)的訂單數(shù)據(jù),發(fā)的這個(gè)訂單數(shù)據(jù)就有當(dāng)時(shí)的時(shí)間和空間,也是時(shí)空大數(shù)據(jù)典型的例子。
另外庫(kù)存管理產(chǎn)生的數(shù)據(jù)頁(yè)是時(shí)空大數(shù)據(jù),杉數(shù)科技主要的一個(gè)業(yè)務(wù)就是供應(yīng)鏈,用來(lái)做庫(kù)存管理。其中包含很多步驟,在線的電商數(shù)據(jù),社交網(wǎng)絡(luò)的數(shù)據(jù),也都是典型的時(shí)空大數(shù)據(jù)。
金融數(shù)據(jù)在某種意義上也是時(shí)空大數(shù)據(jù)。首先有時(shí)間的屬性,時(shí)間序列,另外比如說(shuō)不同的板塊,不同的類型,不同的行業(yè),有不同的空間屬性,也是比較典型的時(shí)空大數(shù)據(jù)。
時(shí)空大數(shù)據(jù)的特點(diǎn)
時(shí)空大數(shù)據(jù)的特點(diǎn)既有時(shí)間的屬性也有空間的屬性,就像談到深度學(xué)習(xí),經(jīng)常談到比如說(shuō)圖像識(shí)別,其中很重要一點(diǎn)就是識(shí)別圖象的空間屬性。如果大家對(duì)深度學(xué)習(xí)有一點(diǎn)了解,做圖像識(shí)別是需要用CNN(卷積神經(jīng)網(wǎng)絡(luò))的,主要挖掘的就是空間的多變性,所以時(shí)空大數(shù)據(jù)是跟圖像識(shí)別有共通的。在時(shí)間上,還有一個(gè)時(shí)間的屬性,RNN,也就是遞推神經(jīng)網(wǎng)絡(luò)處理序列的數(shù)據(jù),這些時(shí)空大數(shù)據(jù)也包含。同時(shí)包含時(shí)間和空間的這兩個(gè)屬性,就對(duì)時(shí)空大數(shù)據(jù)提出很多新的挑戰(zhàn)。
同時(shí),另一個(gè)時(shí)空大數(shù)據(jù)的特點(diǎn)是有很多類型的數(shù)據(jù)。要解決一個(gè)問(wèn)題要用到方方面面的信息,比如說(shuō)預(yù)測(cè)網(wǎng)約車(chē)訂單供需量的應(yīng)用,數(shù)據(jù)的類型就包含很多種,像GPS,訂單的數(shù)據(jù),天氣的數(shù)據(jù)還有附近的路況數(shù)據(jù),可以用的數(shù)據(jù)非常多種。這跟原來(lái)深度學(xué)習(xí)所處理的問(wèn)題不一樣,做圖像識(shí)別只需要圖像就夠了,要做語(yǔ)音識(shí)別,只需要語(yǔ)音就夠了,而時(shí)空大數(shù)據(jù)要有各種各樣的數(shù)據(jù),這些數(shù)據(jù)都是不同質(zhì)的,需要組合起來(lái),然后來(lái)進(jìn)行學(xué)習(xí)和預(yù)測(cè)。
李建認(rèn)為目前深度學(xué)習(xí)在比如說(shuō)圖像識(shí)別、語(yǔ)音識(shí)別這些領(lǐng)域,都可以說(shuō)比較成功,也有很成功的商業(yè)化模式,但深度學(xué)習(xí)在時(shí)空大數(shù)據(jù)方面的研究,只是剛剛起步還沒(méi)有非常成熟的一套方法論。他剛好研究這個(gè)方向就做了一系列的工作,相當(dāng)于是一個(gè)初步的嘗試,而且也應(yīng)用到了企業(yè)級(jí)的應(yīng)用項(xiàng)目上。其中包含和杉數(shù)的一些合作項(xiàng)目。
他認(rèn)為將深度學(xué)習(xí)應(yīng)用在時(shí)空大數(shù)據(jù)的分析上有非常廣闊的前景。
基于深度學(xué)習(xí)的網(wǎng)約車(chē)訂單預(yù)測(cè)。網(wǎng)約車(chē)訂單的問(wèn)題,是要解決什么樣的問(wèn)題呢?首先想做的事情是預(yù)測(cè)未來(lái)比如說(shuō)15分鐘或者半個(gè)小時(shí),在一個(gè)指定的區(qū)域內(nèi)會(huì)有多少網(wǎng)約車(chē)訂單。也就是說(shuō),你用滴滴發(fā)一個(gè)訂單,這是一個(gè)預(yù)測(cè)目標(biāo),有多少的訂單,就相當(dāng)于是我們的需求。另外一個(gè)想預(yù)測(cè)的就是有多少需求不會(huì)滿足,對(duì)滴滴來(lái)說(shuō)也是一個(gè)很重要的應(yīng)用,如果在一個(gè)地區(qū)預(yù)計(jì)將來(lái)比如說(shuō)半個(gè)小時(shí)有很多的訂單不會(huì)滿足的話,就可能會(huì)事先派一些車(chē)到這個(gè)區(qū)域或者說(shuō)經(jīng)過(guò)這個(gè)區(qū)域,另外還會(huì)動(dòng)態(tài)的調(diào)價(jià),這對(duì)他們預(yù)測(cè)問(wèn)題是非常重要的課題。
這個(gè)問(wèn)題的難點(diǎn)就像剛才講的是時(shí)空大數(shù)據(jù)典型的應(yīng)用,各種各樣的數(shù)據(jù)頁(yè)都可以應(yīng)用在里面,比如說(shuō)GPS的數(shù)據(jù)、天氣、路況都非常有影響??梢钥催@個(gè)圖,紅色代表這個(gè)地方的需求量特別大,綠色代表需求量不是很大,可以看到不同區(qū)域的需求量是非常不一樣的。隨著時(shí)間的變化,它的需求也是非常不一樣的,比如上圖隨著時(shí)間從00點(diǎn)到20點(diǎn),可以看到上班的時(shí)候有一個(gè)明顯的高峰,下班的時(shí)候也有明顯的高峰,這顯然是一個(gè)工作的區(qū)域。另一個(gè)區(qū)域就不一樣,是一個(gè)居民區(qū),下班的時(shí)候才會(huì)有比較好的高峰。隨著時(shí)間的變化,周一周二周三周四節(jié)假日對(duì)這個(gè)圖也都會(huì)有非常大的影響。
如何用深度學(xué)習(xí)解決這個(gè)問(wèn)題,傳統(tǒng)的學(xué)習(xí)方法是把很多數(shù)據(jù)源的不同數(shù)據(jù)挖掘出它們的特征,需要不同的組合、創(chuàng)造力或者說(shuō)特殊的方法對(duì)這些數(shù)據(jù)挖掘,然后做一些統(tǒng)計(jì)量把它們拼到一起放在機(jī)器模型里。這個(gè)過(guò)程通常是要花很多很多的時(shí)間,精力和人員的。
現(xiàn)在的想法就是利用深度學(xué)習(xí)自動(dòng)的從不同的數(shù)據(jù)里面挖掘特征。因?yàn)樯疃葘W(xué)習(xí)有一個(gè)自動(dòng)的特征挖掘能力。但是現(xiàn)在深度學(xué)習(xí)在時(shí)空大數(shù)據(jù)中自動(dòng)挖掘特征還沒(méi)有一個(gè)非常好的模式,我們希望做一個(gè)深度學(xué)習(xí)這樣的一個(gè)框架,能夠從各種不同的數(shù)據(jù)源挖掘特征,把這些特征組合在一起,然后有這樣的一個(gè)框架來(lái)進(jìn)行預(yù)測(cè)。
這是經(jīng)過(guò)一段時(shí)間探索得到的深度學(xué)習(xí)框架,這里面有很多的細(xì)節(jié)我都沒(méi)有刻畫(huà),但是大致的思想是這樣的。首先它是一個(gè)彎道模型,經(jīng)過(guò)簡(jiǎn)單的處理,就可以輸入到網(wǎng)絡(luò)里,而且這個(gè)網(wǎng)絡(luò)可以容納不同類型的數(shù)據(jù),比如說(shuō)訂單數(shù)據(jù),天氣數(shù)據(jù),交通數(shù)據(jù)。從這個(gè)數(shù)據(jù)里面抓取有用的信息來(lái)幫助預(yù)測(cè),這是預(yù)測(cè)的輸出。處理每個(gè)不同的數(shù)據(jù)需要不同的網(wǎng)絡(luò)板塊和節(jié)奏,簡(jiǎn)單的說(shuō)就叫ID模塊,想預(yù)測(cè)不同的區(qū)域,這個(gè)區(qū)域就有一個(gè)ID,area ID,把它輸入進(jìn)去,然后想預(yù)測(cè)什么時(shí)間,把時(shí)間的ID輸進(jìn)去,然后哪個(gè)周,把周輸入進(jìn)去。一般神經(jīng)網(wǎng)絡(luò)是處理連續(xù)性的數(shù)據(jù),不擅于處理離散性數(shù)據(jù),這就需要嵌入這樣的技術(shù),把離散的變成連續(xù)性的,然后再輸入下一步神經(jīng)網(wǎng)絡(luò)里。
另外構(gòu)造模塊的處理,訂單的數(shù)據(jù),是復(fù)雜的模塊,因?yàn)橛唵问紫葦?shù)量非常非常的大。每個(gè)訂單包含的屬性非常多,但是這里面是受到傳統(tǒng)的時(shí)間序列模型啟發(fā)。比如說(shuō)時(shí)間序列,如果時(shí)間序列模型做一下插分會(huì)有更好的預(yù)測(cè),在神經(jīng)網(wǎng)絡(luò)就有這樣的思想,預(yù)測(cè)經(jīng)過(guò)插分的序列,然后把訂單數(shù)據(jù)整合起來(lái)。
這個(gè)圖片是講的嵌入操作的功能,在做傳統(tǒng)機(jī)器學(xué)習(xí)的時(shí)候,比如說(shuō),現(xiàn)在想預(yù)測(cè)周一某一個(gè)時(shí)間段的供需,周一和周二的預(yù)測(cè)是不一樣的,現(xiàn)在想法是把歷史上周一的數(shù)據(jù)拿出來(lái)做一下訓(xùn)練,周二的數(shù)據(jù)再拿出來(lái)訓(xùn)練另外的模型,訓(xùn)練不同的模型,因?yàn)檫@個(gè)非常不一樣,把它們?nèi)谠谝黄鹩?xùn)練一個(gè)模型效果并不太好?,F(xiàn)在深度神經(jīng)網(wǎng)絡(luò)就希望把所有的數(shù)據(jù)拿出來(lái)練一個(gè)模型,通過(guò)嵌入操作對(duì)這些數(shù)據(jù),這個(gè)點(diǎn)進(jìn)行歸類,看這兩個(gè)曲線的時(shí)間序列,然后就會(huì)發(fā)現(xiàn)這個(gè)高峰非常的相似,這是自動(dòng)的進(jìn)行歸類,一定時(shí)間中他們也非常相近。
這是深度神經(jīng)網(wǎng)絡(luò)得到的預(yù)測(cè)的效果,和傳統(tǒng)的方法比了一下,比如說(shuō)LASSO,GBDT也是非常常見(jiàn)的一個(gè)方法,還有RF,也都是大家常用的。團(tuán)隊(duì)有一個(gè)BasicDeepsd,這個(gè)是簡(jiǎn)單版本,滴滴做這個(gè)項(xiàng)目舉辦了一場(chǎng)大數(shù)據(jù)競(jìng)賽,全球有1000多個(gè)隊(duì)伍參加,Basic DeepSD獲得第二名,當(dāng)時(shí)給的數(shù)據(jù)比較少,模型還可以有進(jìn)一步的提升,后來(lái)跟滴滴進(jìn)一步的合作,研發(fā)了Advanced DeepSD,結(jié)果很明顯得到了提升。
這個(gè)虛線綠的是真實(shí)值,紅線是傳統(tǒng)的非常好的GBDT方法,藍(lán)線的是DeepSD新方法,紅線的預(yù)測(cè)多了,藍(lán)的預(yù)測(cè)的好一點(diǎn),有些地方是紅線預(yù)測(cè)的少,像紅的是傳統(tǒng)方法預(yù)測(cè)的就比正常的少,但是我們算法要好一點(diǎn)。
深度學(xué)習(xí)能夠更好抓住變化的趨勢(shì)
第二個(gè)場(chǎng)景是出行時(shí)間預(yù)測(cè),比如說(shuō)在百度地圖里面從A點(diǎn)走到B點(diǎn),然后想預(yù)測(cè),開(kāi)車(chē)要開(kāi)多久。當(dāng)時(shí)從8點(diǎn)開(kāi)車(chē),當(dāng)時(shí)這個(gè)地方非常非常堵,預(yù)測(cè)要花很多的時(shí)間,等開(kāi)到這個(gè)附近已經(jīng)不堵了,實(shí)際上花的時(shí)間沒(méi)這么多了。當(dāng)時(shí)不堵,開(kāi)到這邊就堵了,在當(dāng)時(shí)計(jì)算的時(shí)間也不一樣。這里面就是計(jì)算加預(yù)測(cè)的問(wèn)題。
這里面也有很多的挑戰(zhàn),不光是有路況,也有地點(diǎn)的屬性,要處理新的數(shù)據(jù),也就叫做trajectory 數(shù)據(jù),另外還包括具體的司機(jī)的屬性,根據(jù)一些歷史信息,對(duì)這個(gè)新的司機(jī)開(kāi)一個(gè)新的路會(huì)花多久進(jìn)行預(yù)測(cè)。某種意義上是學(xué)習(xí)司機(jī)的習(xí)慣。
這是團(tuán)隊(duì)研發(fā)的深度學(xué)習(xí)框架,大致的數(shù)據(jù)理念跟剛才一樣的,有一系列的模塊,不同的模塊處理不同的數(shù)據(jù)源。像上面提到的這個(gè)也有ID數(shù)據(jù)。完全不一樣的是這個(gè)數(shù)據(jù)是序列數(shù)據(jù)類型,是一個(gè)新的模塊,新的模塊我們用的是LSTM(長(zhǎng)短記憶模型),這個(gè)在深度學(xué)習(xí)里面是非常重要的模塊應(yīng)用,是用來(lái)做序列學(xué)習(xí)非常重要且很有力的工具。團(tuán)隊(duì)把這個(gè)通過(guò)一系列的方式組合起來(lái)進(jìn)行預(yù)測(cè)。
這是中間一個(gè)序列模塊,用來(lái)預(yù)測(cè)這個(gè)序列。
另外針對(duì)提到的有很多輔助信息,發(fā)展了一個(gè)輔助內(nèi)容的模塊。雖然說(shuō)想預(yù)測(cè)從A點(diǎn)到B點(diǎn)花的時(shí)間,結(jié)果就是一個(gè)數(shù)值,但實(shí)際有很多信息的,從A到B走每一段小路都是有時(shí)間的,知道走多長(zhǎng)時(shí)間,這些都是輔助信息。如果把這些輔助信息丟掉預(yù)測(cè)的話就有點(diǎn)浪費(fèi),所以就專門(mén)用一個(gè)模塊來(lái)利用這些輔助信息把預(yù)測(cè)做到更好。
下面是商店選址,傳統(tǒng)的商店選址,通過(guò)優(yōu)化的方法,或者說(shuō)通過(guò)問(wèn)卷調(diào)查的方法,在一個(gè)地方發(fā)一些問(wèn)卷,看這個(gè)地方有多少人進(jìn)這個(gè)商店,這種成本代價(jià)比較高,而且并不是非常準(zhǔn)確。團(tuán)隊(duì)就跟百度大數(shù)據(jù)實(shí)驗(yàn)室合作進(jìn)行一個(gè)項(xiàng)目,利用百度的大數(shù)據(jù)來(lái)確定幫助進(jìn)行商店選址。大致就是,首先進(jìn)行用戶的需求分析,分析什么地方會(huì)有很多用戶需求,然后就在用戶去的多的地方進(jìn)行選址會(huì)比較好一點(diǎn)。這個(gè)需求實(shí)際上是從百度的移動(dòng)端里面挖掘的,比如在百度地圖里面搜了一下想去星巴克,那么就代表有一個(gè)單位的需求,或者說(shuō)專門(mén)搜了一下咖啡也是代表有需求,或者說(shuō)想吃飯、海底撈、飯館。首先總結(jié)這些需求,一種是非常具體的需求,比如說(shuō)星巴克,就想去星巴克的這個(gè)店,另外一種比如說(shuō)想喝咖啡,這樣的需求。
利用這些需求知道哪些需求比較多哪些需求比較少,然后就會(huì)有這樣的一個(gè)數(shù)據(jù)。
現(xiàn)有的商店數(shù)據(jù)。因?yàn)楸热缯f(shuō)想開(kāi)咖啡店,這已經(jīng)有三五個(gè)咖啡店就不想再在這里開(kāi)咖啡店,現(xiàn)有的咖啡店的數(shù)據(jù)也是有的,每個(gè)咖啡店也有自己的數(shù)據(jù),能夠服務(wù)大概多少的需求,就是希望看看剩下的哪些需求還沒(méi)有被滿足,比如說(shuō)這個(gè)例子中有很多的供給,這個(gè)供給已經(jīng)可以滿足需求了,有這樣的模型,一個(gè)供給可以滿足多少需求,剩下的這些需求進(jìn)行一個(gè)聚類,然后大數(shù)據(jù)分析得到一些中心點(diǎn),這就是后選的一些選址的位置。最后做機(jī)器學(xué)習(xí)找出最好的中心點(diǎn)。上面的圖是是根據(jù)距離、店的大小判斷去掉已經(jīng)有的需求。
這里有一個(gè)實(shí)地的案例分析,就是用上面提到的方法去進(jìn)行選址,比如說(shuō)第一個(gè)圖,是海底撈,后來(lái)發(fā)現(xiàn),在不遠(yuǎn)處就剛剛開(kāi)了這樣的一個(gè)店,開(kāi)店的人并不知道是大數(shù)據(jù)選的址。大數(shù)據(jù)選址可能跟他們選的也差不多,但是會(huì)給出很多的后選的地點(diǎn)。
這個(gè)是到訪預(yù)測(cè)。走到一個(gè)購(gòu)物商場(chǎng),有很多的店,那么實(shí)際上到了哪一個(gè)店這是想要的數(shù)據(jù)。到了購(gòu)物商場(chǎng)會(huì)連到這個(gè)wifi,這個(gè)數(shù)據(jù)頁(yè)是要用的數(shù)據(jù)。也有一些現(xiàn)有的工作,基于這個(gè)距離的,還用一些傳統(tǒng)的learning-to-rank,這個(gè)效果都一般,比如說(shuō)這個(gè)人,想去哪一個(gè)地方,下一步會(huì)有一個(gè)偏好,如果光看一個(gè)人的話并不能抓住這些特點(diǎn)。這個(gè)框架跟剛才的類似,有一個(gè)不同就是用了貝葉斯方法,可以處理一個(gè)難點(diǎn),就是GPS的數(shù)據(jù)比較多,但是check in比較少的情況下,推斷去哪些點(diǎn),然后把這個(gè)推斷分到深度學(xué)習(xí)框架里,這個(gè)預(yù)測(cè)的準(zhǔn)確率還是不錯(cuò)的。最后的是這個(gè)準(zhǔn)確率模型,簡(jiǎn)單的貝葉斯的方法基本上可以做到。如果預(yù)測(cè)5個(gè),5個(gè)中間有一個(gè)是對(duì)的概率基本上是80%;預(yù)測(cè)3個(gè),70%的概率3個(gè)中間有一個(gè)是對(duì)的。
最后講研發(fā)的這個(gè)深度學(xué)習(xí)框架,是用來(lái)做出入倉(cāng)預(yù)測(cè)的。大型物流公司一般都需要做一下出入倉(cāng)流量預(yù)測(cè),會(huì)方便他們排班或者事先規(guī)劃。這個(gè)框架大致也跟團(tuán)隊(duì)研究的框架很相似。
謝謝大家!
雷鋒網(wǎng)整理編輯
雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))AI科技評(píng)論按:6月24日下午,鈦媒體和杉數(shù)科技主辦的2017 AI 大師論壇在京舉行,論壇邀請(qǐng)了五位算法優(yōu)化、機(jī)器學(xué)習(xí)領(lǐng)域的頂尖教授、學(xué)者出席并發(fā)表學(xué)術(shù)演講,雷鋒網(wǎng)記者也對(duì)論壇進(jìn)行了跟蹤報(bào)道。本篇內(nèi)容根據(jù)機(jī)器學(xué)習(xí)領(lǐng)域?qū)<依罱ǖ恼搲窒韺?shí)錄整理而成。
李建,清華大學(xué)交叉信息研究院助理教授、杉樹(shù)科技科學(xué)家,美國(guó)馬里蘭大學(xué)博士、國(guó)內(nèi)機(jī)器學(xué)習(xí)領(lǐng)域最頂尖的前沿科學(xué)家之一,國(guó)際學(xué)術(shù)會(huì)議VLDB 2009和ESA 2010最佳論文獎(jiǎng)獲得者,清華211基礎(chǔ)研究青年人才支持計(jì)劃以及教育部新世紀(jì)人才支持計(jì)劃青年學(xué)者,主要研究方向?yàn)樗惴ㄔO(shè)計(jì)與分析、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)、隨機(jī)優(yōu)化與組合優(yōu)化等。
清華大學(xué)交叉信息研究院:該院于2011年成立,由姚期智院士建立,姚其智院士是我國(guó)唯一的圖靈獎(jiǎng)獲得者(圖靈獎(jiǎng)是計(jì)算機(jī)科學(xué)最高獎(jiǎng))。他在2005年從普林斯頓大學(xué)辭去職位,回國(guó)全職到清華創(chuàng)立姚班,也就是交叉信息研究院的本科生班,也被稱為清華大學(xué)計(jì)算機(jī)科學(xué)實(shí)驗(yàn)班。
以下為李建在論壇的分享實(shí)錄,雷鋒網(wǎng)做了不改動(dòng)愿意的編輯整理:
什么是時(shí)空大數(shù)據(jù)
時(shí)空大數(shù)據(jù),顧名思義,也全都是大數(shù)據(jù),有時(shí)間的屬性和空間的屬性兩個(gè)維度。比如說(shuō),GPS數(shù)據(jù),首先有定位點(diǎn),定位點(diǎn)就是空間的屬性,進(jìn)入的時(shí)間就是時(shí)間的屬性。還有網(wǎng)約車(chē)的訂單數(shù)據(jù),發(fā)的這個(gè)訂單數(shù)據(jù)就有當(dāng)時(shí)的時(shí)間和空間,也是時(shí)空大數(shù)據(jù)典型的例子。
另外庫(kù)存管理產(chǎn)生的數(shù)據(jù)頁(yè)是時(shí)空大數(shù)據(jù),杉數(shù)科技主要的一個(gè)業(yè)務(wù)就是供應(yīng)鏈,用來(lái)做庫(kù)存管理。其中包含很多步驟,在線的電商數(shù)據(jù),社交網(wǎng)絡(luò)的數(shù)據(jù),也都是典型的時(shí)空大數(shù)據(jù)。
金融數(shù)據(jù)在某種意義上也是時(shí)空大數(shù)據(jù)。首先有時(shí)間的屬性,時(shí)間序列,另外比如說(shuō)不同的板塊,不同的類型,不同的行業(yè),有不同的空間屬性,也是比較典型的時(shí)空大數(shù)據(jù)。
時(shí)空大數(shù)據(jù)的特點(diǎn)
時(shí)空大數(shù)據(jù)的特點(diǎn)既有時(shí)間的屬性也有空間的屬性,就像談到深度學(xué)習(xí),經(jīng)常談到比如說(shuō)圖像識(shí)別,其中很重要一點(diǎn)就是識(shí)別圖象的空間屬性。如果大家對(duì)深度學(xué)習(xí)有一點(diǎn)了解,做圖像識(shí)別是需要用CNN(卷積神經(jīng)網(wǎng)絡(luò))的,主要挖掘的就是空間的多變性,所以時(shí)空大數(shù)據(jù)是跟圖像識(shí)別有共通的。在時(shí)間上,還有一個(gè)時(shí)間的屬性,RNN,也就是遞推神經(jīng)網(wǎng)絡(luò)處理序列的數(shù)據(jù),這些時(shí)空大數(shù)據(jù)也包含。同時(shí)包含時(shí)間和空間的這兩個(gè)屬性,就對(duì)時(shí)空大數(shù)據(jù)提出很多新的挑戰(zhàn)。
同時(shí),另一個(gè)時(shí)空大數(shù)據(jù)的特點(diǎn)是有很多類型的數(shù)據(jù)。要解決一個(gè)問(wèn)題要用到方方面面的信息,比如說(shuō)預(yù)測(cè)網(wǎng)約車(chē)訂單供需量的應(yīng)用,數(shù)據(jù)的類型就包含很多種,像GPS,訂單的數(shù)據(jù),天氣的數(shù)據(jù)還有附近的路況數(shù)據(jù),可以用的數(shù)據(jù)非常多種。這跟原來(lái)深度學(xué)習(xí)所處理的問(wèn)題不一樣,做圖像識(shí)別只需要圖像就夠了,要做語(yǔ)音識(shí)別,只需要語(yǔ)音就夠了,而時(shí)空大數(shù)據(jù)要有各種各樣的數(shù)據(jù),這些數(shù)據(jù)都是不同質(zhì)的,需要組合起來(lái),然后來(lái)進(jìn)行學(xué)習(xí)和預(yù)測(cè)。
李建認(rèn)為目前深度學(xué)習(xí)在比如說(shuō)圖像識(shí)別、語(yǔ)音識(shí)別這些領(lǐng)域,都可以說(shuō)比較成功,也有很成功的商業(yè)化模式,但深度學(xué)習(xí)在時(shí)空大數(shù)據(jù)方面的研究,只是剛剛起步還沒(méi)有非常成熟的一套方法論。他剛好研究這個(gè)方向就做了一系列的工作,相當(dāng)于是一個(gè)初步的嘗試,而且也應(yīng)用到了企業(yè)級(jí)的應(yīng)用項(xiàng)目上。其中包含和杉數(shù)的一些合作項(xiàng)目。
- 小米王昭程揭秘:米家健康秤如何助力運(yùn)動(dòng)健康A(chǔ)pp,實(shí)現(xiàn)全方位數(shù)據(jù)互聯(lián)
- 小米盧偉冰實(shí)測(cè)米家空調(diào)極限性能:挑戰(zhàn)-35℃低溫,新中央空調(diào)將挑戰(zhàn)頭部品牌!
- 小米米家洗衣機(jī)首次全鏈路 OTA 升級(jí),雙區(qū)洗雙洗烘新體驗(yàn)引爆市場(chǎng)
- 國(guó)產(chǎn)NAS新寵飛牛私有云:AI智能相冊(cè)功能驚艷,人臉識(shí)別、事物場(chǎng)景分類助力高效管理
- 索菲亞智能整家全新升級(jí),米家App賦能,智能生活再升級(jí)
- 中央政策助力新能源汽車(chē)等綠色智能產(chǎn)品下鄉(xiāng),推動(dòng)農(nóng)村消費(fèi)升級(jí)
- Meta Orion 豪門(mén)夢(mèng)碎:最強(qiáng)版本2027亮相,眼鏡內(nèi)置攝像頭,AR眼鏡新時(shí)代何時(shí)開(kāi)啟?
- 蘋(píng)果在中國(guó)市場(chǎng)遭遇重大挫折:2024年第四季度銷量大跌18%,被華為和小米超越
- 跨生態(tài)互聯(lián)新篇章:綠米Aqara Matter高階橋接功能引領(lǐng)智能家居新潮流
- 極空間NAS新功能曝光:文檔同步2.0、多端播放器,辦公利器升級(jí)版等你來(lái)體驗(yàn)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。