廣點(diǎn)通背后的大數(shù)據(jù)技術(shù)秘密——大規(guī)模主題模型建模及其在騰訊業(yè)務(wù)中的應(yīng)用(附PPT)

12月14日,騰訊廣點(diǎn)通高級(jí)研究員靳志輝在2014中國(guó)大數(shù)據(jù)技術(shù)大會(huì)上發(fā)表演講,題為《Peacock: 大規(guī)模主題模型及其在騰訊業(yè)務(wù)中的應(yīng)用》。騰訊廣點(diǎn)通高級(jí)研究員靳志輝(Rickjin)所在的廣點(diǎn)通部門(mén),承接的流量一天接近150億,他希望用技術(shù)幫助騰訊更好地處理這些流量,具體而言就是通過(guò)大規(guī)模主題模型學(xué)習(xí)系統(tǒng) Peacock找出用戶在網(wǎng)絡(luò)數(shù)據(jù)深層的密碼?!拔覀冇X(jué)得互聯(lián)網(wǎng)需要挖掘長(zhǎng)尾的語(yǔ)義,主題模型能夠突破傳統(tǒng)處理的一些限制挖掘數(shù)據(jù)里面深層的隱含的語(yǔ)義。以下為作者演講實(shí)錄。

相關(guān)閱讀:

21頁(yè)P(yáng)PT重磅發(fā)布:Mariana——騰訊深度學(xué)習(xí)平臺(tái)的進(jìn)展與應(yīng)用

33頁(yè)P(yáng)PT|騰訊社交網(wǎng)絡(luò)的大數(shù)據(jù)建模框架探索報(bào)告

重磅推薦:129頁(yè)P(yáng)PT講述移動(dòng)時(shí)代創(chuàng)業(yè)黃金法則 via:騰訊企鵝智酷

重磅!50頁(yè)P(yáng)PT揭秘騰訊大數(shù)據(jù)平臺(tái)與推薦應(yīng)用架構(gòu)

36頁(yè)P(yáng)PT│大數(shù)據(jù)分析關(guān)鍵技術(shù)在騰訊的應(yīng)用服務(wù)創(chuàng)新

大家好,我來(lái)自騰訊的效果廣告平臺(tái)部,參與開(kāi)發(fā)的廣告平臺(tái)是廣點(diǎn)通,廣點(diǎn)通目前是騰訊最大的效果廣告平臺(tái),每天承接的流量接近150億PV,未來(lái)其實(shí)應(yīng)該會(huì)達(dá)到200億PV的流量,這是非常海量的流量。作為技術(shù)人員,我們?cè)隍v訊的夢(mèng)想就是希望騰訊變成更加技術(shù)型的公司。我們團(tuán)隊(duì)在廣告部門(mén)所負(fù)責(zé)的主要工作是各種機(jī)器學(xué)習(xí)工具的開(kāi)發(fā),以及利用機(jī)器學(xué)習(xí)工具處理騰訊的用戶數(shù)據(jù)挖掘。之前互聯(lián)網(wǎng)廣告業(yè)務(wù)有兩大機(jī)器學(xué)習(xí)系統(tǒng),第一大系統(tǒng) Logistic Regression,廣泛用于廣告點(diǎn)擊率預(yù)估;第二大系統(tǒng)就是隱含主題建模(Latent Topic Model)。這兩大系統(tǒng)早期都是由谷歌推動(dòng)的,然后傳播到國(guó)內(nèi)的各個(gè)互聯(lián)網(wǎng)公司。當(dāng)然,現(xiàn)在由于深度學(xué)習(xí)的興起,最近廣告業(yè)務(wù)中又增加了一套基于 DNN 的系統(tǒng)。

在隱含主題模型方向上,我們從 2010 年開(kāi)始就不斷的做一些探索,我今天要講的Peacock 系統(tǒng)就是我們團(tuán)隊(duì)在主題模型建模上的工作。今天的報(bào)告主要分成如下幾個(gè)部分:我先Demo一下我們Peacock系統(tǒng)是如何工作的,隨后簡(jiǎn)單介紹一下主題模型的背景,接著介紹Peacock是怎么來(lái)實(shí)現(xiàn)大規(guī)模并行計(jì)算的,最后我們講一下主題模型在騰訊業(yè)務(wù)中的應(yīng)用。

先來(lái)講幾個(gè)例子。用戶在網(wǎng)絡(luò)上的行為會(huì)留下很多的數(shù)據(jù),其中最典型是一些文本數(shù)據(jù),你搜索的一些文章,你發(fā)的微博,我們通過(guò)自然語(yǔ)言處理技術(shù)理解這些詞。第一個(gè)例子是用戶搜索了“紅酒木瓜湯”,這樣的Query給它展示什么廣告? 單純的從關(guān)健詞來(lái)說(shuō),多是酒或者水果。第二個(gè)詞是“蘋(píng)果”,蘋(píng)果實(shí)際上是多義詞,可以是水果也可以是手機(jī)。第三個(gè)詞“莫代爾”,在座的估計(jì)很多人不知道這個(gè)詞是什么意思。

如果我們把這些詞輸入Peacock系統(tǒng),我們看看系統(tǒng)會(huì)產(chǎn)生什么樣的輸出。我們可以看到Peacock 系統(tǒng)打印出很多行,每一行其實(shí)代表一個(gè)主題(topic),“紅酒木瓜湯”系統(tǒng)給出的第一個(gè)主題的語(yǔ)義解釋是 “減肥、豐胸、美容” ,從廣告系統(tǒng)的角度,如果能夠展現(xiàn)跟女性減肥、豐胸更相關(guān)廣告,這個(gè)點(diǎn)擊率可能高。我們發(fā)現(xiàn)整個(gè)Peacock的系統(tǒng)處理文本語(yǔ)義的時(shí)候,不同的主題有不同的權(quán)重,展現(xiàn)的時(shí)候按照主題權(quán)重排序,而每個(gè)主題用一包詞描述。

我們看下一個(gè)例子,我們?nèi)绻选碧O(píng)果”輸入Peacock,我們打印出來(lái)幾行,第一行 ” 蘋(píng)果、收集、iphone、電腦…” 基本上講蘋(píng)果手機(jī),第二行”范冰冰、蘋(píng)果、電影、佟大為…”,這一行就是講范冰冰和佟大為拍的《蘋(píng)果》電影。第三行還是講手機(jī),第四行” 千克、大米、蘋(píng)果…”,這個(gè)是講水果。 所以系統(tǒng)對(duì)”蘋(píng)果” 給出了多義詞的解釋。我們改一下輸入,比如說(shuō)輸入”蘋(píng)果大尺度”,我們會(huì)發(fā)現(xiàn)這時(shí)候排在第一位不再是蘋(píng)果手機(jī),排在第一位是范冰冰《蘋(píng)果》電影。從語(yǔ)義排序來(lái)說(shuō),傳統(tǒng)的排序處理方式很難發(fā)現(xiàn)這個(gè)語(yǔ)義是跟電影相關(guān)的。如果把輸入修改為”蘋(píng)果價(jià)格”,我們發(fā)現(xiàn),這個(gè)系統(tǒng)排在第一位就是蘋(píng)果手機(jī)。

最后一個(gè)例子”莫代爾”,Peacock 輸出的第一個(gè)語(yǔ)義是什么?”內(nèi)衣、飽暖、性感…”, 之前我并懂這個(gè)詞,這個(gè)詞我們?cè)诰W(wǎng)絡(luò)上搜一下才發(fā)現(xiàn),莫代爾是一種內(nèi)衣的材料,一般男性都不太清楚,女性可能知道。所以對(duì)于一些長(zhǎng)尾語(yǔ)義,系統(tǒng)也能挖掘出來(lái)。

總體上這是我們系統(tǒng)做的事,我們把系統(tǒng)命名為Peacock,孔雀,原因我們是覺(jué)得互聯(lián)網(wǎng)需要挖掘長(zhǎng)尾的語(yǔ)義,主題模型能夠突破傳統(tǒng)處理的一些限制,挖掘數(shù)據(jù)里面深層的隱含語(yǔ)義。這個(gè)系統(tǒng)是由王益博士主導(dǎo)設(shè)計(jì)的,我們團(tuán)隊(duì)從2010年開(kāi)始陸續(xù)折騰了四年,在這個(gè)方向有很大投入。

接下來(lái)我們講一下主題模型一些背景。在座的來(lái)自各行各業(yè),有可能有人不太清楚什么是隱含主題模型,我用幾張幻燈片介紹一下主題模型背后的含義。傳統(tǒng)的文本建模,譬如語(yǔ)言模型建模,基本假設(shè)是一個(gè)詞按照概率跳躍到下一個(gè)詞再跳躍到下一個(gè)詞,這種 NGram模型解決語(yǔ)音識(shí)別、機(jī)器翻譯的時(shí)候非常有效。另外一種文本建模的方式就是隱含主題模型,這個(gè)假設(shè)是怎么樣的?是說(shuō)人寫(xiě)文章的時(shí)候其實(shí)先設(shè)定主題,然后由主題生成詞的,而不是第一個(gè)詞生成下一個(gè)詞。舉一個(gè)例子,假設(shè)一個(gè)記者想寫(xiě)一篇文章報(bào)道我們技術(shù)大會(huì),文章可能有不同的幾個(gè)主題,我們把不同的主題理解為用詞的不同,講到計(jì)算機(jī)這個(gè)主題,可能會(huì)用到”內(nèi)存、硬盤(pán)、CPU、編程語(yǔ)言、C++ …”等這些詞,講到晚宴這個(gè)主題的時(shí)候,可能會(huì)用到 “晚宴、酒…” 這些詞。 在建模的時(shí)候,主體模型認(rèn)為,不同的主題是用詞的概率分布來(lái)描述的。

基于上面的假設(shè),我們實(shí)際上是使用一個(gè)三層結(jié)構(gòu)(幻燈片上的)在寫(xiě)文章的:黑節(jié)點(diǎn)代表文檔,中間的不同顏色節(jié)點(diǎn)是不同的主題, 藍(lán)色節(jié)點(diǎn)代表詞。每個(gè)詞在文檔中的生成過(guò)程是:文檔先選定一個(gè)主題,然后由主題選定一個(gè)詞,這就是最傳統(tǒng)的主題模型。這里面問(wèn)題是這樣的:我們做了這個(gè)模型假設(shè)以后,其實(shí)我們觀察到是文檔和詞,左邊和右邊的節(jié)點(diǎn)是我們觀察到的,中間這一層節(jié)點(diǎn)是隱含層我們觀察不到。文檔和主題之間的邊上有概率分布,主題和詞之間的邊上也有概率分布,每一條邊粗細(xì)的區(qū)分意思是說(shuō)概率不一樣。

這個(gè)模型中我們假設(shè)每一條邊表示一個(gè)概率值,對(duì)應(yīng)一個(gè)模型參數(shù)。 這個(gè)是傳統(tǒng)頻率派的模型,叫 PLSA 模型,在貝葉斯統(tǒng)計(jì)理論框架下,任何一個(gè)參數(shù)都是隨機(jī)變量,每一個(gè)概率邊對(duì)應(yīng)的模型參數(shù)都有一個(gè)先驗(yàn)分布,引入這個(gè)先驗(yàn)后PLSA模型就被改造成了LDA 模型。在主題模型中,整個(gè)文檔生成過(guò)程就是走概率路徑選詞的過(guò)程。譬如,這個(gè)詞可以從紅色這條路徑生成,也可以從綠色、藍(lán)色這條路徑走。如果說(shuō)文檔生成的時(shí)候,中間的隱含主題層能夠被觀察到,模型訓(xùn)練實(shí)際上就變得特別簡(jiǎn)單:參數(shù)預(yù)估的時(shí)候統(tǒng)計(jì)數(shù)數(shù)就行了,把數(shù)數(shù)出來(lái)頻率計(jì)數(shù)放在每條邊上,最后做一個(gè) Normalization 就變成一個(gè)參數(shù)概率預(yù)估值。

問(wèn)題是中間的隱含層是觀察不到的,觀察不到的時(shí)候應(yīng)該怎么做?這個(gè)模型怎么訓(xùn)練?數(shù)學(xué)家給我們提供了一種漂亮的方式:分三步就可以把模型訓(xùn)練出來(lái)。

第一步,中間的隱含主題我們不知道,那首先每個(gè)詞的主題隨機(jī)給。譬如第一篇文章,我們讓第一個(gè)詞走紅色這條路徑生成出來(lái),第二個(gè)詞也走紅色路徑,第三個(gè)詞走藍(lán)色路徑,每一個(gè)詞走哪個(gè)路徑先隨機(jī)給。隨機(jī)給完以后我們可以數(shù)數(shù)了。左邊的邊上數(shù)出文檔到主題的計(jì)數(shù),右邊的邊上數(shù)出主題到詞的計(jì)數(shù),有了這些計(jì)數(shù)就可以估計(jì)模型的兩類參數(shù):文檔到主題的概率值和主題到詞的概率值。于是每一條邊上都有模型參數(shù)的概率估計(jì)值。

第二步,就是重新的采樣每個(gè)詞對(duì)應(yīng)的主題,物理含義就是按照概率分布重新走路徑。對(duì)每一個(gè)詞我重新選一條路徑,第一個(gè)詞剛開(kāi)始走紅色這條路徑,現(xiàn)在評(píng)估一下走紅色這個(gè)路徑好不好,這個(gè)詞有三條路徑走到這里,走紅色、綠色、藍(lán)色,我們把三條路徑概率都算出來(lái),原來(lái)走紅色的路徑我重新采樣之后變成走藍(lán)色的這條路徑。整個(gè)模型訓(xùn)練里面就是對(duì)每一個(gè)詞重新走一下路徑,如果原來(lái)走紅色現(xiàn)在走藍(lán)色了,紅色路徑的頻率計(jì)數(shù)減1,藍(lán)色路徑變成加1。第三步,重復(fù)上面的采樣過(guò)程,這直到模型收斂。 只要不斷簡(jiǎn)單迭代每一個(gè)詞,確定一下應(yīng)該走哪個(gè)路徑,然后整個(gè)語(yǔ)料大約迭代200遍,這個(gè)模型就能收斂,非常簡(jiǎn)單。所以這個(gè)模型訓(xùn)練我們其實(shí)做什么事情?每一個(gè)詞我們只要隨機(jī)給完以后,我們對(duì)每一個(gè)詞的主題做重新的采樣,確定一下原來(lái)路徑好不好,不好我就調(diào)整一下,唯一做的事情就是在所對(duì)應(yīng)的路徑的邊的上做統(tǒng)計(jì)計(jì)數(shù),這個(gè)就是LDA 主題模型的直觀解釋。

就是這么一個(gè)簡(jiǎn)單的模型要把它做大規(guī)模并不容易。去年之前沒(méi)有人把這個(gè)模型中間層做大,做到100萬(wàn)的主題,我們實(shí)際的工業(yè)應(yīng)用中遇到了很多問(wèn)題,我們團(tuán)隊(duì)遇到很多的問(wèn)題,有三個(gè)問(wèn)題我們列在這里。

第一個(gè)問(wèn)題就是如何提升采樣的速度,也就是說(shuō)你從一條路徑換到另外一條路徑的時(shí)候,換的速度太慢了,我們需要有一個(gè)更好的算法,把這條路徑切換到另一條路徑。傳統(tǒng)的算法里面,我要算每一條路徑的概率值,然后從中挑一個(gè)路徑,如果有100萬(wàn)個(gè)主題就需要一百萬(wàn)次計(jì)算,這個(gè)太慢了,工程上受不了。

第二個(gè)如何支持大數(shù)據(jù)大模型,我們互聯(lián)網(wǎng)都是以億、百億論,左邊文檔是億級(jí),右邊詞匯是百萬(wàn)級(jí),中間我們希望是百萬(wàn)級(jí),兩年前學(xué)術(shù)界最多做到一萬(wàn),當(dāng)時(shí)我們團(tuán)隊(duì)開(kāi)發(fā)Peacock 的時(shí)候,定位就是說(shuō)我們做到一百萬(wàn)主題。

第三個(gè)問(wèn)題就是說(shuō)如何提升模型的質(zhì)量,我們做工業(yè)的應(yīng)用一定把這個(gè)模型質(zhì)量提升,超參數(shù) α和β在模型質(zhì)量提升中有重要影響。

整個(gè)Peacock對(duì)這三個(gè)問(wèn)題的解答。第一個(gè)對(duì)于速度,我們用了一個(gè)新的算法叫做SparseLDA,速度可以比標(biāo)準(zhǔn)算法快30倍;第二個(gè)怎么支持大數(shù)據(jù)大模塊,我們說(shuō)矩陣分塊并行計(jì)算。我們支持中間的隱層達(dá)到100萬(wàn)個(gè); 第三個(gè)問(wèn)題是模型質(zhì)量問(wèn)題,每一個(gè)迭代中我們對(duì)α和β做一些優(yōu)化,后期我們做細(xì)節(jié)討論會(huì)對(duì)模型質(zhì)量有很大提升。


第一個(gè)問(wèn)題我展開(kāi)講一下,標(biāo)準(zhǔn)LDA采樣,如果有100萬(wàn)個(gè)主題我要做100萬(wàn)次計(jì)算,但是一個(gè)文檔通常是10 個(gè)詞左右,你去隨機(jī)化的時(shí)候每一個(gè)詞打一個(gè)顏色也就是你這個(gè)文檔有十幾個(gè)顏色,這是sparse的結(jié)構(gòu),利用這個(gè) sparse 的結(jié)構(gòu)就可以大大提升計(jì)算速度,于是工程應(yīng)用上就不是問(wèn)題了。 當(dāng)然現(xiàn)在 SparseLDA 已經(jīng)不是最快的算法了,今年研究界又一次把采樣算法提升了。

第二個(gè)問(wèn)題是我們有十億篇文檔、百萬(wàn)的詞匯,百萬(wàn)的主題,我們?cè)趺醋瞿P偷牟⑿泻蛿?shù)據(jù)的并行。我們把整個(gè)的數(shù)據(jù)用一個(gè)矩陣來(lái)表示,我們希望去做數(shù)據(jù)并行和模型并行,數(shù)據(jù)并行上在機(jī)器學(xué)習(xí)界早就解決了問(wèn)題,簡(jiǎn)單的做法是,整個(gè)數(shù)據(jù)并行的過(guò)程當(dāng)中,數(shù)據(jù)分塊以后每一個(gè)數(shù)據(jù)生成局部模型,然后歸并為一個(gè)全局模型,最后把全局模型回傳回來(lái)更新每一個(gè)局部模型。這里面有一個(gè)問(wèn)題有可能我們模型太大了,無(wú)法存在單機(jī)的內(nèi)存里。所以我們要考慮對(duì)模型也并行化。 我們做一個(gè)更好的設(shè)計(jì)就是把模型和數(shù)據(jù)同時(shí)做,切片成 3*3 九宮格的格式,然后我們按照網(wǎng)格對(duì)角線的方式進(jìn)行并行,所以這時(shí)候我們發(fā)現(xiàn)至少三個(gè)worke可以并行工作不相互干擾,沒(méi)有任何加鎖的困擾。我們現(xiàn)在在這邊實(shí)際上畫(huà)了三個(gè),在實(shí)際的過(guò)程當(dāng)中把數(shù)據(jù)和模型都切成N份。這條對(duì)角線上的三個(gè)可以并行工作,同樣第二條對(duì)角線和第三條對(duì)角線上的worker 也是可以并行工作的。所以這就大大提高了計(jì)算的并行性,提升了計(jì)算效率。

第三個(gè)問(wèn)題我們講模型質(zhì)量的優(yōu)化,標(biāo)準(zhǔn)LDA訓(xùn)練過(guò)程中,對(duì)于α和β的數(shù)參是人工指定的,譬如α= 0.01。 這個(gè)代表什么含義?我們做模型訓(xùn)練的時(shí)候?qū)嶋H上對(duì)每條邊做頻率計(jì)數(shù),數(shù)完以后,如果說(shuō)一條邊沒(méi)有計(jì)數(shù)那么這個(gè)概率就是零。不過(guò)在貝葉斯學(xué)派認(rèn)為這個(gè)不應(yīng)該是零,應(yīng)該填一個(gè)很小的值做一個(gè)概率平滑,我們可以填一個(gè)0.01很小的數(shù)值,這樣這個(gè)路徑還是走得通的,這個(gè)走得通代表模型具有探索能力。α和β在模型中就是起了這樣的作用。給一個(gè)α= 0.01使得模型有探索的能力,會(huì)探索這個(gè)路徑好不好,下次更新模型,這個(gè)路徑好就把老的丟掉了,未來(lái)可以重新不斷的走這個(gè)更好的路徑,好的路徑概率質(zhì)量越來(lái)越高,差的路徑概率越來(lái)越低,于是模型質(zhì)量有自我提升的能力。每個(gè)訓(xùn)練迭代中我們對(duì)α做一個(gè)優(yōu)化做一個(gè)最大似然估計(jì),然后可以觀察到整個(gè)模型質(zhì)量非常大的提升。

我最后一部分講一下Peacock在騰訊業(yè)務(wù)中的應(yīng)用,我們把隱含主題模型應(yīng)用到了騰訊的多個(gè)業(yè)務(wù)中。 騰訊有大量的用戶數(shù)據(jù),我們?cè)趶V點(diǎn)通做用戶行為的挖掘,從兩個(gè)角度看用戶行為數(shù)據(jù),第一個(gè)傳統(tǒng)的NLP的角度,文本處理的角度;第二個(gè)從推薦系統(tǒng)的角度。從文本的角度,我們把Peacock輸出放到每個(gè)文本里面,使得每個(gè)文本可以表示出更好的語(yǔ)義特征,用新的語(yǔ)義特征處理文本的相似度計(jì)算,效果會(huì)好得多。在騰訊里面我們有NLP的工具,我們開(kāi)發(fā)分詞,我們同時(shí)要做分類,topic可以認(rèn)為是一種聚類,把 topic 加到模型中作為特征,提升整個(gè)語(yǔ)義處理的能力。在實(shí)際業(yè)務(wù)中的應(yīng)用,我們?cè)?jīng)優(yōu)化過(guò)廣告相關(guān)性,把 topic 加到整個(gè)相關(guān)性計(jì)算中,搜索的相關(guān)性準(zhǔn)確度提升很顯著。

另外一點(diǎn)從推薦系統(tǒng)角度理解語(yǔ)義挖掘。騰訊業(yè)務(wù)中的一個(gè)更大的矩陣就是QQ到QQ群矩陣,預(yù)處理之后的規(guī)模大約是 7億X2億。我們用 Peacock 分解這個(gè)大矩陣。 可以發(fā)現(xiàn)分解出來(lái)的很多主題是有意義的。 在這里我們沒(méi)有做任何文本的處理,我們按照用戶加入QQ群的拓?fù)浣Y(jié)構(gòu)鏈接關(guān)系來(lái)做挖掘的。 我們看這3個(gè)挖掘到的主題的含義, 這是關(guān)于股票的,這是關(guān)于游戲的,這些是關(guān)于媽媽群的,語(yǔ)義都非常明確。

最后我們?cè)僬勔恍㏎Q群的應(yīng)用。我們把 Peacock分解出來(lái)的一些主題作為特征,加入分類器中進(jìn)行訓(xùn)練,顯著提升分類效果。 Peacock 在QQ群的應(yīng)用中,最后講一點(diǎn)是 QQ 群推薦。 最早QQ群推薦是基于朋友關(guān)系鏈的方式做的,即把你的朋友喜歡的 QQ 群推薦給你?,F(xiàn)在我們用推薦系統(tǒng)的思路,基于Peacock做 QQ-QQ群矩陣分解,然后利用分解后的矩陣做推薦計(jì)算。 線上實(shí)驗(yàn)效果非常好,原來(lái)點(diǎn)擊率本來(lái)不低可以到20%,我們優(yōu)化以后提高了接近3 倍。

最后簡(jiǎn)單總結(jié)一下,LDA 是簡(jiǎn)單、優(yōu)雅、實(shí)用的模型,我們實(shí)現(xiàn)Peacock 就是希望這個(gè)模型能夠應(yīng)對(duì)當(dāng)今互聯(lián)網(wǎng)的大數(shù)據(jù),同時(shí)把它推向產(chǎn)品應(yīng)用,謝謝!

End.

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2015-01-09
廣點(diǎn)通背后的大數(shù)據(jù)技術(shù)秘密——大規(guī)模主題模型建模及其在騰訊業(yè)務(wù)中的應(yīng)用(附PPT)
相關(guān)閱讀:

長(zhǎng)按掃碼 閱讀全文