Facebook和Netflix都為之著迷的實時機器學習算法,到底是怎么工作的?

原標題:Facebook和Netflix都為之著迷的實時機器學習算法,到底是怎么

最近,F(xiàn)acebook宣布開發(fā)出了一種新的算法Spiral,可以為網(wǎng)站上的數(shù)十億用戶提供實時調(diào)節(jié)的服務。能夠在短短幾分鐘內(nèi)預測并將新結(jié)果輸出給用戶,而不是依靠好幾周的數(shù)據(jù)來優(yōu)化和更新服務。

舉個例子,如果一個用戶突發(fā)奇想,想要知道“我的哪些朋友贊過此貼”,傳統(tǒng)算法的解決方案是,創(chuàng)建一個龐大而持續(xù)的長時間記錄,精心觀察和記錄每個相關用戶行為對結(jié)果的影響。

但Spiral只需要幾分鐘就能收集反饋,自動學習并立即獲得精準推斷。

聽起來是不是很神奇?

最近,這種能夠隨數(shù)據(jù)獲取實時調(diào)整模型的實時機器學習,正在成為媒體技術領域的新“網(wǎng)紅”。曾經(jīng)連續(xù)兩年,都被FTI評為傳媒業(yè)的重要技術趨勢之一,與自然語言理解NLU、機器閱讀理解MRC、音視頻算法等共享金字塔頂端的榮光。

實時機器學習技術的深入應用,將解鎖很多超乎想象的媒體功能和應用場景。但是,盡管學界已經(jīng)在算法上提出了幾種理想的架構(gòu),但產(chǎn)業(yè)端卻未迎來蓬勃的質(zhì)變。這究竟是為什么?

什么是實時機器學習

在開啟扒皮模式之前,我們先來了解一下,實時機器學習究竟在哪些地方比傳統(tǒng)的機器學習更強?

傳統(tǒng)的機器學習(ML)正在媒體領域得到越來越多的應用,利用算法實現(xiàn)內(nèi)容的“個性化推薦”,已經(jīng)成為主流媒體的標配。

但過去的算法,主要側(cè)重于使用靜態(tài)模型和歷史數(shù)據(jù)進行訓練并提供預測。比如用戶在瀏覽網(wǎng)站時,可以根據(jù)用戶歷史行為數(shù)據(jù)來推送新聞。

而一些新的涉及動態(tài)實施決策的業(yè)務,比如具備時效性的熱點新聞,或是用戶想要看點新東西,這就需要用一種新的算法來實現(xiàn),即實時機器學習Real-Time Machine Learning。

以頭條的核心技術“個性化推薦算法”為例,其核心原理就是根據(jù)用戶對文章的歷史行為數(shù)據(jù)反饋,進行統(tǒng)計挖掘和判斷。

比如具有相同偏好的三個用戶,分別選擇了自己喜歡的文章,得到最高票數(shù)的文章就會被推薦給被系統(tǒng)打上同一屬性標簽的第四個人……以此類推。

不難發(fā)現(xiàn),傳統(tǒng)機器學習算法的成功,依賴于對用戶的“知根知底”,需要用戶不斷開放自己的私人領地。

而實時機器學習,更擅長對用戶的當下需求體察入微,讓用戶在保持隱私安全感的同時,獲得如沐春風的瀏覽體驗。

顯然,實時機器學習算法將主導一個令人期待的新世界,也有越來越多的媒體在為此做著準備。

帶來的新挑戰(zhàn)

實時機器學習雖然很美好,但要讓機器在數(shù)據(jù)獲取過程中實時調(diào)整模型,也帶來了不同維度的技術挑戰(zhàn),讓工程師們?yōu)橹d頭:

1. 高吞吐量與低延遲的平衡。

媒體平臺的海量用戶需求,決定了實時機器學習要在每秒處理數(shù)百萬任務量級。以這樣的速度進行大規(guī)模的信息分發(fā),需要細致到毫秒級的任務執(zhí)行能力。

2. 動態(tài)異構(gòu)任務模塊的高效喚醒。

對于Facebook這樣體量龐大的平臺來說,其服務是由成千上萬個不同模塊構(gòu)建而成的,流量調(diào)節(jié)、圖像轉(zhuǎn)碼、存儲編碼等等。在實時任務中,會伴隨生成很多不同資源支持的新任務,增加系統(tǒng)的響應和處理難度。

如何對這些重要且不一樣的特性進行預測,十分具有挑戰(zhàn)性。

3. 實時算法與業(yè)務場景的融合。

實時響應和預測,意味著留給系統(tǒng)的容錯空間更小。要保障這一技術在實際應用場景中的穩(wěn)定性,就要在完成高吞吐量任務的同時,能夠快速模擬真實世界的交互,然后精準地判斷出,哪些是結(jié)果的決定性因素,從而做出正確的響應。

舉個例子,如果想給用戶推薦“哪些朋友贊過此貼”,實時算法會快速判斷出“最近一次查看”這一數(shù)據(jù)集對完成該任務毫無意義,然后快速修改關聯(lián)并重新學習。這種自適應調(diào)整,可以有效防止用戶收到的結(jié)果中出現(xiàn)明顯的錯誤點。

以上這些問題,似乎說明媒體們挑戰(zhàn)實時機器學習的難度還是蠻大的。那么,有必要做這么吃力不討好的事嗎?

進擊的媒體:實時機器學習的N種可能

盡管在剛剛問世時,基于靜態(tài)模型的機器學習算法,展現(xiàn)出了很高的分發(fā)效率優(yōu)勢,目前看來,也仍舊能夠滿足大部分用戶的需求。但在某些場景下,還是會有鞭長莫及的地方:

首先,是高質(zhì)量流媒體體驗帶來的技術要求。目前主流內(nèi)容平臺都在向音視頻業(yè)務推進,面對多元化內(nèi)容和行為數(shù)據(jù)的及時分發(fā),高延遲的解決方案就變得不太理想了。

另外,傳統(tǒng)的機器學習算法,往往會為用戶打上各種各樣的偏好標簽,難以對即時或潛在的信息需求及時洞察與響應。這就會使用戶在“貼心”之余幸福地進入信息繭房,習慣性地被既有興趣所引導,失去了探索未知的動力和可能性。

更為重要的是,靜態(tài)模型對歷史數(shù)據(jù)的規(guī)?;幚恚皇且环N理想狀態(tài)的假設。由于技術能力和隱私授權等重重限制,實現(xiàn)“全樣本”的數(shù)據(jù)分析幾乎不可能,結(jié)果就是其統(tǒng)計結(jié)果往往“以偏概全”。

因此,作為一種更加高效的解決方案,實時機器學習自然成為了接下來媒體平臺提升用戶體驗的主戰(zhàn)場。

其中,又分為了三個主要議題:

1. 常規(guī)信息流與突發(fā)新聞實時推送的相互補充。目前,常規(guī)信息流依然在主流媒體的內(nèi)容呈現(xiàn)中占據(jù)主要位置。而借由實時機器學習,可以將用戶偏好與突發(fā)的熱點事件相結(jié)合,方便讀者及時了解其他事件;

2. 對歷史緩存機制的合理規(guī)避。為了應對用戶的查詢和需求,傳統(tǒng)的機器學習系統(tǒng)需要進行大量的數(shù)據(jù)庫更新。實際上,只有很小一部分數(shù)據(jù)才是真正影響輸出結(jié)果的,這無疑增加了很多不必要的工作量。通過更高效的算法來降低資源存儲和管理成本,自然吸引了媒體們用腳投票;

3. 主動挑戰(zhàn)意外和偏見。媒體的本質(zhì)是建立一個匯集各種不同觀點的公共平臺,而個性化算法總會讓人們停留在認知的舒適區(qū)。未來的新聞服務,如果想要挑戰(zhàn)讀者的偏見,又不愿激怒用戶,就需要運用實時算法來小心試探。未來,商業(yè)服務與新聞意志之間的矛盾,可能會被新的算法所消融,這種結(jié)果無疑會讓媒體的生存環(huán)境變得更好。

總體來說,實時機器學習雖然還是個新生事物,已經(jīng)吸引了眾多媒體巨頭們?yōu)樗萌算俱?,不僅因為它比此前的算法有著更低的成本與更好的療效,更因為它代表了一種媒體與AI融合更光明的前景:讓技術的革新為人類創(chuàng)造更多的可能性,而不是相反。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2018-11-15
Facebook和Netflix都為之著迷的實時機器學習算法,到底是怎么工作的?
帶來的新挑戰(zhàn) 實時機器學習雖然很美好,但要讓機器在數(shù)據(jù)獲取過程中實時調(diào)整模型,也帶來了不同維度的技術挑戰(zhàn),讓工程師們?yōu)橹d頭: 1. 高吞吐量與低延遲的平衡。

長按掃碼 閱讀全文