前幾天寫過一篇「哪些職業(yè)容易被機(jī)器算法取代」,很多人不以為然:我天天上網(wǎng),怎么沒感到機(jī)器算法呢?真那么智能,注冊(cè)個(gè)賬戶又是密碼又是安全問題兩步驗(yàn)證,怎么不搞智能一點(diǎn)呢?
現(xiàn)階段的機(jī)器算法,并不是指具備高等智能的機(jī)器人,也不是有人類情感的仿生人,不過算法確實(shí)在我們的生活中發(fā)揮著各種各樣的作用。比如你打開瀏覽器在網(wǎng)上閑逛的時(shí)候,你會(huì)發(fā)現(xiàn)某個(gè)網(wǎng)站的某個(gè)廣告會(huì)出現(xiàn)一個(gè)你心儀品牌的羽毛球鞋的圖片,點(diǎn)進(jìn)去之后你發(fā)現(xiàn)可以直接購買這款鞋子,出現(xiàn)這樣的推薦是因?yàn)槟闱皫滋煸谶@個(gè)網(wǎng)站上買了一只同品牌的羽毛球拍。為了學(xué)習(xí)人工智能,你買了一本《深度學(xué)習(xí)》,在付款的時(shí)候,你會(huì)發(fā)現(xiàn)頁面下方會(huì)冒出了幾本《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》《Python 機(jī)器學(xué)習(xí)》的書,你忍不住又買了一本……
這就是算法的力量,確切的說,是推薦算法在起作用。
隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展,人們逐漸從信息匱乏的盲區(qū)走入了信息過載(information overload)的時(shí)代。以推薦算法為核心技術(shù)的推薦系統(tǒng)憑借其個(gè)性化推薦和有效降低信息噪音的特點(diǎn)開始被廣泛使用,比如國外的Google、Facebook 和國內(nèi)的今日頭條。
不過,就像談到程序員和工程師就會(huì)想到修電腦的一樣,很多人,尤其是非IT 領(lǐng)域從業(yè)者,對(duì)算法的理解游走在「算數(shù)」與「魔法」兩個(gè)邊緣,有很大的認(rèn)知誤區(qū)。下面我主要以內(nèi)容推薦領(lǐng)域的今日頭條和商品推薦領(lǐng)域的亞馬遜為例,跟大家聊聊推薦算法,幫助讀者更好的理解這個(gè)時(shí)代的互聯(lián)網(wǎng)生活。
誤區(qū)一:推薦算法是根據(jù)用戶點(diǎn)擊率來推薦
這可能算是對(duì)算法最大的誤解之一了。
我們經(jīng)常說,推薦算法實(shí)現(xiàn)了個(gè)性化推薦效果,每個(gè)人看到的東西都是不一樣的。這個(gè)說法忽略了一個(gè)重要的事實(shí):大多數(shù)人喜歡的東西實(shí)際上高度類似,比如最火的流行歌曲、最新的明星八卦。
多年前今日頭條出現(xiàn),喊出了你感興趣的才是頭條。門戶網(wǎng)站之所以覺得很平常沒有跟進(jìn),也是陷入了算法等于點(diǎn)擊的陷阱—— 按照熱度排新聞,是各大門戶網(wǎng)站早就有的功能,有什么新鮮的呢?
真正能挖掘長尾的個(gè)性化推薦,其實(shí)是反點(diǎn)擊的,否則很難實(shí)現(xiàn)個(gè)性化的需求挖掘。系統(tǒng)需要跟進(jìn)更多的用戶信息維度和多種算法模型來發(fā)現(xiàn)和挖掘長尾需求?!堕L尾理論》曾經(jīng)舉過一個(gè)著名的例子。1988年,喬·辛普森寫了一本登山類的書籍《觸及巔峰》,但銷量一直很普通。10年后,另一本講述登山災(zāi)難的書《進(jìn)入稀薄空氣》引起了美國出版業(yè)的轟動(dòng)。亞馬遜發(fā)現(xiàn)有讀者在評(píng)價(jià)《進(jìn)入稀薄空氣》時(shí)提到了《觸及巔峰》,同時(shí)給出了高評(píng)價(jià),于是將《觸及巔峰》推薦給了《進(jìn)入稀薄空氣》的深度讀者。很快,《觸及巔峰》在經(jīng)過十年的慘淡銷量后,獲得了巨大的成功。
實(shí)際上,亞馬遜做的事情就是算法推薦現(xiàn)在做的事。推薦過程不僅要考慮用戶的閱讀軌跡,同時(shí)還要考慮用戶的性別,年齡,甚至手機(jī)機(jī)型等信息,同時(shí)還要綜合考慮新聞的時(shí)效性、以及地理位置等信息對(duì)內(nèi)容進(jìn)行相應(yīng)推薦。而如果只看點(diǎn)擊(銷量),《觸及巔峰》可能永遠(yuǎn)也不會(huì)獲得推薦。
誤區(qū)二:冰箱都買完了還推薦冰箱,點(diǎn)了不喜歡還推薦,算法一點(diǎn)都不聰明
假如你的微信只有一個(gè)好友聯(lián)系人,會(huì)覺得朋友圈好玩嗎?
朋友圈需要更多的好友,算法推薦也需要更多的數(shù)據(jù)。對(duì)新用戶來說,一個(gè)系統(tǒng)或者平臺(tái)可以推薦的內(nèi)容是天文數(shù)字。以淘寶為例,2013 年的時(shí)候,淘寶在線商品數(shù)就超過了8 億,8 億個(gè)候選,推哪一個(gè)?
這時(shí)候,點(diǎn)擊或者瀏覽過的商品/文章,顯然權(quán)重是最高的。對(duì)直接銷售物品的電商來說更是如此,所以無論是國外的亞馬遜還是國內(nèi)的淘寶、京東,實(shí)踐下來,當(dāng)前瀏覽內(nèi)容都是最重要的推薦因素。
而且,買過冰箱推薦冰箱,也未必是算法笨,這可能只是一個(gè)簡單的策略問題—— 你買了冰箱,周圍的朋友可能會(huì)咨詢你冰箱的問題;如果你看到了更喜歡的新款冰箱,很可能在退貨時(shí)間內(nèi)選擇了退了原來商家的冰箱,買個(gè)新冰箱。并且這個(gè)策略很可能造成最后的銷售數(shù)據(jù)的極大提升。
對(duì)相關(guān)新聞點(diǎn)擊「不敢興趣」也類似。當(dāng)你第一次對(duì)奧巴馬演講點(diǎn)擊「不感興趣」時(shí),系統(tǒng)不知道你是對(duì)奧巴馬不感興趣還是對(duì)演講不感興趣,或者單純不喜歡這次的演講主題,所以反而會(huì)繼續(xù)給你推薦相關(guān)的話題,從整體數(shù)據(jù)來看,這樣的推薦策略有時(shí)候是更優(yōu)的。
當(dāng)然,個(gè)性化推薦為了防止過渡擬合出現(xiàn),會(huì)根據(jù)讀者的閱讀紀(jì)錄通過嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)理論分析計(jì)算,推測出同類用戶偏好,依興趣標(biāo)簽的關(guān)聯(lián)程度,推測出同類用戶其他偏好,并進(jìn)行「聯(lián)想式」的推薦。比如當(dāng)機(jī)器發(fā)現(xiàn)閱讀「總統(tǒng)大選」相關(guān)信息的用戶群體中,有很大部分人都在同時(shí)關(guān)注「股票」信息,那么機(jī)器就會(huì)把「股票」信息推薦給那部分關(guān)注「總統(tǒng)大選」但尚未關(guān)注「股票」信息的人,而不會(huì)單一推薦「總統(tǒng)大選」的信息。
誤區(qū)三:推薦算法會(huì)導(dǎo)致「信息繭房」
有一種論調(diào)是,由于算法只給你推送你喜歡的內(nèi)容,從而造成了信息繭房。
展開來說,這個(gè)論調(diào)包括兩層,一是大家只關(guān)心自己的小世界,看不到更重要、更有意義的公共事件。二是算法越來越懂你,你喜歡特朗普,就只給你推薦特朗普好的新聞。最終的結(jié)果,造成了「信息繭房」和偏食。
這其實(shí)是不成立的。在實(shí)際情況中,算法很難實(shí)現(xiàn)「信息繭房」。公共事件之所以成為公共事業(yè),是因?yàn)槠涔残?,這決定了其天然具有穿透性,所有算法都會(huì)對(duì)此類事件賦予極高的權(quán)重,否則這將違反算法準(zhǔn)確性的初衷。
其次,關(guān)于態(tài)度傾向。因?yàn)槊總€(gè)人可能感興趣的文章非常多,用專業(yè)話就是數(shù)據(jù)非常稀疏,所以對(duì)算法來說,正向情緒和負(fù)向情緒,都是對(duì)某一個(gè)話題的正相關(guān),這種相關(guān)性本身大于情緒。這句話翻譯過來就是,無論你討厭特朗普還是喜歡特朗普,在數(shù)據(jù)意義上的表現(xiàn),都是對(duì)特朗普這個(gè)話題高度相關(guān)的。對(duì)于算法來說,正常情況下,所有關(guān)于特朗普的重要內(nèi)容,都會(huì)被優(yōu)先推薦給你。
從哲學(xué)思辨的角度來看,「信息繭房」或許有其意義,但從實(shí)際操作中,不可能出現(xiàn)這樣的極端情況。另外,互聯(lián)網(wǎng)時(shí)代,由于信息的極大豐富,任何選擇都會(huì)對(duì)信息本身進(jìn)行過濾和篩選。你的微博、朋友圈也是「信息繭房」—— 因?yàn)槟憧吹降亩际桥笥褌冴P(guān)心的。
誤區(qū)四:推薦算法技術(shù)含量不高按照算法模型拿Cookie 信息套一下就行
首先,嚴(yán)格來說,算法是解決問題的一個(gè)過程,包括特定輸入與特定輸出。我們講的數(shù)學(xué)公式只是算法的理論基礎(chǔ),無論是推薦算法還是深度學(xué)習(xí)網(wǎng)絡(luò)不僅僅需要理論基礎(chǔ),也就是公式,還要有相應(yīng)的數(shù)學(xué)模型實(shí)現(xiàn),并且這個(gè)實(shí)現(xiàn)過程是動(dòng)態(tài)的,需要不斷調(diào)整的。
實(shí)際上算法的自我修正和學(xué)習(xí)是非常重要的,比如阿爾法狗就是不斷的和人類對(duì)弈來優(yōu)化自身模型來提高算法準(zhǔn)確性。推薦算法也不例外,個(gè)性化推薦會(huì)隨著用戶的閱讀軌跡、用戶的行為記錄進(jìn)行反饋優(yōu)化,逐步提高其準(zhǔn)確性。公開資料顯示,今日頭條每個(gè)星期都會(huì)對(duì)算法模型進(jìn)行一些優(yōu)化和調(diào)整,近一年內(nèi)今日頭條的算法進(jìn)行了4 次比較大的模型迭代。亞馬遜在過去二十年間也對(duì)推薦系統(tǒng)進(jìn)行了無數(shù)次改進(jìn)和優(yōu)化,才有今天非常精準(zhǔn)的推薦結(jié)果。
PC 時(shí)代的推薦非常原始,無非是拿瀏覽器里的Cookie 數(shù)據(jù)進(jìn)行關(guān)鍵詞匹配。很多人會(huì)覺得,現(xiàn)在的算法不也這樣么,無非是多了一些用戶年齡屬性,性別屬性,偏好屬性,然后套入公式,性別*0.3 + 年齡*0.5 + 偏好*0.2,再加上一些地理位置等屬性,就可以進(jìn)行推薦了。
實(shí)際上,這大概是二十年前推薦1.0 時(shí)代的做法。如今推薦系統(tǒng)建立、使用和優(yōu)化是一個(gè)非常復(fù)雜的過程。比如推薦系統(tǒng)的建立方式就包括基于用戶、基于關(guān)聯(lián)規(guī)則和基于模型的推薦?,F(xiàn)在做的好的推薦系統(tǒng)都不會(huì)只采用某一種推薦的機(jī)制和策略,往往是結(jié)合多種推薦方法,以達(dá)到更好的推薦效果。
誤區(qū)五:推薦算法發(fā)展的很快,未來可以洞察人性,無所不能
推薦算法的出現(xiàn)提高了信息分發(fā)效率,很好的解決了信息過載的問題。盡管個(gè)性化推薦需要用到一定的用戶特征,但都是以公開特征和定向內(nèi)容為主,很難全面的刻畫出一個(gè)人,了解人性更是談何容易。真正做到了解人性,就需要算法比你還了解你自己,以現(xiàn)在的科技水平,算法想要達(dá)到科幻小說里的洞悉人性是不可能的。
更重要的是,任何算法都會(huì)有反例。簡單說,如果一個(gè)分類算法單純按照頭發(fā)長短區(qū)分男女,有些男生頭發(fā)比較長就會(huì)出現(xiàn)分類錯(cuò)誤。作為新技術(shù),機(jī)器推薦還有不完美的地方,仍然需優(yōu)化和改進(jìn),這也是眾多科學(xué)家努力的方向。當(dāng)然,從比例上看優(yōu)秀的算法肯定對(duì)絕大多數(shù)的案例進(jìn)行正確分類,并有效的推薦給用戶。
誤區(qū)六:算法都是公開的,競爭壁壘不高
首先,數(shù)據(jù)是非常重要的壁壘。真正應(yīng)用到工業(yè)的推薦系統(tǒng)需要大量數(shù)據(jù)進(jìn)行建模計(jì)算的。并非簡單的少量的數(shù)據(jù)即可,一般情況下需要上億的數(shù)據(jù)和上億的屬性特征進(jìn)行推薦,沒有數(shù)據(jù)只有理論基礎(chǔ)都是紙上談兵。
因此,如果想要做出一套好的推薦系統(tǒng)模型,需要在大數(shù)據(jù)的基礎(chǔ)上建立非常龐大和成熟的工程師團(tuán)隊(duì)。Google、微軟聘用了大量的高端人才進(jìn)行推薦算法優(yōu)化,無非是針對(duì)一些特定的知識(shí)點(diǎn)做專門的Feature Engineering,國內(nèi)的今日頭條也有近半數(shù)的員工都是技術(shù)工程師。
一些算法可能會(huì)在推薦算法的相關(guān)比賽中取得非常好的結(jié)果,但并不是說這就是一個(gè)最優(yōu)的算法模型。很可能是機(jī)器把樣本數(shù)據(jù)的所有特征都學(xué)習(xí)到了,獲得了過多的局部特征和假特征,形成過擬合。當(dāng)你用它識(shí)別新的數(shù)據(jù)樣本的時(shí)就會(huì)發(fā)現(xiàn),推薦準(zhǔn)確率有可能非常低。
算法模型必須經(jīng)過大量數(shù)據(jù)的學(xué)習(xí)和演化,沒有任何一種機(jī)器模型可以被當(dāng)做權(quán)威規(guī)則來使用。算法的學(xué)習(xí)和演化本身也是一種壁壘。換句話說,哪怕張一鳴自己離開今日頭條,重新做一套推薦算法,也無法達(dá)到現(xiàn)在今日頭條推薦算法的水平。
如果你是一位工程師,如果你讀到了這里,還會(huì)覺得數(shù)據(jù)、算法和數(shù)學(xué)不重要嘛?不說了,我去學(xué)習(xí)算法去了。
- 華為小藝App揭秘:智慧生活背后的神秘力量
- 豆包大模型1.5Pro低調(diào)登場,開發(fā)者欲罷不能的API調(diào)用體驗(yàn)
- 全球AI應(yīng)用花銷超10億美元:ChatGPT領(lǐng)跑卻非獨(dú)大
- 寧德時(shí)代與廣汽合資公司因5萬元執(zhí)行風(fēng)波,揭秘新能源巨頭背后的商業(yè)秘密
- 理想超充站新規(guī):超時(shí)占用費(fèi)來襲,占用資源需付費(fèi),單次最高200元
- B站蛇年春晚直播預(yù)約破300萬,獨(dú)家42年春晚全收錄
- 三星電子砍半晶圓代工部門,2025年設(shè)備投資預(yù)算降至“冰點(diǎn)”,巨變將至?
- 閱文CEO揭秘2024爆款年:IP全球化與商業(yè)化,揭開網(wǎng)絡(luò)文學(xué)新篇章
- SK海力士成績亮眼:黑馬逆襲,年度業(yè)績創(chuàng)歷史之最,年終驚喜豪發(fā)15個(gè)月
- 語音匿名化系統(tǒng)攻擊挑戰(zhàn)賽揭秘:奇富科技躋身全球前五,挑戰(zhàn)極限能力
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。