2014世界杯出來很多新鮮東西,很多都是以前沒有的,科技領域自然也不會在這場萬眾矚目的盛事中落后,大數(shù)據(jù)預測成為本屆世界杯的熱門話題。微軟、高盛、百度、谷歌等幾家公司通過自有的大數(shù)據(jù)系統(tǒng)對比賽進行預測,雖然預測結果有些令人不忍直視,但在我看來,積極成分很多,大數(shù)據(jù)應用方面畢竟有了個好的開始。
世界杯的64場比賽,看上去只是簡單比分和簡單賽果,但變量多到靠人工根本算不出來。僅通過對球隊歷史成績和賠率數(shù)據(jù)進行綜合分析這一項,如果靠人工進行計算,假設有現(xiàn)成的精準數(shù)據(jù)模型,在忽略出錯概率的情況下,幾億條數(shù)據(jù)需要1個人花費數(shù)十年時間。好在當前IT計算能力已不是什么問題,這些工作完全可以通過機器來完成。
本次世界杯各家的預測結果是這樣的:
小組賽預測準確度:
Baidu:58.33%
Microsoft:56.25%
GoldmanSachs:37.5%
1/8決賽預測準確率:
Google:100%
Baidu:100%
1/4決賽預測準確率:
Google:75%
Baidu:100%
小組賽的預測準確率相對較低,百度以58.33%的準確率拔得頭籌,成為預測最準確的公司。而到了后面的淘汰賽階段,百度則100%算準了比賽結果。通過進一步分析發(fā)現(xiàn),百度的數(shù)據(jù)模型原理,是導致其準確率居首的主要原因??梢钥匆幌聨准业臄?shù)據(jù)模型特點。
百度通過分析469家歐賠公司的賠率數(shù)據(jù)構建預測模型。
微軟通過對Betfair博彩交易市場數(shù)據(jù)來分析構建預測模型。
高盛預測:通過對1960年以來的正式國際足球比賽數(shù)據(jù)的回歸分析來構建其預測模型。同時,高盛還通過泊松模型分析了每場小組賽的比分情況。
谷歌預測數(shù)據(jù)主要來自OptaSports的海量賽事數(shù)據(jù),預測基于球隊實力的排序模型、以及各個國家球迷到巴西的數(shù)量和熱情度構建的球隊主場優(yōu)勢模型
我們從后往前看,谷歌不是這次大數(shù)據(jù)預測中最差的公司,其數(shù)據(jù)模型中的數(shù)據(jù)樣本更為豐富,除了海量球隊數(shù)據(jù)之外,連有多少球迷到場,對國家對有多大熱情度都計算進去了。這基本上是給自己弄了個不可能完成的任務,變量太多,有一些涉及人文和社會學數(shù)據(jù)了,現(xiàn)有技術條件太難處理。例如哥斯達黎加人去巴西看球很容易,加納人去就不容易,這怎么說呢,難道還要考慮經(jīng)濟狀況嗎?
高盛是本次大數(shù)據(jù)預測中表現(xiàn)最差的一個,本來人也不是科技公司。高盛的辦法有些傳統(tǒng),就是球隊成績的歷史數(shù)據(jù),這是維度較為單一的數(shù)據(jù)采樣方法。我想起一件事,彩票中的數(shù)據(jù)分析有沒有用?我的結論是有一點用,但沒大用。有一年福彩排列三連續(xù)20多期中間位置沒出現(xiàn)過5,很多人在20多期就殺進去,250元一注包中間的5,結果一直包到52期這個5才出來,傾家蕩產(chǎn)者眾。從統(tǒng)計學角度看,這個5即便100期不出來也沒什么稀奇的,因為每一次的出現(xiàn)概率都一樣。從這點看,高盛本次墊底是眾望所歸的,大數(shù)據(jù)預測更關鍵的一點在于變量,而非對歷史數(shù)據(jù)的精細運算。
微軟的辦法比較不錯,只是不錯而已。Betfair博彩交易市場在歐洲很有代表性,這個市場交易規(guī)模超過倫敦證券交易所,其賠率往往有先知先覺的功能,非常準。不過很可惜的是,微軟此次成績也不是很好。一個主要原因是,微軟選取了博彩市場上的頭部數(shù)據(jù),忽略了長尾數(shù)據(jù),數(shù)據(jù)取樣過于規(guī)矩,維度單一。如果以Betfair數(shù)據(jù)為基礎,通過注入大量其他數(shù)據(jù)作為變量,這似乎是條可行的路,但要達到準確效果的話,這個變量會非常大,計算起來很復雜,這并不是一條經(jīng)濟的路。
百度的方法在目前看來比較可行,其基礎數(shù)據(jù)是將所有博彩公司的賠率納入數(shù)據(jù)模型。我覺得博彩公司的賠率,本身就是去噪后的結果,雖然賠率各不相同,但都是動態(tài)的,是較為優(yōu)質的數(shù)據(jù)源,與球隊成績這類的數(shù)據(jù)完全不同。在這個基礎上,百度又將過去5年全世界987支球隊的3.7萬場比賽數(shù)據(jù)納入模型,還加入了一些自己的搜索數(shù)據(jù),涉及19972名球員和1.12億條相關數(shù)據(jù)。一邊是賠率數(shù)據(jù),一邊是球隊數(shù)據(jù),以哪個為基礎很重要,百度選擇了更為動態(tài)的賠率數(shù)據(jù),最終得出了相對最為準確的結果。本次百度大數(shù)據(jù)的準確率接近80%,用這個模型對2006年和2010年世界杯的淘汰賽進行驗證,準確度也接近75%。這說明一件事,百度的方法在目前是最合適的。
不過跳出這件事來看,其實現(xiàn)在的成績?nèi)圆荒茏C明大數(shù)據(jù)真的有預言未來的能力,目前的大數(shù)據(jù),仍處在相當初級的階段。大數(shù)據(jù)其實可以分成三個層次,首先是對現(xiàn)有數(shù)據(jù)的全面分析,這涉及到模型建立,各項數(shù)據(jù)在模型中所占的比例和權重如何,這都是要考慮的事情。像高盛那樣就等于是走了彎路,不像是大數(shù)據(jù)預測了,倒像是傳統(tǒng)的數(shù)據(jù)分析。而百度所做的一切雖然堪稱優(yōu)秀,也還是沒跳出這個層次。
第二個層次,是對數(shù)據(jù)變量的衡定和把握,即大數(shù)據(jù)的智能化。大數(shù)據(jù)要去噪,要考慮微小變量。例如匈牙利在30多年前橫掃歐洲足壇,差一點奪得世界杯,但近20年世界杯賽場上難覓其蹤,這件事該怎么算。又例如荷蘭多次與冠軍失之交臂,其與冠軍的距離到底是如德國一樣近,還是像中國一樣遠,都是大數(shù)據(jù)要做出判斷的事情。
第三個層次,是大數(shù)據(jù)的人文化。在一切數(shù)據(jù)分析已臻于完善的情況下,引入人文、社會、心理等因素,才能讓大數(shù)據(jù)結果更準確。巴西隊實力遠勝于美國,但每次遇到美國都是磕磕絆絆,險象環(huán)生,這里面有沒有心理因素存在。為什么巴西在過去20年進入決賽的時候,掉鏈子的情況比較多,為什么巴西會1:7輸給德國,這些都已超出數(shù)據(jù)分析的范疇了,必須要給大數(shù)據(jù)引入人文社會因素,才能加以回答。
雖然大數(shù)據(jù)跨越這幾個層次,看上去是那么遙不可及,但目前至少是起步了,這是個好的開始。對大數(shù)據(jù)的發(fā)展應該更為寬容一些,任重而道遠不怕,怕的是不走上正確的道路,因為沒有初期那些笨拙的動作,是看不到未來美妙揮灑的。
===================================================
我是微信公眾賬號gejia021的獨立運營者,90%的原創(chuàng)科技與人生感悟文章,獨立觀點,不屑流俗。期圖以一己之力,闡釋和說明中國互聯(lián)網(wǎng)的本質。
微信號gejia021,是覆蓋1000萬用戶的,中國最大的自媒體聯(lián)盟wemedia成員之一。亦是2013年十佳自媒體,科技原創(chuàng)力30人之一。
我在新浪微博的用戶名為@葛甲,在新浪、搜狐博客、艾瑞專欄、今日頭條等自媒體平臺的用戶名均為葛甲,歡迎訂閱。
免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 于東來的“爹味兒”,把胖東來從“風口”推向“浪尖” ?
- 讀懂了vivo的用戶腦、產(chǎn)品心,就讀懂了國產(chǎn)第一如何煉成
- 蘋果手機iPhone 16一到2025年就降價,這次還會有人“上套”嗎?
- 2024年度VR產(chǎn)業(yè)回顧:混合現(xiàn)實頭顯成為主流;國內(nèi)VR大空間強勢崛起
- 阿里獨家合作,亞馬遜“親測”代言,雷鳥創(chuàng)新打造 AI 眼鏡新標桿,媲美 Meta !
- CES 2025 搶先揭秘:XR領域新品爆料,AI眼鏡成焦點
- 2024 XR年度大事件TOP 10
- 先誅蘋果,再滅Meta?三星、谷歌、高通組“失敗者聯(lián)盟”,能否贏得XR領域終局之戰(zhàn)?
- Meta高端AR眼鏡Orion全揭秘:五年內(nèi)上市,或無緣國內(nèi)市場,大概率撞車蘋果
- 庫克進軍游戲圈?蘋果Vision Pro與索尼達成合作 后者發(fā)行游戲剛拿下TGA年度最佳
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。