亚洲制服丝袜中文字幕专区,欧美日韩中文字幕三区,亚洲欧美日韩在线一区

2014世界杯出來很多新鮮東西，很多都是以前沒有的，科技領域自然也不會在這場萬眾矚目的盛事中落后，大數(shù)據(jù)預測成為本屆世界杯的熱門話題。微軟、高盛、百度、谷歌等幾家公司通過自有的大數(shù)據(jù)系統(tǒng)對比賽進行預測，雖然預測結果有些令人不忍直視，但在我看來，積極成分很多，大數(shù)據(jù)應用方面畢竟有了個好的開始。

世界杯的64場比賽，看上去只是簡單比分和簡單賽果，但變量多到靠人工根本算不出來。僅通過對球隊歷史成績和賠率數(shù)據(jù)進行綜合分析這一項，如果靠人工進行計算，假設有現(xiàn)成的精準數(shù)據(jù)模型，在忽略出錯概率的情況下，幾億條數(shù)據(jù)需要1個人花費數(shù)十年時間。好在當前IT計算能力已不是什么問題，這些工作完全可以通過機器來完成。

本次世界杯各家的預測結果是這樣的：

小組賽預測準確度:

Baidu:58.33%

Microsoft:56.25%

GoldmanSachs:37.5%

1/8決賽預測準確率:

Google:100%

Baidu:100%

1/4決賽預測準確率:

Google:75%

Baidu:100%

小組賽的預測準確率相對較低，百度以58.33%的準確率拔得頭籌，成為預測最準確的公司。而到了后面的淘汰賽階段，百度則100%算準了比賽結果。通過進一步分析發(fā)現(xiàn)，百度的數(shù)據(jù)模型原理，是導致其準確率居首的主要原因?？梢钥匆幌聨准业臄?shù)據(jù)模型特點。

百度通過分析469家歐賠公司的賠率數(shù)據(jù)構建預測模型。

微軟通過對Betfair博彩交易市場數(shù)據(jù)來分析構建預測模型。

高盛預測：通過對1960年以來的正式國際足球比賽數(shù)據(jù)的回歸分析來構建其預測模型。同時，高盛還通過泊松模型分析了每場小組賽的比分情況。

谷歌預測數(shù)據(jù)主要來自OptaSports的海量賽事數(shù)據(jù)，預測基于球隊實力的排序模型、以及各個國家球迷到巴西的數(shù)量和熱情度構建的球隊主場優(yōu)勢模型

我們從后往前看，谷歌不是這次大數(shù)據(jù)預測中最差的公司，其數(shù)據(jù)模型中的數(shù)據(jù)樣本更為豐富，除了海量球隊數(shù)據(jù)之外，連有多少球迷到場，對國家對有多大熱情度都計算進去了。這基本上是給自己弄了個不可能完成的任務，變量太多，有一些涉及人文和社會學數(shù)據(jù)了，現(xiàn)有技術條件太難處理。例如哥斯達黎加人去巴西看球很容易，加納人去就不容易，這怎么說呢，難道還要考慮經(jīng)濟狀況嗎？

高盛是本次大數(shù)據(jù)預測中表現(xiàn)最差的一個，本來人也不是科技公司。高盛的辦法有些傳統(tǒng)，就是球隊成績的歷史數(shù)據(jù)，這是維度較為單一的數(shù)據(jù)采樣方法。我想起一件事，彩票中的數(shù)據(jù)分析有沒有用？我的結論是有一點用，但沒大用。有一年福彩排列三連續(xù)20多期中間位置沒出現(xiàn)過5，很多人在20多期就殺進去，250元一注包中間的5，結果一直包到52期這個5才出來，傾家蕩產(chǎn)者眾。從統(tǒng)計學角度看，這個5即便100期不出來也沒什么稀奇的，因為每一次的出現(xiàn)概率都一樣。從這點看，高盛本次墊底是眾望所歸的，大數(shù)據(jù)預測更關鍵的一點在于變量，而非對歷史數(shù)據(jù)的精細運算。

微軟的辦法比較不錯，只是不錯而已。Betfair博彩交易市場在歐洲很有代表性，這個市場交易規(guī)模超過倫敦證券交易所，其賠率往往有先知先覺的功能，非常準。不過很可惜的是，微軟此次成績也不是很好。一個主要原因是，微軟選取了博彩市場上的頭部數(shù)據(jù)，忽略了長尾數(shù)據(jù)，數(shù)據(jù)取樣過于規(guī)矩，維度單一。如果以Betfair數(shù)據(jù)為基礎，通過注入大量其他數(shù)據(jù)作為變量，這似乎是條可行的路，但要達到準確效果的話，這個變量會非常大，計算起來很復雜，這并不是一條經(jīng)濟的路。

百度的方法在目前看來比較可行，其基礎數(shù)據(jù)是將所有博彩公司的賠率納入數(shù)據(jù)模型。我覺得博彩公司的賠率，本身就是去噪后的結果，雖然賠率各不相同，但都是動態(tài)的，是較為優(yōu)質的數(shù)據(jù)源，與球隊成績這類的數(shù)據(jù)完全不同。在這個基礎上，百度又將過去5年全世界987支球隊的3.7萬場比賽數(shù)據(jù)納入模型，還加入了一些自己的搜索數(shù)據(jù)，涉及19972名球員和1.12億條相關數(shù)據(jù)。一邊是賠率數(shù)據(jù)，一邊是球隊數(shù)據(jù)，以哪個為基礎很重要，百度選擇了更為動態(tài)的賠率數(shù)據(jù)，最終得出了相對最為準確的結果。本次百度大數(shù)據(jù)的準確率接近80%，用這個模型對2006年和2010年世界杯的淘汰賽進行驗證，準確度也接近75%。這說明一件事，百度的方法在目前是最合適的。

不過跳出這件事來看，其實現(xiàn)在的成績?nèi)圆荒茏C明大數(shù)據(jù)真的有預言未來的能力，目前的大數(shù)據(jù)，仍處在相當初級的階段。大數(shù)據(jù)其實可以分成三個層次，首先是對現(xiàn)有數(shù)據(jù)的全面分析，這涉及到模型建立，各項數(shù)據(jù)在模型中所占的比例和權重如何，這都是要考慮的事情。像高盛那樣就等于是走了彎路，不像是大數(shù)據(jù)預測了，倒像是傳統(tǒng)的數(shù)據(jù)分析。而百度所做的一切雖然堪稱優(yōu)秀，也還是沒跳出這個層次。

第二個層次，是對數(shù)據(jù)變量的衡定和把握，即大數(shù)據(jù)的智能化。大數(shù)據(jù)要去噪，要考慮微小變量。例如匈牙利在30多年前橫掃歐洲足壇，差一點奪得世界杯，但近20年世界杯賽場上難覓其蹤，這件事該怎么算。又例如荷蘭多次與冠軍失之交臂，其與冠軍的距離到底是如德國一樣近，還是像中國一樣遠，都是大數(shù)據(jù)要做出判斷的事情。

第三個層次，是大數(shù)據(jù)的人文化。在一切數(shù)據(jù)分析已臻于完善的情況下，引入人文、社會、心理等因素，才能讓大數(shù)據(jù)結果更準確。巴西隊實力遠勝于美國，但每次遇到美國都是磕磕絆絆，險象環(huán)生，這里面有沒有心理因素存在。為什么巴西在過去20年進入決賽的時候，掉鏈子的情況比較多，為什么巴西會1:7輸給德國，這些都已超出數(shù)據(jù)分析的范疇了，必須要給大數(shù)據(jù)引入人文社會因素，才能加以回答。

雖然大數(shù)據(jù)跨越這幾個層次，看上去是那么遙不可及，但目前至少是起步了，這是個好的開始。對大數(shù)據(jù)的發(fā)展應該更為寬容一些，任重而道遠不怕，怕的是不走上正確的道路，因為沒有初期那些笨拙的動作，是看不到未來美妙揮灑的。

===================================================

我是微信公眾賬號gejia021的獨立運營者，90%的原創(chuàng)科技與人生感悟文章，獨立觀點，不屑流俗。期圖以一己之力，闡釋和說明中國互聯(lián)網(wǎng)的本質。

微信號gejia021,是覆蓋1000萬用戶的，中國最大的自媒體聯(lián)盟wemedia成員之一。亦是2013年十佳自媒體，科技原創(chuàng)力30人之一。

我在新浪微博的用戶名為@葛甲，在新浪、搜狐博客、艾瑞專欄、今日頭條等自媒體平臺的用戶名均為葛甲，歡迎訂閱。

免責聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章，所有文字和圖片版權歸作者所有，且僅代表作者個人觀點，與極客網(wǎng)無關。文章僅供讀者參考，并請自行核實相關內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內(nèi)容或斷開相關鏈接。

大數(shù)據(jù)預測世界杯，任重而道遠

下一篇

大數(shù)據(jù)預測世界杯，任重而道遠

下一篇

大數(shù)據(jù)預測世界杯，任重而道遠