百度推廣信息審核的三重門

為大規(guī)模用戶提供的互聯(lián)網(wǎng)服務(wù),從一開始就要提前考慮的問題是什么呢?答案是反垃圾(anti-spam)。如果互聯(lián)網(wǎng)服務(wù)不具備反垃圾能力,正常的服務(wù)根本開展不下去,在流行起來之后分分鐘會(huì)被網(wǎng)絡(luò)垃圾摧毀。這也是為何美國第七大網(wǎng)站,分類目錄鼻祖Craigslist只有幾十個(gè)人的團(tuán)隊(duì)里,超過三分之二是反垃圾技術(shù)人員的原因。

近日,百度公布了一組數(shù)據(jù)來證明自身在信息審核方面的進(jìn)展與努力,披露出來的數(shù)字極為驚人。百度目前已屏蔽有害鏈接38億條,站點(diǎn)級別已超1億個(gè)。2015年百度的廣告系統(tǒng)已拒絕了不良賬戶438300個(gè),判罰的違規(guī)消費(fèi)金額達(dá)到了4.67億元,還為公安機(jī)關(guān)提供了許多造假售假線索。

百度是世界上流量最大的網(wǎng)站之一,也是中國大陸流量最大的網(wǎng)站,日搜索請求達(dá)60億次以上。百度用戶是最具多樣性特征的,用戶屬性可以說是無所不包,這也正應(yīng)了那句話,林子大了什么鳥都有。門類齊全的有害信息,包括違法與有害廣告,都想通過百度這個(gè)平臺(tái)進(jìn)行傳播,如果百度不具備相應(yīng)的反垃圾技術(shù)和有害信息過濾技術(shù),是根本做不到如今這個(gè)規(guī)模的。

這世界上所有的搜索引擎,無一例外都會(huì)遇到類似問題。谷歌2015年全年共去除了7.8億條違反其政策的廣告,比2014年的5.24億條增長了近50%。這個(gè)增長率比正常商業(yè)廣告還快,有數(shù)不清的違法廣告希望通過搜索引擎謀取利益,不把好關(guān)就天下大亂了。百度也一樣,每天有4.7億條廣告通過百度廣告系統(tǒng)送審,每秒要處理5000條以上,這基本已不是人力能解決的問題了。同谷歌一樣,百度也主要是通過技術(shù)手段來對廣告進(jìn)行審查和過濾。據(jù)披露,百度為此有專門的“黑科技”系統(tǒng),負(fù)責(zé)審查甄別各種虛假違規(guī)推廣內(nèi)容。

不同的反垃圾技術(shù),在處理原則上都是一樣的,首先是機(jī)器發(fā)現(xiàn)異常內(nèi)容后提交進(jìn)一步審核的預(yù)警機(jī)制、第二是發(fā)現(xiàn)異常內(nèi)容后的批量處理機(jī)制、第三是處理完異常內(nèi)容之后防止再次出現(xiàn)的屏蔽機(jī)制。這幾個(gè)步驟說起來容易,做起來很難,尤其對百度這樣流量巨大的公司來說。技術(shù)跟不上的話就只能增加人工審核力量,這會(huì)給公司造成巨額成本支出,而技術(shù)跟不上又花不起錢的話,公司遲早會(huì)被垃圾信息拖死。好在,經(jīng)過十幾年運(yùn)營經(jīng)驗(yàn)和技術(shù)研發(fā)的積累之后,百度已擁有了一套非常有效的機(jī)器審核過濾系統(tǒng)。

以大數(shù)據(jù)為基礎(chǔ)的“雷達(dá)系統(tǒng)”,是百度在審核與過濾有害信息及非法廣告的一個(gè)利器,可以實(shí)現(xiàn)對95%以上的信息進(jìn)行自動(dòng)審核。這個(gè)系統(tǒng)與百度搜索本身有相似之處,通過將信息的IP、ID,來源,語義內(nèi)容等素材進(jìn)行大數(shù)據(jù)比對,從而發(fā)現(xiàn)有害信息及違法廣告。系統(tǒng)擁有強(qiáng)大的數(shù)據(jù)采集能力,豐富的數(shù)據(jù)分析維度,還有快速而準(zhǔn)確的瞬時(shí)數(shù)據(jù)處理能力,這其中的每一種技術(shù)都不是大多數(shù)公司所能夠掌握的。

在一個(gè)包含10萬字節(jié)的word文檔中,個(gè)人PC基本能做到瞬間就將相同的字詞找出來,可如果需要查詢的字節(jié)是10億量級的,且來自于開發(fā)標(biāo)準(zhǔn)不同,包含各種層級體系的網(wǎng)頁,還需要將不同維度的變量集中到一個(gè)結(jié)果中,且瞬間反應(yīng),那就不是一件容易的事情了。這首先需要相當(dāng)高超的數(shù)據(jù)算法,還要有周密嚴(yán)謹(jǐn)?shù)亩鄠€(gè)數(shù)據(jù)模型,更需要有搭建大規(guī)模計(jì)算機(jī)運(yùn)算系統(tǒng)的能力。在互聯(lián)網(wǎng)行業(yè)中,這些技術(shù)的總和相當(dāng)于大當(dāng)量“核武器”。

當(dāng)然,在目前的技術(shù)條件下,機(jī)器系統(tǒng)再先進(jìn)也不能解決所有問題。以百度的審核與過濾系統(tǒng)來說,系統(tǒng)最多能讓審核與過濾過程更有效率,成本更低,但還是有一些特別有技術(shù)含量的有害信息及非法廣告,還是需要依賴人工的。例如一些使用flash技術(shù)的動(dòng)態(tài)廣告,提交時(shí)是正常的,幾個(gè)小時(shí)后也許就變成別的了。對這類廣告,雖然用系統(tǒng)能過濾掉大部分,但還是會(huì)有一部分需要進(jìn)行人工審核。

技術(shù)系統(tǒng)同人一樣,無法做到見微知著,對任何細(xì)微的個(gè)性化特征都做到正確反應(yīng)。在百度雷達(dá)系統(tǒng)里跑過一遍的信息,一定有漏網(wǎng)的,也一定有被冤殺的,一般情況下機(jī)器系統(tǒng)發(fā)現(xiàn)有問題但又難以下結(jié)論的信息,都會(huì)被提交到人工審核系統(tǒng)進(jìn)行審核。目前百度的審核團(tuán)隊(duì)有幾千人之眾,這幾千人負(fù)責(zé)漏殺或誤殺的信息審核,三班倒24小時(shí)不間斷對信息進(jìn)行審核,盡量減少問題發(fā)生。

技術(shù)和人工共同發(fā)力抵制有害信息與非法廣告,并不是完結(jié),機(jī)制與規(guī)則方面的建設(shè)其實(shí)也非常重要。百度有自己對商家的加V認(rèn)證體系,按照信用等級將企業(yè)和商家分為V1、V2、V3三個(gè)級別,根據(jù)實(shí)際情況動(dòng)態(tài)升級和降級,2015年四季度有27000個(gè)誠信企業(yè)升級,同時(shí)也有29700個(gè)不良商家受到了降級的懲罰。信用等級的升降完全基于客觀條件得出結(jié)論,找李彥宏也是沒用的。

除了商家加V認(rèn)證體系,百度口碑也是百度推廣信譽(yù)體系的一個(gè)重要組成部分。百度口碑一方面是商家掌握用戶口碑輿情、加強(qiáng)與用戶互動(dòng)、傾聽消費(fèi)者反饋的渠道,另一方面也是用戶查詢商家產(chǎn)品服務(wù)口碑、消費(fèi)體驗(yàn)反饋、表達(dá)評價(jià)的平臺(tái)。不同于其他“遍地好評”的平臺(tái),截至2016年1月,百度口碑的數(shù)據(jù)中,五星好評占79%,四星到二星的中評占15%,一星差評也有6%。

搜索引擎是通用的流量入口,也是用戶尋找互聯(lián)網(wǎng)信息及服務(wù)的一道門,太多形態(tài)各異的角色想要利用這扇門達(dá)到自己的暗黑目的。對于百度來說,雖然好客人和壞客人都能給自己帶來收入,但百度還是一直在嚴(yán)格運(yùn)用各種手段將壞客人拒之門外的,因?yàn)槲ㄓ斜3忠粋€(gè)良好的在線推廣運(yùn)營環(huán)境,一個(gè)始終是良幣驅(qū)逐劣幣的良性網(wǎng)絡(luò)空間,百度的長期利益才能真正得到保障。

百度在消滅有害信息及非法推廣方面的努力,包括技術(shù)上的和機(jī)制上的研發(fā)與建設(shè),人力上財(cái)力上的投入與付出,都不會(huì)是一種無法收回的成本,而恰恰是一種相當(dāng)重要的投資。百度把守著互聯(lián)網(wǎng)的大門,億萬用戶從百度經(jīng)過,始終為用戶營造良好的網(wǎng)絡(luò)環(huán)境,百度義不容辭,其一直對違規(guī)虛假推廣的嚴(yán)厲打擊,也值得贊許。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2016-02-05
百度推廣信息審核的三重門
為大規(guī)模用戶提供的互聯(lián)網(wǎng)服務(wù),從一開始就要提前考慮的問題是什么呢?答案是反垃圾(anti-spam)。如果互聯(lián)網(wǎng)服務(wù)不具備反垃圾能力,正常

長按掃碼 閱讀全文