反低俗是世界難題,今日頭條“靈犬”的嗅覺憑什么那么靈?

最近看到一個消息,今日頭條對旗下的靈犬反低俗助手(以下簡稱“靈犬”)進行了一次升級,能夠同時支持對文本和圖片內(nèi)容的低俗信息檢測。

也就是說,無論是輸入文字還是上傳圖片,“靈犬”都能夠進行低俗色情、暴力謾罵、標題黨等相關低俗低質(zhì)元素的檢測,并給出相應的健康度鑒定結果。

無論是長達數(shù)千字的文本,還是信息含量更加豐富的圖片,“靈犬”都能夠在短短幾秒鐘檢測完畢,并且據(jù)說綜合準確率高達85%以上。這只“狗子”不僅能識文斷字,更能獨自進行看圖理解。

表面上,“靈犬”只是今日頭條旗下的一款小產(chǎn)品,以小程序的形態(tài)出現(xiàn)在今日頭條和微信里。內(nèi)容創(chuàng)作者們可以用它來檢測自己創(chuàng)作的內(nèi)容是否包含低俗信息,普通用戶也可以參與到“打擊低俗”這項看似復雜的工作中來。

事實上,“靈犬”在做的是一件全球內(nèi)容平臺共同在面對的難題:在內(nèi)容創(chuàng)作如井噴一樣增長的環(huán)境下,如何在既追求內(nèi)容發(fā)布速度、又追求內(nèi)容質(zhì)量的前提下,平臺方如何做好內(nèi)容的審核管理工作?

“靈犬”初體驗:小程序如何反低俗?

在體驗“靈犬”的檢測功能時,我們發(fā)現(xiàn)這只“靈犬”可以用喜、怒、哀、樂等各個不同的表情來和你對視。

如果上傳的內(nèi)容不健康,“靈犬”肯定會怒氣沖沖地看著你,給你一份健康概率極低的鑒定結果;如果上傳的內(nèi)容是健康的,“靈犬”會”微贈送微笑一枚,并給你一份健康概率正常甚至健康概率頗高的鑒定結果。

靈犬所認為的“不健康”大致可以分為幾個方面: 低俗色情、暴力謾罵或者標題黨。相反,不包含這些元素的信息,則有理由被“靈犬”認定為健康的。

我們從網(wǎng)上找了一些網(wǎng)絡低俗話語和一些正常語句,準備試試靈犬能否準確地分辨出來。

我們首先測試了這一句”你說的都是一堆廢話?我完全可以無視你那垃圾語言。“靈犬”的檢測結果顯示:健康概率為67%。

反低俗是世界難題,今日頭條“靈犬”的嗅覺憑什么那么靈?

這句低俗語句帶有“廢話”和“垃圾”這兩個字眼,但在“靈犬”看來,這類語言其實并沒有到達底線,健康度仍處于可接受的范圍內(nèi)。

接著,我們選擇了“從前車馬很慢,書信很遠,一生只夠愛一個人”這句詩人木心的經(jīng)典情句,“靈犬”的鑒定結果為:健康概率達到了63%,成功通過健康度測試。

反低俗是世界難題,今日頭條“靈犬”的嗅覺憑什么那么靈?

接著,我們決定找一些更敏感的文字來檢測。“想跟老子比速度?老子在渝北出了名的飆車,老子看到紅燈從來都是闖,我一個電話就可以全改”,這是摘自最近社會新聞的一段話,我們輸入“靈犬”后,靈犬依舊表示“我覺得ok”。

反低俗是世界難題,今日頭條“靈犬”的嗅覺憑什么那么靈?

借鑒前段時間“B站被曝低俗內(nèi)容泛濫”的事件,我們將一位家長對B站的看法也進行了檢測。當“靈犬”接收到“該網(wǎng)站動漫作品中竟充斥著大量令人擔憂的低俗內(nèi)容,穿著暴露的少女,曖昧的語言和動作,甚至涉及兄妹戀等亂倫內(nèi)容”這句更加直白的話后,他終于“變臉”了。一臉憤怒地表示,“嗅到了不好的味道,健康概率只有8%。”

反低俗是世界難題,今日頭條“靈犬”的嗅覺憑什么那么靈?

這樣看來,“靈犬”反低俗、反暴力謾罵、反標題黨的能力并非虛傳,大體上還是能夠分辨清楚的。

文本識別之后,我們又重點測試了下新版“靈犬”新增的圖片識別功能,據(jù)說運用了更難的技術,能夠識別圖片中的低俗色情、甚至暴力血腥的元素。

我們先測試的是一位微博紅人身著露臍裝和短褲的照片。圖片的低俗色情相對容易理解,果然,這張照片靈犬給出的健康概率只有22% ,并對圖片自動打上了馬賽克。

反低俗是世界難題,今日頭條“靈犬”的嗅覺憑什么那么靈?

露膚之外,圖片里的動態(tài)行為是否能檢測到?我們將影視劇里吻戲場景放入了“靈犬”,這次“靈犬”給出的檢測結果為“成功通過健康度測試,健康概率為82%。”

反低俗是世界難題,今日頭條“靈犬”的嗅覺憑什么那么靈?

Bert+深度學習雙重保險,讓“靈犬”搖身變“警犬”

語義識別也好、圖片識別也好,所涉及到的相關技術都是非常前沿的。那到底是什么技術附身在“靈犬”身上,讓“靈犬”有了這番本領?

據(jù)了解,在文本識別領域,新版“靈犬”同時應用的是“Bert”和半監(jiān)督技術,在不犧牲效果的情況下調(diào)整了模型結構,使得計算效率能達到實用水平;而在圖片識別領域,“靈犬”運用了深度學習的解決方案,相當于它在短時間內(nèi)學會了人類需要上百年甚至更長時間才能掌握的知識。這也就是我們現(xiàn)在所看到的,“靈犬”可以直接通過文字和圖片來檢測健康概率。

“Bert”其實是當前世界最先進的自然語言處理技術,也可以說是近年來自殘差網(wǎng)絡最優(yōu)突破性的一項技術。它被稱為AI領域的明珠,可以接收100多種語言,處理閱讀理解、常識推理和機器翻譯等任務。

有一句這樣的流行語,“Bert在手,天下我有”。目前,IBM、谷歌、微軟等世界頂尖公司都在運用這項技術,還有百度、阿里、騰訊、科大訊飛等國內(nèi)知名公司都在運用這項技術。

不過,可別以為這個技術離我們的日常生活很遙遠。

“Bert”已經(jīng)應用在了知識圖譜、情報檢測以及法律文書等方面。知識圖譜是人工智能研究中的核心問題,它能夠賦予機器精準查詢、理解與邏輯推理等能力。以《紅樓夢》來說,我們可以利用Bert搭建起知識提取的機器學習模型提取紅樓夢中的人物,并分析人物與人物之間的關系,這對我們快速了解小說人物結構非常有幫助。

在情報檢測方面,傳統(tǒng)的災難信息檢測方法已經(jīng)不能滿足當前迅速發(fā)展的互聯(lián)網(wǎng)環(huán)境。而基于Bert的機器學習模型可以迅速對情報信息中的災難信息進行處理,比如爆炸檢測、情感分析、危害評估等,這是人工無法達到的效果。

在法律文書方面,最近,清華大學人工智能學院發(fā)布了民事文書和刑事文書Bert,這對法律行業(yè)來說是一大福音。對于法律行業(yè)來說,擁有高質(zhì)量的文本數(shù)據(jù)至關重要。因為法律文書、合同等文本的質(zhì)量高低與相關人員的利益密切關聯(lián)。民事文書和刑事文書Bert可以反復檢查文書內(nèi)容,確保文書質(zhì)量。

不同于文本識別,“靈犬”圖片識別的技術難點主要在于三方面:網(wǎng)絡上的低俗圖片占整體圖片內(nèi)容的比例較低;低俗種類非常豐富和繁雜;低俗圖片的內(nèi)容特征千差萬別。換句話來說,現(xiàn)在一百萬張圖片里面可能只有兩三張圖片是低俗的,低俗種類有幾十種甚至更多,比如性暗示、性器官、內(nèi)衣等,甚至還涉及不同的場景。

為了解決這個問題,我們也了解到,今日頭條人工智能實驗室分別在數(shù)據(jù)、模型、計算力等方面做了很多優(yōu)化。數(shù)據(jù)層面,“靈犬”累積了上千萬級別的訓練數(shù)據(jù)。模型層面,“靈犬”針對許多困難樣本做了模型結構調(diào)優(yōu),嘗試解決多尺寸、多尺度、小目標等復雜問題。計算力層面,“靈犬”利用分布式訓練算法以及GPU訓練集群,加速了模型的訓練和調(diào)試。

技術與人工結合 助力反低俗

雖然,目前“靈犬”已經(jīng)能夠同時支持文本識別和圖片識別,但是無論“靈犬”也好,F(xiàn)acebook和 YouTube 也好,技術都還無法百分之百地解決問題。比如一些存在歧義的句子和詞匯,就不能完全準確地判斷出健康程度。而這些技術難以搞定的問題,現(xiàn)階段還有賴于人工判斷。

機器通常是“就事論事”,考慮不到藝術作品的的人文價值。比如世界名畫中常常出現(xiàn)裸體女子,如果完全交由機器判斷,機器通過識別畫中人物的皮膚裸露面積,就會認為這幅畫是色情低俗的;某些拍攝芭蕾舞的圖片,以機器的視角來看,其實類似于裙底偷拍。

內(nèi)衣和內(nèi)衣模特出現(xiàn)在購物平臺上,我們?nèi)祟悤J為正常,但如果頻繁出現(xiàn)在新聞資訊平臺上,就可能被認為有低俗嫌疑;正常的熱舞內(nèi)容,提供給成年人看,是符合常規(guī)標準的,但如果開啟了青少年模式,這些內(nèi)容就不應該出現(xiàn)。

同一句話在不同的語境下面會有不同的意思。比如“菊花”、“我下面給你吃”在正常環(huán)境和網(wǎng)絡環(huán)境下就會出現(xiàn)不同的意思。還有“寒暄”、“安撫”、“諷刺”這種言語修辭行為,“靈犬”也難以準確判斷健康概率。

針對這些低俗問題評判的復雜性和不同判斷方式的局限性,看來靈犬還有很大的進步空間。而就目前來說,想要應對反低俗這項大挑戰(zhàn),一方面需要不斷進化靈犬的技術模型,另一方面則是需要有效結合技術和人工判斷兩種方式,通過人機協(xié)作來共同完成。

不過,值得注意的是,“靈犬”目前已經(jīng)建設了比較完善的模型迭代系統(tǒng)。通過“數(shù)據(jù)收集—數(shù)據(jù)標注—數(shù)據(jù)清洗—模型訓練—模型評估—badcase分析”這一套完整的流程,持續(xù)做優(yōu)化。

在信息大爆炸時代,低俗的定義相對籠統(tǒng),很難完全精確地定義出來,反低俗這項工作對人類來說也不容易。“靈犬”的出現(xiàn),恰恰能彌補這一不足。在技術與人工的結合下,我們相信反低俗這條路會越走越遠。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2019-08-08
反低俗是世界難題,今日頭條“靈犬”的嗅覺憑什么那么靈?
最近看到一個消息,今日頭條對旗下的靈犬反低俗助手(以下簡稱“靈犬”)進行了一次升級,能夠同時支持對文本和圖片內(nèi)容的低俗信息檢測。

長按掃碼 閱讀全文