學(xué)語的幼兒:如何把語言歧視纏身的AI拉回正道?

原標(biāo)題:學(xué)語的幼兒:如何把語言歧視纏身的AI拉回正道?

到目前為止,跟人類最像的東西應(yīng)該就是AI了。自人類誕生,從來沒有什么能像今天的AI一樣,能如此地理解人類。

盡管它距離完全了解我們還有很遠(yuǎn),但已經(jīng)夠好了。

深度學(xué)習(xí)讓AI再次煥發(fā)活力,其對人的模仿能力大大增強(qiáng)。無論是看圖還是說話,它一直都在學(xué)著從人類的視角去看世界。從語言學(xué)習(xí)方面來說的話,AI其實(shí)更像是鸚鵡。

那么,也就是說,AI的一切都是從人們那里學(xué)來的。至少在目前來看,無論怎么努力,它都無法越過人類日常的藩籬。人喜歡什么,它就喜歡什么;人討厭什么,它也討厭什么。人類會(huì)罵娘,它也能學(xué)會(huì)說法克。

從另外一個(gè)視角來看,現(xiàn)在人們訓(xùn)練AI,幾乎就是在教一個(gè)嬰兒走路、說話、認(rèn)識(shí)事物、發(fā)展智力等等。那么,當(dāng)有一天你兒子突然罵了句娘,你意不意外?

AI語言歧視?一切不過是命中之理

當(dāng)年微軟推出聊天機(jī)器人Tay的時(shí)候,滿以為會(huì)打開一扇新世界的大門,沒想到大門是打開了,里面卻不是新世界。短短不到24個(gè)小時(shí),Tay已經(jīng)學(xué)會(huì)了說臟話和發(fā)表帶有種族歧視、反動(dòng)色彩的言論。沒辦法,微軟只好讓它緊急閉嘴。

而這也僅僅只是個(gè)開始而已。隨后智能音箱相繼邁入市場,背負(fù)著聊天對話、家居入口的使命,最后仍然逃不掉罵人的命運(yùn)。隨口來個(gè)國罵法克尤什么的,根本都不是個(gè)事兒。

不僅僅是“出言不遜”,AI也開始逐步學(xué)會(huì)用人的眼光“打量”這個(gè)世界。去年就有人曝出谷歌翻譯將護(hù)士翻譯為“she”,而將醫(yī)生翻譯為“he”,由此而引發(fā)了關(guān)于AI職業(yè)歧視的問題;將黑人和大猩猩識(shí)別為同一種生物,又引發(fā)了AI的種族歧視……

從人們發(fā)現(xiàn)這個(gè)問題開始,關(guān)于由語言歧視引發(fā)的AI道德論的紛爭就沒有停止過。一方面畢竟AI的黑箱還沒有打開,有些人認(rèn)為這就是AI的主觀故意行為;另一方面,畢竟媒體們得寫點(diǎn)兒什么來賺取閱讀量,所以給機(jī)器人加上一些人類都敏感的名詞,自然也符合看熱鬧群眾的獵奇心理。

但嚴(yán)肅來講,AI的語言歧視問題完全沒有必要上升到全民批判甚至精神緊張的高度,一旦從技術(shù)的層面去分析問題,就會(huì)發(fā)現(xiàn),這原本就是個(gè)命中之理。

那這個(gè)理是什么?

禍?zhǔn)侨橇?,但鍋是背不?/strong>

首先我們弄清楚,智能音箱為什么會(huì)罵人?

這和它的工作程序是密切相關(guān)的。我們知道智能音箱主要有兩個(gè)作用,一個(gè)是陪人聊天兒,另一個(gè)是家居控制。在目前家居控制得還不太順利場景下,聊天已經(jīng)成為了智能音箱的最主要作用。那,聊天聊什么?

我國人民最喜歡逗小孩兒,每次都以把小孩兒逗哭為最大的樂子。那有了智能音箱,就又多了個(gè)逗的玩具。人就是這樣,在單位跟人說正經(jīng)話太累,回到家里就想說點(diǎn)兒不正經(jīng)的。作為一種新生事物,智能音箱是除了孩子之外第一個(gè)能學(xué)舌的物件了。所以,你好啊、唱歌啊之類的日常對話膩歪了,大家就像逗逗它:對它說兩句臟話怎么樣?

有了第一句,就有了第二句。國罵教完了,開始花式罵架。以智能音箱的學(xué)習(xí)能力,掌握這點(diǎn)兒東西自然不在話下。

其實(shí)學(xué)幾句臟話不難,畢竟這是AI的看家本領(lǐng)。但我們必須要時(shí)刻清楚點(diǎn)的一件事是:你認(rèn)為AI罵人了,但AI自己并不知道。

也就是說,它根本沒有詞的情感色彩點(diǎn)的概念。在這一點(diǎn)上,它和兩三歲的幼兒是一樣的。

同樣的原理,對種族甚至是職業(yè)方面的歧視現(xiàn)象也是必然會(huì)發(fā)生的。對職業(yè)而言,比如上文提到的護(hù)士和醫(yī)生,相關(guān)數(shù)據(jù)確實(shí)表明,在全球女性在護(hù)士總體中占到了90%,而在中國更是高達(dá)98%以上。與之相比美國醫(yī)學(xué)院校男性職工則占到六成以上,并且隨著職稱的提高這個(gè)比例還會(huì)上升。

同樣,美國卡耐基基梅隆的調(diào)查人員也發(fā)現(xiàn),在谷歌搜索當(dāng)中,如果瀏覽器認(rèn)為你是個(gè)男性,會(huì)給你推薦一些薪水更高的職業(yè)。并且在一些算法中,黑人名字往往和消極性詞匯聯(lián)系在一起,而白人名字則和往往積極向上的詞眼在一塊兒。

如同AI沒有詞的情感色彩觀念,它當(dāng)然也就沒有種族和職業(yè)觀念。其在進(jìn)行數(shù)據(jù)學(xué)習(xí)的時(shí)候會(huì)采用大概率的內(nèi)容來給某一類用戶進(jìn)行畫像,然后才會(huì)輸出類似的價(jià)值觀。事實(shí)上,黑人在美國的犯罪率確實(shí)要高一點(diǎn),而女子的薪資水平也大概只有男子的81%左右。

從以上的分析我們可以得出一個(gè)基本的結(jié)論:AI無意對任何人、任何職業(yè)進(jìn)行言語歧視,它所表現(xiàn)出來的一切,全都都是基于客觀數(shù)據(jù)而生成的用戶畫像。

但是,無意代表無罪嗎?雖然沒有主觀上的意愿,但它至少造成了客觀上歧視的事實(shí)。人們做出來AI,不是讓它給我們帶來有意或無意的傷害的。被人冷嘲熱諷也就算了,活得連機(jī)器都看不起,那人豈不是要跳樓?

所以,這口鍋到底該由誰來背?

懂得越少,就越容易說錯(cuò)話

AI的三大生命支撐里,數(shù)據(jù)、算力和算法三者缺一不可,但同時(shí)又擔(dān)負(fù)AI生長的不同任務(wù)。相較之下,算力為AI的大面積擴(kuò)張?zhí)峁┝丝赡?,而?shù)據(jù)和算法則直接影響了它的生命走向:成為一個(gè)寵兒,亦或是全民公敵。

那么,對詞匯情緒識(shí)別錯(cuò)誤、職業(yè)種族的強(qiáng)加,前者缺乏了對情緒的識(shí)別,后者則將不完全歸納奉為圭臬。

事實(shí)上,已經(jīng)有許多公司和科研機(jī)構(gòu)展開了對AI的情緒識(shí)別的研究。國內(nèi)的如阿里巴巴和清華大學(xué)合作成立的自然交互體驗(yàn)實(shí)驗(yàn)室,其就將研究領(lǐng)域定位在情感認(rèn)知計(jì)算、實(shí)體交互、多通道感知等領(lǐng)域,讓機(jī)器具備聽覺、視覺、觸覺等五感,從而理解人類的情感。AI之所以罵人,值得關(guān)注的一點(diǎn)就是其將語言僅僅視作一種指向,而不對這種指向進(jìn)行背后的含義分析。如果加入了對對話者表情、對話場景、對話對象等的綜合分析,這種語言的指向性對機(jī)器而言將更豐富,其避免出口成臟的可能性也就更大。

而在最近,一家位于倫敦的初創(chuàng)公司Realeyes則推出了一款A(yù)I攝像頭,它利用計(jì)算機(jī)視覺來讀取一個(gè)人在觀看長達(dá)6秒鐘的視頻時(shí)的情緒反應(yīng),然后利用預(yù)測性分析來幫助將這些反應(yīng)映射到視頻中,以提供關(guān)于視頻效果的反饋。

也就是說,識(shí)別情緒必須要帶點(diǎn)兒圖。

這樣的邏輯看上去沒有什么問題,但實(shí)施起來困難重重。而要解決這些困難,或許構(gòu)建完備的知識(shí)圖譜是一個(gè)不錯(cuò)的選擇。

仍以AI罵人來分析。我們可以看看,在避免AI罵人的背后有多少的內(nèi)容需要其消化吸收。

首先,AI要知道哪些詞匯是用來罵人的??刹灰詾檫@是一個(gè)簡單的東西,首先詞匯量就夠大,古人有文縐縐的“豎子”,今人有張口就來的“傻*”。人民群眾吃飽飯沒事兒干什么?打屁唄。打了幾千年,臟話在各地的方言中五花八門,要消化就得一陣子。

其次,在不同的使用場景下,詞語是會(huì)褒貶轉(zhuǎn)化的。比如女生對男生撒嬌“你真是個(gè)壞蛋”,AI忽略了這個(gè)場景,然后抓住“壞蛋”,還以為女生受到了威脅,然后順手報(bào)了個(gè)警怎么辦?Echo報(bào)警這事兒也早都不是新聞了。

最后,也是最難的,AI如何識(shí)別出一套臟話的邏輯?罵人不帶臟字的人大有人在。就算AI掌握了所有的臟話詞匯,并將其成功過濾掉,但是仍然可能會(huì)對一些深藏不露的話術(shù)選擇學(xué)習(xí)吸收,最后難免也會(huì)出現(xiàn)問題。

也就是說,一張?jiān)~匯+場景+邏輯的臟話知識(shí)圖譜的構(gòu)建是AI能夠在交流中避過語言問題的基礎(chǔ)。但除此之外就萬事大吉了嗎?

當(dāng)然不是。

這張知識(shí)圖譜不應(yīng)該僅僅只有語言

人與人的交流如果只是吐出來幾個(gè)單詞,那未免也太簡單了,簡單得就像個(gè)1。除了語言之外,還包括動(dòng)作、表情、聲調(diào)等等。所以說,要解決臟話問題,這張知識(shí)圖譜的內(nèi)容還應(yīng)該包含更多。

人機(jī)交流要想更加自然、更加和諧,還需要去進(jìn)行人說話時(shí)的常用姿勢含義、表情尤其是微表情以及說話音調(diào)的高地等方面的知識(shí)圖譜的構(gòu)建。值得注意的是,這些知識(shí)圖譜也并不是簡單的構(gòu)建和疊加。要知道,語言、動(dòng)作、表情和聲調(diào)之間可以做海量的排列組合,不同的組合之間又代表著不同的情緒。

而目前這項(xiàng)工作幾乎是一片空白。雖然有不少的機(jī)構(gòu)都在研究表情、肢體等具體動(dòng)作的含義,但基本上僅限于個(gè)別表情的表面含義,但這一層并不是知識(shí)圖譜的全部內(nèi)容。從表層含義到背后情緒到語言相關(guān)到動(dòng)作相關(guān),這一系列復(fù)雜的內(nèi)容都是需要投入精力來完成的。

那么,假如知識(shí)圖譜構(gòu)建完畢,下一個(gè)難題可能就要交給算法了。如何把如此巨大的信息進(jìn)行捏合,并判斷得準(zhǔn)確,工程量不容小覷。

如果這一切都能完成,那么,AI將可能不再會(huì)僅僅因?yàn)槟w色和那些片面的數(shù)據(jù)來去判斷一個(gè)人的品質(zhì),也將不自作主張地將所有的職業(yè)都分配給指定的性別。它在罵人的時(shí)候會(huì)三思而緘口,在更廣闊的識(shí)別判斷上也將做出更為公正、更為客觀的決定。

而正如上文我們提到的,AI所謂的“歧視”表現(xiàn),正是對現(xiàn)實(shí)情況的一個(gè)讀取。所以在某種程度上,人類把AI的歧視放大了。要從根本上改變這種現(xiàn)象,最應(yīng)該反思的其實(shí)是人類自己。那么,從這個(gè)角度上來講,AI的歧視反而是一件好事,它讓人類從第三者的角度重新認(rèn)識(shí)了自己,并發(fā)現(xiàn)一些潛移默化而自身渾然不覺的問題。利用對AI的這種意外“收獲”來反省人類自身,對消除人類社會(huì)的偏見也有助力。

誠然,讓AI讀懂人類將是一個(gè)遙遠(yuǎn)而艱辛的路程。時(shí)至今日,AI更像是一個(gè)幼兒,它全盤接受著來自這個(gè)世界的所有內(nèi)容,而后年歲漸長,更懂得世界的善惡、冷暖、喜怒和哀樂。而我們要做的,就是不斷拍去它成長路上沾染的灰塵,令其成為一個(gè)干凈的人工智能。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2018-05-25
學(xué)語的幼兒:如何把語言歧視纏身的AI拉回正道?
原標(biāo)題:學(xué)語的幼兒:如何把語言歧視纏身的AI拉回正道?到目前為止,跟人類最像的東西應(yīng)該就是AI了。自人類誕生,從來沒有什么能像今天的AI一樣,能如此地理解人類。

長按掃碼 閱讀全文