從AI@'22大會(huì),看谷歌的生成式AI戰(zhàn)略及進(jìn)展

極客網(wǎng)·人工智能11月11日 2022年是生成式AI發(fā)展進(jìn)程中的重要一年。大型語言模型在生成文本和軟件代碼方面不斷取得進(jìn)展。與此同時(shí),隨著DALL-E2、Imagen和StableDiffusion等模型的引入,人們看到了文本到圖像生成器的巨大進(jìn)步。 

2022年還標(biāo)志著生成式AI模型的產(chǎn)品化加速。生成模型的科學(xué)和技術(shù)如今已經(jīng)發(fā)展成熟到能夠解決實(shí)際問題的地步。像微軟和谷歌這樣的公司正在尋求一個(gè)新市場(chǎng)中占據(jù)領(lǐng)先地位的方法,這可能會(huì)改變創(chuàng)造力的未來。

谷歌公司在其日前舉辦的AI@'22大會(huì)上,展示了在其產(chǎn)品利用生成模型的路線圖。其戰(zhàn)略可能是該領(lǐng)域的發(fā)展方向和未來競(jìng)爭(zhēng)可能發(fā)生變化的前奏。 

谷歌的生成模型進(jìn)展

谷歌Parti使用Transformers從文本令牌創(chuàng)建圖像

在AI@'22會(huì)議上,谷歌研究中心首席科學(xué)家Douglas Eck列出了該公司目前在四個(gè)領(lǐng)域?qū)ι赡P偷难芯浚何谋尽⒃创a、音頻、圖像和視頻。 

谷歌目前正在所有這些領(lǐng)域運(yùn)行測(cè)試項(xiàng)目,著眼于在未來創(chuàng)建產(chǎn)品。Wordcraft Writers Workshop致力于幫助作者在寫作中從大型語言模型中獲得幫助。這是一個(gè)使用語言模型LaMDA根據(jù)用戶提供的提示生成文字的工具。該工具被設(shè)計(jì)成在一個(gè)迭代過程中使用模型,在這個(gè)過程中,作者和大型語言模型(LLM)進(jìn)行交互,共同創(chuàng)建故事。 

Eck說,“使用LaMDA來寫一個(gè)完整的故事將成為了一個(gè)死胡同。當(dāng)它用來增加趣味、為特定角色或增強(qiáng)故事的某個(gè)方面時(shí),這可能是一個(gè)更有效的工具。用戶界面也必須是正確的。Wordcraft工具是從頭開始設(shè)計(jì)的,可以讓作者與生成模型進(jìn)行交互。”

學(xué)習(xí)代碼是一個(gè)使用大型語言模型(LLM)為開發(fā)人員生成代碼建議的項(xiàng)目。谷歌目前正在內(nèi)部測(cè)試該工具,它包括單行和多行代碼完成建議。 

AudioLM使用語言模型生成音頻。該模型將一個(gè)音頻樣本作為輸入。它可以用來生成音樂和語音。 

也許Eck在AI@'22會(huì)議上展示的最先進(jìn)的模型是文本到圖像模型Imagen和Parti。Imagen的工作原理類似于OpenAI的DALL-E2,它使用擴(kuò)散模型將語言嵌入轉(zhuǎn)化為圖像。Parti使用Transformers架構(gòu)從文本標(biāo)記生成圖像。DreamBooth是一個(gè)可以調(diào)優(yōu)文本到圖像生成器(如Imagen)的模型,以在不同的場(chǎng)景中顯示主題。DreamFusion將擴(kuò)散模型的功能與神經(jīng)輻射場(chǎng)(NeRF)結(jié)合起來,神經(jīng)輻射場(chǎng)(NeRF)是一種深度學(xué)習(xí)架構(gòu),可以從2D圖像創(chuàng)建3D模型。 

谷歌DreamBooth對(duì)生成模型進(jìn)行微調(diào),以在不同的環(huán)境中顯示特定的主題

Eck還展示了谷歌與Imagen Video和Phenaki在視頻生成方面的研究的預(yù)覽。Imagen Video使用擴(kuò)散模型創(chuàng)建一系列高分辨率圖像,這些圖像可以拼接在一起創(chuàng)建視頻。Phenaki基于Transformers架構(gòu),將文本提示序列轉(zhuǎn)換為圖像序列。Imagen Video和Phenaki結(jié)合使用,可根據(jù)提示序列創(chuàng)建高分辨率視頻。

谷歌的生成模型戰(zhàn)略

Eck在會(huì)上演講中明確表示,生成式模型并不意味著自動(dòng)化或取代人類的創(chuàng)造力?!斑@不再是一個(gè)創(chuàng)造現(xiàn)實(shí)畫面的生成模型,而是自己創(chuàng)造的東西。技術(shù)應(yīng)該滿足我們的需要,讓我們對(duì)自己的工作有代理權(quán)和創(chuàng)造性的控制權(quán)?!?/p>

在討論谷歌的“負(fù)責(zé)任的AI”戰(zhàn)略時(shí),他進(jìn)一步強(qiáng)調(diào)了這一點(diǎn),并在演講結(jié)束時(shí)說:“創(chuàng)造力是使我們成為人類的重要組成部分。我認(rèn)為在構(gòu)建這些AI系統(tǒng)時(shí),牢記這一點(diǎn)很重要?!?/p>

Eck的一些言論是為了緩解生成式AI模型取代人類創(chuàng)造力的恐懼(這在很大程度上被夸大了),強(qiáng)調(diào)積極的影響,將該領(lǐng)域轉(zhuǎn)向以人為中心的AI。AI系統(tǒng)應(yīng)該以一種提供透明度和控制的方式設(shè)計(jì),以增強(qiáng)人類的能力。如果沒有人類的控制和監(jiān)督,生成模型等AI系統(tǒng)將表現(xiàn)不佳,因?yàn)樗鼈儫o法像人類一樣掌握基本概念。 

谷歌能在生成式AI領(lǐng)域獲得競(jìng)爭(zhēng)優(yōu)勢(shì)嗎?

AI研究和產(chǎn)品化之間的差距很難彌合。當(dāng)然,谷歌的大型語言模型(LLM)和文本到圖像模型的質(zhì)量不會(huì)低于OpenAI的GPT-3和DALL-E2。但問題是,谷歌能否基于這些模式推出成功的產(chǎn)品? 

在考慮將技術(shù)產(chǎn)品化時(shí),需要考慮以下一些問題:這項(xiàng)技術(shù)會(huì)成為新產(chǎn)品的基礎(chǔ)技術(shù)嗎?如果沒有,它會(huì)被集成到現(xiàn)有的產(chǎn)品中嗎?它解決的是什么問題,目前存在的替代解決方案是什么?產(chǎn)品是否提供了足夠的附加值來說服用戶轉(zhuǎn)換?它是否有助于鞏固企業(yè)在現(xiàn)有市場(chǎng)中的地位? 

企業(yè)通常會(huì)將技術(shù)帶到他們擅長(zhǎng)的領(lǐng)域或市場(chǎng)。在寫作領(lǐng)域,微軟領(lǐng)先于谷歌。Office 365的市場(chǎng)份額超過了GSuite,在將大型語言模型(LLM)集成到其產(chǎn)品中方面,微軟公司已經(jīng)領(lǐng)先一步。 

微軟在GitHub Copilot和Codex的編碼方面也處于領(lǐng)先地位,它們已經(jīng)進(jìn)入生產(chǎn)模式,而不是谷歌的內(nèi)部代碼生成工具。谷歌最受歡迎的開發(fā)工具是Colab和Android Studio,這將為它提供一個(gè)測(cè)試和推出代碼AI的場(chǎng)所。但這些集成開發(fā)環(huán)境(IDE)的市場(chǎng)份額無法與微軟的Visual Studio Code和GitHub Codespaces(也屬于微軟)相提并論。 

在圖像、視頻和音頻領(lǐng)域,Adobe公司將成為生成式AI的贏家。Adobe公司已經(jīng)擁有最大的市場(chǎng)份額和完善的工具,并定期更新AI功能。Adobe已經(jīng)在其工具套件中嘗試生成式AI工具。 

然而,這并不意味著現(xiàn)有這些公司一定會(huì)主導(dǎo)生成式AI領(lǐng)域。目前,從目前使用的工具(如文字處理器、集成開發(fā)環(huán)境和圖像編輯應(yīng)用程序)的角度來看待生成模型。基本上,行業(yè)廠商正在研究生成模型如何自動(dòng)化或改進(jìn)已經(jīng)在做的任務(wù)(完成句子、編寫代碼塊、編輯或生成照片等等)。當(dāng)他們創(chuàng)造新的工具系統(tǒng)和工作流程時(shí),AI的真正潛力將得到充分發(fā)揮,這些工具和流程能夠充分利用生成模型和AI的其他進(jìn)步,以完全不同的方式來實(shí)現(xiàn)目標(biāo)。 

正如谷歌重塑了信息發(fā)現(xiàn)模式,亞馬遜隨著網(wǎng)絡(luò)的普及重塑了購(gòu)物模式那樣,發(fā)現(xiàn)并擁抱AI新機(jī)遇的企業(yè)必然會(huì)改變市場(chǎng)現(xiàn)狀或塑造新的市場(chǎng)。


(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2022-11-11
從AI@'22大會(huì),看谷歌的生成式AI戰(zhàn)略及進(jìn)展
谷歌公司在其日前舉辦的AI@'22大會(huì)上,展示了在其產(chǎn)品利用生成模型的路線圖。其戰(zhàn)略可能是該領(lǐng)域的發(fā)展方向和未來競(jìng)爭(zhēng)可能發(fā)生變化的前奏。

長(zhǎng)按掃碼 閱讀全文