給AI公司“打雜”,95后華人把估值做到138億美元

在舊金山的 Showplace 廣場,一棟曾經(jīng)屬于Airbnb的商業(yè)大樓最近迎來了新主人。在大部分科技公司都在業(yè)務(wù)收縮的當下,ScaleAI,這家由95后華人創(chuàng)立的人工智能數(shù)據(jù)標注公司,大手一揮租下了舊金山市中心約18萬平英尺的辦公室。

就在不久前,Scale AI完成了最新一輪10億美元的融資,估值達到138億美元,比上一輪的73億美元再翻了一倍。在這輪由硅谷頂級基金Accel領(lǐng)投的F輪融資中,除了YC、英偉達等現(xiàn)有投資者之外,還加入了一長串的新投資者名單,包括:亞馬遜、Meta、AMD、高通、思科、英特爾、高通等等,參與機構(gòu)高達22個。

而這些巨頭投資Scale AI的出發(fā)點大多相似——它們基本都是Scale AI的客戶。在AI飛速發(fā)展的當下,數(shù)據(jù)標記,這個看似簡單無趣、勞動密集的低門檻業(yè)務(wù),卻被Scale AI一步一步地做成了一個大生意。

AI“藍領(lǐng)工廠”

在過去的一段時間里,提起“AI賣鏟人”,英偉達無疑是被提及最多的公司。但很多人不知道的是,Scale AI也扮演著同樣的角色。眾所周知,算力、算法和數(shù)據(jù)構(gòu)成了人工智能的三大支柱,英偉達占據(jù)著AI算力的山峰,Scale AI則是當前為AI提供數(shù)據(jù)支撐的最主要服務(wù)商。

Scale AI 成立于2016,其創(chuàng)始人是生于1997年的華人Alexandr Wang,創(chuàng)立公司時年僅19歲,在MIT剛讀完大一。Scale創(chuàng)立之初主要專注于人工智能數(shù)據(jù)標注,核心業(yè)務(wù)是幫助企業(yè)收集、清理、標注、以及管理大規(guī)模的高質(zhì)量數(shù)據(jù),以便訓練和優(yōu)化機器學習模型。

實際上,在Scale AI崛起之前,數(shù)據(jù)標注在AI領(lǐng)域?qū)嶋H上長期處于“邊緣”位置。所謂的數(shù)據(jù)標注,是指為圖像、文本、視頻或音頻等原始數(shù)據(jù)添加結(jié)構(gòu)化信息,以便機器學習模型能夠理解和學習這些數(shù)據(jù)的過程。聽起來好像很復雜?但其實這是個小學生都能做的事情,比如給你一張圖片,讓你標出圖片中的行人、車輛、建筑等,給你一段文本,讓你標寫哪些感嘆句、哪些是疑問句,給你一段語音讓你打上情緒或說話者身份標簽等等。

雖然原理很簡單,但這些經(jīng)過標注的數(shù)據(jù)對于人工智能的發(fā)展不可或缺。AI模型需要大量的標注數(shù)據(jù)來進行學習,才能具備識別、分類和預(yù)測等功能。

但讓眾多AI公司頭疼的地方是,盡管一些自動化工具可以加快部分標注過程,但為了得到高質(zhì)量、高精確度的標注數(shù)據(jù),仍然需要大量的人工來處理、標記和驗證數(shù)據(jù)。特別是在高精度要求的領(lǐng)域,如醫(yī)學影像、自動駕駛或JS應(yīng)用,錯誤標注可能會導致嚴重的后果。也正因如此,數(shù)據(jù)標注被認為是一個勞動密集型業(yè)務(wù),很多公司不愿意也沒有精力去自己管理,導致標注數(shù)據(jù)的獲取的過程既耗時又昂貴。

Scale AI攬下了這個“辛苦活”。Scale AI 的早期定位是要通過結(jié)合自動化技術(shù)與人力審核,創(chuàng)建一個高效、精確的標注平臺,幫助企業(yè)快速處理和標注大規(guī)模的數(shù)據(jù)集。它的業(yè)務(wù)模式很簡單:接洽到有標記需求的公司,對數(shù)據(jù)進行簡單的預(yù)處理和清洗之后,將其外包給非洲、東南亞等勞工對數(shù)據(jù)進行標記。

2017年,Scale AI 成立了 Remotasks 作為其內(nèi)部外包機構(gòu),在肯尼亞、菲律賓、委內(nèi)瑞拉等地設(shè)立了幾十家機構(gòu),在各地培訓了成千上萬的數(shù)據(jù)標注員,這些標注員的工作大部分都是按件計酬,一次標注的收入低至幾美分,很多合約工在時薪甚至不到1美元。而在這樣的“全球工廠”模式下,Scale AI的毛利率卻能長期保持在65%以上。

踩中每一次風口

雖然數(shù)據(jù)標注看上去是一個低門檻的業(yè)務(wù),但在2016年前后的“AI沉寂期”中卻幾乎是一個市場空白,只有谷歌、亞馬遜等一些大公司有自己的數(shù)據(jù)標注部門。而Scale AI 的成功很大程度上得益于它精準地洞察到了這一機遇并且抓住了近10年來人工智能行業(yè)發(fā)展的幾次風口。

首先是自動駕駛。在Scale AI成立幾個月后,他們就發(fā)現(xiàn)了自動駕駛領(lǐng)域?qū)τ跀?shù)據(jù)標注的大規(guī)模和剛性需求。自動駕駛技術(shù)的發(fā)展依賴于大量高精度的標注數(shù)據(jù),例如道路場景、行人和其他物體的圖像數(shù)據(jù),車企需要成千上萬小時的視頻數(shù)據(jù)進行標注來訓練和驗證其算法,就整個自動駕駛行業(yè)來看,當時90%以上的數(shù)據(jù)標注都是以人工為主。Scale AI 通過高效的數(shù)據(jù)標注平臺,以及使用模型輔助標注和數(shù)據(jù)預(yù)處理來加速數(shù)據(jù)處理流程,進而大幅降低了標注成本和時間,吸引了當時風頭正盛的Waymo、Cruise等企業(yè)成為了它的客戶,進而逐漸在自動駕駛數(shù)據(jù)標注領(lǐng)域站穩(wěn)腳跟。

在自動駕駛領(lǐng)域初嘗甜頭之后,Scale AI開始全面進軍AIaaS(AI 即服務(wù))市場。它從單純的數(shù)據(jù)標記延伸到數(shù)據(jù)服務(wù),提供從數(shù)據(jù)標記和管理、模型訓練和評估,再到AI 應(yīng)用開發(fā)和部署的全流程解決方案。

此外,為了應(yīng)對某些行業(yè)數(shù)據(jù)不足的挑戰(zhàn),Scale AI還向下游延伸到合成數(shù)據(jù)的生成,通過從現(xiàn)有數(shù)據(jù)中創(chuàng)建新的數(shù)據(jù)集,幫助訓練模型。于是在之后的幾年里,Scale AI在數(shù)據(jù)領(lǐng)域迅速崛起,客戶也擴展到了醫(yī)療、國防、電商、政府服務(wù)等領(lǐng)域。在成立兩年多之后,Scale AI的營收已經(jīng)接近5000萬美元。

Scale AI還精準地把握了生成式 AI爆發(fā)的機遇。早在GPT-2上,Scale就與 OpenAI 就進行了首次帶有人類反饋的強化學習合作實驗,接著將這些技術(shù)擴展到InstructGPT及其他領(lǐng)域。而由于生成式 AI 模型需要海量的訓練數(shù)據(jù)來提升其生成內(nèi)容的準確性和多樣性,大語言模型的爆發(fā)式增長極大地推動了整個行業(yè)對高質(zhì)量標注數(shù)據(jù)的需求,Scale AI 通過整合數(shù)據(jù)標注、數(shù)據(jù)合成等服務(wù),為生成式 AI 提供了必要的數(shù)據(jù)支持。此外,Scale AI還幫助企業(yè)快速生成定制化的 API,以減少了自行訓練模型的復雜性和成本。

針對生成式AI,Scale目前已經(jīng)推出了全流程的平臺服務(wù),包括開發(fā)者工具平臺 Scale Spellbook、合成數(shù)據(jù)產(chǎn)品 Scale Synthetic、企業(yè)級GenAI平臺等,目標是讓企業(yè)在每一個場景下都有足夠的數(shù)據(jù)來支持模型的訓練,憑借著在數(shù)據(jù)領(lǐng)域的獨特優(yōu)勢,過去兩年,Scale AI的客戶激增,既有OpenAI、Meta、AWS、英偉達這樣的巨頭,也有Cohere、Adept等這樣的新興獨角獸。而他們中的很多,也在這一輪融資中成為了Scale AI的投資者。

為什么是Scale AI突圍

關(guān)于Scale AI的崛起,很多人都很疑問,對于這樣一個處于AI上游且勞動密集的行業(yè),中國似乎具有先天的優(yōu)勢,為什么沒有類似的企業(yè)脫穎而出?總體來看,這背后主要有兩方面的因素,一是行業(yè),二是融資。

生成式AI熱潮之前,國內(nèi)的人工智能發(fā)展在場景應(yīng)用方面一度領(lǐng)先,數(shù)據(jù)標注業(yè)務(wù)其實很早就起步發(fā)展了,但并沒有形成規(guī)模。很多龍頭企業(yè)雖然成立了數(shù)據(jù)標注部門,但主要是來為自身業(yè)務(wù)服務(wù),而并不是尋求將數(shù)據(jù)與各個行業(yè)進行資源匹配。同時,正因為國內(nèi)的人口紅利,讓標注后的數(shù)據(jù)獲取成本低廉,也讓企業(yè)并沒有動力去采用技術(shù)平臺。據(jù)了解,長期以來,國內(nèi)的數(shù)據(jù)標注行業(yè)的價格都很透明, 時薪普遍在10-25人民幣左右且大多沒有學歷限制。

而相較而言,美國人力成本高昂,在LinkedIn、indeed等平臺上,數(shù)據(jù)標注的兼職時薪大多都在30-200美元之間,這在客觀上就要求企業(yè)需要從技術(shù)的角度去思考解決數(shù)據(jù)生產(chǎn)問題,或者采購相關(guān)服務(wù)。

從融資環(huán)境來看,國內(nèi)的數(shù)據(jù)標注市場一直都處于AI領(lǐng)域的融資邊緣地帶。2021年左右,研究估計中國整個數(shù)據(jù)標注市場的規(guī)模僅為43億人民幣,2022年僅增長至51億人民幣。這個數(shù)字相較于整個AI市場的千萬億規(guī)模無疑不值一提,也造成了數(shù)據(jù)標注公司的融資困難。2021年,當Scale AI已經(jīng)完成3.25億美元的E輪融資,估值達到了73億美元時,中國的同類創(chuàng)業(yè)公司大部分還停留在A輪。

之所以此前國內(nèi)的規(guī)模如此之小,是因為只是單純考慮了標注這一個環(huán)節(jié)。而實際上,從數(shù)據(jù)標注所衍生出來的數(shù)據(jù)管理、數(shù)據(jù)評估、數(shù)據(jù)合成等全流程的數(shù)據(jù)服務(wù)才是這個行業(yè)中的增值部分。

關(guān)于數(shù)據(jù)對于大語言模型發(fā)展的重要性,Scale AI的創(chuàng)始人Alex Wang在最近的訪談中談到,人們已經(jīng)用盡了互聯(lián)網(wǎng)上的所有數(shù)據(jù),想要開發(fā)出比GPT-4.5更強大的人工智能,則必須構(gòu)建前沿數(shù)據(jù)。所謂的“前沿數(shù)據(jù)”是指那些與應(yīng)用場景密切相關(guān)、能及時反映最新趨勢和變化的數(shù)據(jù),往往包含大量長尾或少見的場景,有助于提升AI在非典型情況下的表現(xiàn),推動人工智能能力的邊界向復雜推理、多模態(tài)等方向發(fā)展。

隨著AI向縱深發(fā)展,未來的數(shù)據(jù)訓練需要更多地與特定任務(wù)、特定應(yīng)用場景相匹配,因此也需要挖掘和生產(chǎn)出更多新的、差異化的數(shù)據(jù),這是Scale AI此輪10億美元融資之后的工作重點,也進一步打開了數(shù)據(jù)標注的想象邊界。

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-09-30
給AI公司“打雜”,95后華人把估值做到138億美元
IT產(chǎn)業(yè)網(wǎng)精選摘要:Scale AI完成了最新一輪10億美元的融資,估值達到138億美元,比上一輪的73億美元再翻了一倍。

長按掃碼 閱讀全文