作為中國(guó)科技創(chuàng)新領(lǐng)域的重要盛會(huì),以及科技企業(yè)實(shí)力和形象展示的重要舞臺(tái),2023年度的中關(guān)村論壇于5月25日晚在北京開(kāi)幕。中共中央政治局常委、國(guó)務(wù)院副總理丁薛祥出席開(kāi)幕式并致辭。中共中央政治局委員、北京市委書(shū)記尹力在開(kāi)幕式上宣讀習(xí)總書(shū)記的賀信。
開(kāi)幕式上,北京國(guó)際科技創(chuàng)新中心建設(shè)十項(xiàng)重大科技成果進(jìn)行了發(fā)布和展示。據(jù)悉,本屆論壇設(shè)置了論壇會(huì)議、技術(shù)交易、展覽展示、成果發(fā)布、前沿大賽和配套活動(dòng)六大板塊,共舉辦150余場(chǎng)活動(dòng),集中展示了人工智能、區(qū)塊鏈、量子信息、高端制造等領(lǐng)域的全球最新進(jìn)展和前沿科技成果。
今年中關(guān)村論壇將開(kāi)設(shè)55場(chǎng)平行論壇,主要圍繞人工智能、生命科學(xué)等前沿領(lǐng)域,以及數(shù)據(jù)治理、女性科技創(chuàng)新等熱點(diǎn)議題。其中,人工智能開(kāi)放生態(tài)建設(shè)論壇于5月26日上午舉辦。AI訓(xùn)練數(shù)據(jù)龍頭服務(wù)商海天瑞聲CEO王曉東受邀出席該論壇,并發(fā)表了題為《共享開(kāi)放數(shù)據(jù)助力數(shù)字中國(guó)建設(shè)》的演講,宣布海天瑞聲將開(kāi)放多模態(tài)數(shù)據(jù)集。此外,海天瑞聲將在A(yíng)館1018中關(guān)村科技城展臺(tái)展示公司產(chǎn)品和解決方案。
開(kāi)源數(shù)據(jù)集
助力AI開(kāi)放生態(tài)構(gòu)建
本屆中關(guān)村論壇的主題是“開(kāi)放合作·共享未來(lái)”。開(kāi)放生態(tài)是全球人工智能發(fā)展的大勢(shì)所趨,尤其是AI算法的優(yōu)化和模型的訓(xùn)練需要足夠優(yōu)質(zhì)和豐富的數(shù)據(jù)集支持,因此共享數(shù)據(jù)集就成為AI開(kāi)放生態(tài)系統(tǒng)中非常關(guān)鍵的一環(huán),對(duì)行業(yè)的推動(dòng)作用也變得至關(guān)重要。在此背景下,海天瑞聲在本次大會(huì)上宣布開(kāi)放共享數(shù)據(jù)集就更顯得意義重大。
海天瑞聲CEO王曉東表示,作為AI數(shù)據(jù)行業(yè)里首家上市公司,海天瑞聲天然肩負(fù)著開(kāi)源開(kāi)放、推進(jìn)數(shù)據(jù)資源整合共享的社會(huì)責(zé)任。開(kāi)源數(shù)據(jù)集可以幫助各領(lǐng)域的研究者和開(kāi)發(fā)者快速獲得更多高質(zhì)數(shù)據(jù)樣本,進(jìn)而提高模型的精準(zhǔn)度和魯棒性,幫助他們更好地進(jìn)行算法研究和模型訓(xùn)練。此次即將開(kāi)源的多模態(tài)數(shù)據(jù)集「DOTS-MM-0526」涵蓋圖像、語(yǔ)音、文本等多個(gè)維度。海天瑞聲希冀與全球AI開(kāi)發(fā)者和研究人員建立更加緊密的合作關(guān)系,共同推動(dòng)人工智能技術(shù)的發(fā)展和應(yīng)用。同時(shí),開(kāi)源數(shù)據(jù)集計(jì)劃亦是公司對(duì)于A(yíng)I開(kāi)放生態(tài)的一次有益嘗試,是公司在數(shù)據(jù)智能化應(yīng)用領(lǐng)域持續(xù)發(fā)力的體現(xiàn)。
去年年底以來(lái),ChatGPT、GPT-4等大模型接二連三地發(fā)布,讓我們加速走進(jìn)了大模型時(shí)代,并真切地感受到了其與日俱增的能力。眾所周知,大模型也需要進(jìn)行訓(xùn)練,那么在此過(guò)程中與數(shù)據(jù)相關(guān)的工作,與此前有什么不同呢?
對(duì)此,海天瑞聲CTO黃宇凱認(rèn)為,從大方向上來(lái)看并沒(méi)有什么不同,還是需要先提出數(shù)據(jù)方案,然后進(jìn)行設(shè)計(jì),再執(zhí)行采集、標(biāo)注等一系列的工作流程,最終目標(biāo)也是讓客戶(hù)能夠基于所提供的數(shù)據(jù),訓(xùn)練出效果良好的模型。
其中,不一樣的地方在于,不同企業(yè)關(guān)注的側(cè)重點(diǎn)不同。比如,大模型主要分為預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)兩個(gè)階段,這兩個(gè)階段對(duì)數(shù)據(jù)都有很高的要求。就前者而言,雖然大模型對(duì)應(yīng)的是大數(shù)據(jù),但卻并不是數(shù)據(jù)越多越好,還要執(zhí)行數(shù)據(jù)清洗的步驟。數(shù)據(jù)公司必須掌握如何清洗、向哪個(gè)方向清洗,才能更好地應(yīng)用于大模型的基礎(chǔ)能力。對(duì)于后者來(lái)說(shuō),進(jìn)行強(qiáng)化學(xué)習(xí)需要撰寫(xiě)對(duì)應(yīng)的提示詞,這對(duì)數(shù)據(jù)標(biāo)注人員的邏輯思維能力和表達(dá)能力也有較高的要求。
對(duì)于一家數(shù)據(jù)公司來(lái)說(shuō),數(shù)據(jù)安全與合規(guī)是其底線(xiàn),也是立身之本。因此,海天瑞聲組建了專(zhuān)門(mén)的團(tuán)隊(duì),對(duì)歐盟頒布的《通用數(shù)據(jù)保護(hù)條例》、我國(guó)頒布的《數(shù)據(jù)安全法》和《個(gè)人信息法》等法規(guī)法規(guī)進(jìn)行了深刻的研究,并制定了高于國(guó)家法律的數(shù)據(jù)合規(guī)要求。具體來(lái)說(shuō),其在整個(gè)公司層面上,要求所有成員在嚴(yán)格遵循當(dāng)?shù)胤煞ㄒ?guī)的基礎(chǔ)之上,開(kāi)展包括數(shù)據(jù)采集、標(biāo)注等在內(nèi)的具體工作。
從語(yǔ)音到圖像再到文本、實(shí)現(xiàn)AI數(shù)據(jù)全覆蓋
品牌煥新展現(xiàn)海天瑞聲戰(zhàn)略新布局
會(huì)上,王曉東還隆重發(fā)布了海天瑞聲企業(yè)品牌煥新戰(zhàn)略:公司將啟用全新Logo,英文名稱(chēng)將從“SpeechOcean”改成“DataOcean AI”,中文名“海天瑞聲”不變。
王曉東表示:“此次品牌升級(jí)不僅是一個(gè)簡(jiǎn)單的改名,它還代表著海天瑞聲將在數(shù)據(jù)科技和人工智能領(lǐng)域的進(jìn)一步發(fā)展和探索。”他進(jìn)一步闡述道,海天瑞聲因優(yōu)質(zhì)海量的智能語(yǔ)音數(shù)據(jù)被大家所熟知,但近些年來(lái)隨著人工智能技術(shù)的不斷迭代與發(fā)展,海天瑞聲的業(yè)務(wù)已從單純的語(yǔ)音領(lǐng)域服務(wù),擴(kuò)展至提供覆蓋語(yǔ)音、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和多模態(tài)的數(shù)據(jù)解決方案及成品數(shù)據(jù)集,未來(lái)還將支持以數(shù)據(jù)驅(qū)動(dòng)的生成式AI業(yè)務(wù)發(fā)展。顯然海天瑞聲早已不再局限于“語(yǔ)音Speech”而是更廣闊的“數(shù)據(jù)Data”海洋。為更好地反映公司的業(yè)務(wù)范圍和技術(shù)實(shí)力,海天瑞聲對(duì)企業(yè)品牌進(jìn)行了升級(jí),以更好地滿(mǎn)足客戶(hù)全方位需求。
圖丨海天瑞聲新Logo(來(lái)源:資料圖)
而品牌升級(jí)背后,海天瑞聲全新的戰(zhàn)略布局也逐漸清晰呈現(xiàn)。據(jù)了解,自2005年成立以來(lái),海天瑞聲就一直在為AI產(chǎn)業(yè)鏈上的各類(lèi)機(jī)構(gòu)提供AI算法模型開(kāi)發(fā)訓(xùn)練所需的專(zhuān)業(yè)數(shù)據(jù)集。目前這些數(shù)據(jù)集已覆蓋智能語(yǔ)音、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言等AI核心領(lǐng)域。經(jīng)過(guò)多年深耕,海天瑞聲的產(chǎn)品和服務(wù)已獲得阿里巴巴、騰訊、三星等國(guó)內(nèi)外頭部客戶(hù)的認(rèn)可,并在自動(dòng)駕駛、虛擬主播、聲紋識(shí)別、人臉姿態(tài)等眾多人工智能場(chǎng)景及相關(guān)算法模型的訓(xùn)練過(guò)程中獲得應(yīng)用。
隨著數(shù)據(jù)要素作為國(guó)家級(jí)戰(zhàn)略資源地位不斷凸顯,數(shù)據(jù)相關(guān)企業(yè)也肩負(fù)起未來(lái)數(shù)字化基建的重大責(zé)任。因此,無(wú)論是業(yè)務(wù)領(lǐng)域的自然擴(kuò)展還是主動(dòng)更名的品牌升級(jí),都無(wú)疑在證明著一點(diǎn),即海天瑞聲在保障基礎(chǔ)數(shù)據(jù)業(yè)務(wù)穩(wěn)健發(fā)展的同時(shí)已找到新的業(yè)績(jī)?cè)鲩L(zhǎng)點(diǎn)并不斷發(fā)力。從近期其在自動(dòng)駕駛業(yè)務(wù)的接連動(dòng)作可以看到海天瑞聲正在發(fā)力聚焦自動(dòng)駕駛賽道,通過(guò)平臺(tái)、算法研發(fā)以及數(shù)據(jù)安全能力的持續(xù)建設(shè),不斷將之打造成為公司核心競(jìng)爭(zhēng)力之一,使之成為公司第二增長(zhǎng)曲線(xiàn)。
深入布局自動(dòng)駕駛領(lǐng)域
開(kāi)發(fā)全棧式自動(dòng)駕駛數(shù)據(jù)平臺(tái)
基于海量數(shù)據(jù)構(gòu)建一套強(qiáng)大的數(shù)據(jù)鏈驅(qū)動(dòng)系統(tǒng),是自動(dòng)駕駛技術(shù)發(fā)展過(guò)程中的必要環(huán)節(jié)。而要想推動(dòng)該系統(tǒng)高效運(yùn)轉(zhuǎn)就少不了數(shù)據(jù)采集、管理、標(biāo)注、質(zhì)檢和仿真等環(huán)節(jié)的支持和相互配合。
自動(dòng)駕駛領(lǐng)域是海天瑞聲著重進(jìn)行業(yè)務(wù)布局和彰顯技術(shù)實(shí)力的核心領(lǐng)域之一。就在上個(gè)月18日,海天瑞聲正式推出“DOTS-AD自動(dòng)駕駛平臺(tái)”。 據(jù)海天瑞聲CTO黃宇凱介紹,這是一款專(zhuān)為自動(dòng)駕駛場(chǎng)景設(shè)計(jì)的全棧式數(shù)據(jù)平臺(tái),能夠支持多維度、全方位的自動(dòng)駕駛標(biāo)注任務(wù),數(shù)據(jù)標(biāo)注效率提升高達(dá)8倍。支持萬(wàn)人同時(shí)作業(yè),能夠解決項(xiàng)目經(jīng)理和標(biāo)注員的使用痛點(diǎn),提升標(biāo)注效能,且支持多元化部署。
特別要提到的是該平臺(tái)的四大核心功能:一是全面支持自動(dòng)駕駛領(lǐng)域各維度2D/3D/4D點(diǎn)云或圖像數(shù)據(jù)標(biāo)注;二是能針對(duì)不同場(chǎng)景支持輔助標(biāo)注/自動(dòng)化標(biāo)注;三是支持項(xiàng)目的柔性管理,支持流程/工具/標(biāo)簽的自定義;四是可實(shí)現(xiàn)對(duì)數(shù)據(jù)的智能化管理,確??蛻?hù)的商業(yè)敏感數(shù)據(jù)安全合規(guī)。基于這些核心功能,海天瑞聲正建立起在智能駕駛數(shù)據(jù)訓(xùn)練領(lǐng)域的核心壁壘,也將賦能自動(dòng)駕駛技術(shù)走邁向新高度。
數(shù)據(jù)作為人工智能發(fā)展的重要一環(huán),大模型的出現(xiàn)為數(shù)據(jù)需求帶來(lái)了新的挑戰(zhàn)和機(jī)遇。海天瑞聲王曉東在此次中關(guān)村論壇上還表示,公司將堅(jiān)持以“做智能世界的數(shù)據(jù)基石”為使命,積極與各方共同推動(dòng)人工智能技術(shù)的發(fā)展和應(yīng)用,促進(jìn)企業(yè)數(shù)字化、智能化進(jìn)程的加速推進(jìn),為建設(shè)數(shù)字經(jīng)濟(jì)和智能社會(huì)做出貢獻(xiàn)。
自2007年中關(guān)村論壇初次舉辦以來(lái),其一直是中國(guó)面向全球科技創(chuàng)新交流合作的國(guó)家級(jí)平臺(tái),并始終堅(jiān)持“科技辦會(huì)”的重要理念。5月25日,習(xí)總書(shū)記向今年的中關(guān)村論壇致賀信。其指出,當(dāng)前,新一輪科技革命和產(chǎn)業(yè)變革深入發(fā)展,人類(lèi)要破解共同發(fā)展難題,比以往任何時(shí)候都更需要國(guó)際合作和開(kāi)放共享。中國(guó)堅(jiān)定奉行互利共贏(yíng)的開(kāi)放戰(zhàn)略,愿同世界各國(guó)一道,攜手促進(jìn)科技創(chuàng)新,推動(dòng)科學(xué)技術(shù)更好造福各國(guó)人民。
據(jù)悉,本屆論壇將持續(xù)到5月30日,期間將有80多個(gè)國(guó)家和地區(qū)的嘉賓出席,近200家外國(guó)政府部門(mén)、國(guó)際組織和機(jī)構(gòu)參與,近120位頂尖專(zhuān)家將發(fā)表演講。借由這樣一個(gè)平臺(tái),海天瑞聲及更多優(yōu)秀的AI產(chǎn)業(yè)企業(yè)將共同探討如何更好地依托我國(guó)現(xiàn)有開(kāi)放創(chuàng)新平臺(tái)建設(shè)人工智能開(kāi)放生態(tài),如何更科學(xué)地投入更多研發(fā)資源,以提升產(chǎn)品質(zhì)量和服務(wù)水平,共同促進(jìn)產(chǎn)業(yè)發(fā)展向前。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )