從“數(shù)字化出海”到“出海數(shù)字化”,中國(guó)企業(yè)拓展全球化市場(chǎng)勢(shì)頭強(qiáng)勁,同時(shí)也展現(xiàn)出中國(guó)數(shù)字經(jīng)濟(jì)的新趨勢(shì)。
對(duì)于AI企業(yè)而言,“出海”更首要的是解決產(chǎn)品與當(dāng)?shù)啬繕?biāo)受眾群體的互動(dòng)問(wèn)題,即AI能否實(shí)現(xiàn)“聽(tīng)音識(shí)人”、“看臉識(shí)人”、“識(shí)文斷字”等。不同國(guó)家/地區(qū)的人種在人臉特征、語(yǔ)言表達(dá)、行為習(xí)慣、圖文書(shū)寫(xiě)等方面都存在著差異。首當(dāng)其沖的便是語(yǔ)言問(wèn)題——能夠清晰而準(zhǔn)確地與不同國(guó)家用戶進(jìn)行“交流”,是AI應(yīng)用打開(kāi)海外市場(chǎng)的第一步。
全球語(yǔ)種多,出海困難大?
AI應(yīng)用在不同國(guó)家/地區(qū)“聽(tīng)音識(shí)人”的實(shí)現(xiàn),依托于多語(yǔ)種AI語(yǔ)音技術(shù)的實(shí)現(xiàn),需要根據(jù)語(yǔ)言積累構(gòu)建語(yǔ)種系統(tǒng),但不同語(yǔ)種之間差異極大,所以需要根據(jù)不同的語(yǔ)言特性單獨(dú)建立語(yǔ)言模型,而建立模型則需要大量的數(shù)據(jù)做訓(xùn)練支撐。
據(jù)統(tǒng)計(jì),目前世界上約有7000多種語(yǔ)言,使用最高頻的語(yǔ)言僅10多種,盡管不少智能翻譯設(shè)備的中英在線和離線翻譯效果已經(jīng)達(dá)到專業(yè)水平,但小語(yǔ)種依然存在語(yǔ)言研究不充分、訓(xùn)練數(shù)據(jù)稀缺、應(yīng)用場(chǎng)景復(fù)雜多樣等問(wèn)題,為AI語(yǔ)種系統(tǒng)的構(gòu)建與研發(fā)帶來(lái)巨大挑戰(zhàn),與語(yǔ)音識(shí)別、合成等多項(xiàng)技術(shù)的融合上也困難重重。
多維數(shù)據(jù)布局,海天瑞聲助力企業(yè)出海
海天瑞聲作為全球AI訓(xùn)練數(shù)據(jù)服務(wù)行業(yè)的領(lǐng)軍者,基于近20年的領(lǐng)域深耕,從“覆蓋雜難語(yǔ)種數(shù)據(jù)”、“建成最大規(guī)模數(shù)據(jù)庫(kù)”、“數(shù)據(jù)緊跟前瞻AI應(yīng)用場(chǎng)景”三個(gè)維度布局,助力企業(yè)全球化業(yè)務(wù)拓展。
“覆蓋雜難語(yǔ)種數(shù)據(jù)”——面對(duì)“語(yǔ)種多、小語(yǔ)種研究不足”的行業(yè)問(wèn)題,海天瑞聲全球化的母語(yǔ)發(fā)音人資源布局以及全球語(yǔ)言學(xué)家團(tuán)隊(duì),支持170多種語(yǔ)言及方言的數(shù)據(jù)方案設(shè)計(jì)、語(yǔ)音采集、轉(zhuǎn)錄、發(fā)音詞典制作服務(wù),可在70+個(gè)國(guó)家/地區(qū)進(jìn)行本地化項(xiàng)目服務(wù)。
“建成最大規(guī)模數(shù)據(jù)庫(kù)”——針對(duì)“訓(xùn)練數(shù)據(jù)稀缺”的需求難題,海天瑞聲打造全球規(guī)模最大的現(xiàn)有數(shù)據(jù)集庫(kù)。近千個(gè)數(shù)據(jù)成品庫(kù),包含稀缺小語(yǔ)種在內(nèi)的100多種語(yǔ)言,讓AI企業(yè)不再花費(fèi)精力根據(jù)不同的語(yǔ)言特性單獨(dú)建模,將大大加速AI應(yīng)用的開(kāi)發(fā)與迭代。
“數(shù)據(jù)緊跟前瞻AI應(yīng)用場(chǎng)景”——對(duì)于“應(yīng)用場(chǎng)景復(fù)雜多樣”的海外市場(chǎng)需求,海天瑞聲憑借多年全球化項(xiàng)目經(jīng)驗(yàn),對(duì)市場(chǎng)前沿需求時(shí)刻保持敏銳,數(shù)據(jù)集支持語(yǔ)音識(shí)別、語(yǔ)音合成、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、詞典等多個(gè)任務(wù)領(lǐng)域,覆蓋智能家居、智能駕駛、虛擬主播、有聲書(shū)、智慧金融、智能安防、智能搜索等多個(gè)業(yè)務(wù)場(chǎng)景,為AI企業(yè)及應(yīng)用出海開(kāi)啟更多賽道與可能。
打造稀缺小語(yǔ)種數(shù)據(jù)庫(kù),海天瑞聲破解語(yǔ)言密碼
針對(duì)不同的任務(wù)和應(yīng)用場(chǎng)景,海天瑞聲基于自有高規(guī)格錄音棚、全球優(yōu)質(zhì)聲優(yōu)資源建立了多語(yǔ)種、數(shù)千個(gè)小時(shí)的語(yǔ)音庫(kù),不乏眾多稀缺小語(yǔ)種數(shù)據(jù)庫(kù),如亞美尼亞語(yǔ)、巽他語(yǔ)、普什圖語(yǔ)、印地語(yǔ)等,所有參與錄音的發(fā)音人均經(jīng)過(guò)專業(yè)篩選,保證其發(fā)音標(biāo)準(zhǔn),吐字清晰;專業(yè)的語(yǔ)言專家全程參與監(jiān)督,保證數(shù)據(jù)準(zhǔn)確性。
以下小編整理的個(gè)別語(yǔ)種數(shù)據(jù)庫(kù)展示,覆蓋TTS、ASR、OCR等領(lǐng)域,如有更多感興趣的小語(yǔ)種,歡迎來(lái)撩:
TTS:
King-TTS-117 :越南語(yǔ)女聲合成庫(kù),錄音風(fēng)格多樣,包含中性通用錄音和多情感錄音;標(biāo)注包含發(fā)音標(biāo)注、韻律標(biāo)注。被采集人為一位音色成熟穩(wěn)重的32歲女性聲優(yōu),在專業(yè)錄音棚每周錄音2-3次,總錄音周期為6個(gè)月,錄音內(nèi)容選自影視臺(tái)詞。
King-TTS-076:芬蘭語(yǔ)男聲合成庫(kù),被采集人是一位音色成熟沉穩(wěn)的35歲男性聲優(yōu),在專業(yè)錄音棚每周錄音2-3次,總錄音周期為1個(gè)月,錄音內(nèi)容覆蓋日常用語(yǔ)、金融、新聞等領(lǐng)域。標(biāo)注維度多樣,包含發(fā)音標(biāo)注、韻律標(biāo)注、詞性標(biāo)注、音素邊界標(biāo)注。
ASR
King-ASR-752:南非祖魯語(yǔ)識(shí)別語(yǔ)音庫(kù),該識(shí)別數(shù)據(jù)在安靜辦公室/家居環(huán)境中完成錄制,共有400位發(fā)音人參與,包括179位男性和221位女性,錄音文本覆蓋新聞等領(lǐng)域,總音頻時(shí)長(zhǎng)241.3小時(shí)。
King-ASR-708:斯洛伐克語(yǔ)識(shí)別語(yǔ)音庫(kù),該識(shí)別數(shù)據(jù)在安靜辦公室環(huán)境中完成錄制,共有200位發(fā)音人參與,包括90位男性和110位女性,錄音文本覆蓋新聞、日常對(duì)話等領(lǐng)域,總錄音時(shí)長(zhǎng)336.9小時(shí)。
OCR
藏/維/蒙語(yǔ)OCR數(shù)據(jù)庫(kù),每種語(yǔ)言包含1000張圖片,涵蓋日常生活各類場(chǎng)景,如自然場(chǎng)景(路牌,宣傳欄,店鋪名,菜單,海報(bào)等)、文檔翻拍(書(shū)籍,報(bào)刊,A4紙文檔);轉(zhuǎn)寫(xiě)由專業(yè)的語(yǔ)言專家全程進(jìn)行監(jiān)督,轉(zhuǎn)寫(xiě)規(guī)則適用于大多數(shù)的算法需求,具有普適性。
Lexicon
King-Lexicon-129:愛(ài)沙尼亞發(fā)音詞典,包含 67114 個(gè)常用詞和 52158 個(gè)專有名詞。
King-Lexicon-032:巴基斯坦烏爾都語(yǔ)發(fā)音詞典,包含 101211 個(gè)詞條。
......
截至目前,海天瑞聲已與全球近700家科技巨頭、科研機(jī)構(gòu)、AI新興企業(yè)建立深度合作關(guān)系,以專業(yè)、可靠、安全的數(shù)據(jù)服務(wù),成功交付了數(shù)千個(gè)定制項(xiàng)目,深得客戶信賴。此外,除了現(xiàn)有的數(shù)據(jù)集產(chǎn)品,海天瑞聲還可以針對(duì)特定語(yǔ)種、特定人群、特定場(chǎng)景等提供相應(yīng)的數(shù)據(jù)定制化服務(wù),力求滿足每一位客戶的特定需求,贏得客戶每一分信賴。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )