科大訊飛AIGC整體布局曝光,原來是這樣!

經(jīng)過了2022年AIGC元年的“C位出道”,如今AIGC已經(jīng)穩(wěn)步進入發(fā)展快車道,無論是底層技術還是具體落地應用都更加牢固和豐富,也一次又一次讓人類發(fā)出贊嘆,2023年被稱為AIGC大年,有數(shù)據(jù)顯示,今年我國AIGC市場規(guī)??蛇_170億元,到2030年中國AIGC市場規(guī)模將達到1.15萬億元,面對如此前景和實際應用意義,眾多公司紛紛入局,其中便有我國頭部科技公司——科大訊飛。

在3月29日由量子位主辦的中國AIGC產(chǎn)業(yè)峰會上,科大訊飛AI研究院常務副院長高建清對訊飛在AIGC領域的整體布局進行了分享。從文本創(chuàng)作到音頻創(chuàng)作再到視覺創(chuàng)作,科大訊飛均有涉及,同時創(chuàng)新產(chǎn)出AIGC相關應用和產(chǎn)品。

以往我們在看電子書時,可能會打開系統(tǒng)自帶的朗讀功能,但總是會被比siri還要“冰冷無情”的機器聲音所勸退。在音頻創(chuàng)作領域,通過研發(fā)虛擬聲音自動創(chuàng)造系統(tǒng),訊飛已經(jīng)實現(xiàn)了語義可控的聲音創(chuàng)造,用戶輸入一個人設,系統(tǒng)便可以生成該人設聲音,除此之外,多風格多情感語音合成系統(tǒng)SMART-TTS是科大訊飛的一大殺手锏,11種情感、20檔強弱度不同的調節(jié)功能,讓合成語音更加真實,停頓、重音、語速等能關鍵聲音元素也能夠進行隨心調節(jié)。

《紅樓夢》中,未見其人、先聞其聲的王熙鳳一出場便讓人知道她是一個風風火火的人,聲音是人設的特點之一,而后面人物的視覺面貌也讓人設更加具體。在視覺創(chuàng)作方面,科大訊飛也同樣帶來了驚喜。從2018年首發(fā)多語種虛擬人口唇驅動,到2021年首發(fā)2D真人捏臉系統(tǒng),目前科大訊飛已形成了從3D虛擬形象口唇表情和動作的AI驅動到AI貫穿3D形象構建的全流程,“徒手捏人”不再是女媧的專屬技能,同時訊飛通過對語音節(jié)奏、韻律體會和語義理解,讓虛擬人可以隨時、流暢地切換動作,擁有更加自然的肢體語言,訊飛研究院還打造了個性化3D虛擬人復刻系統(tǒng),一張人像、一句話便能快速生成個性化3D虛擬形象。

目前科大訊飛在AIGC領域打造了AIGC內容創(chuàng)作基地,包括訊飛智作和訊飛音樂“詞曲家”平臺等創(chuàng)新產(chǎn)品,訊飛智作可以為用戶提供快捷的音視頻制作,基于訊飛在虛擬人的技術基礎,2D/3D形象可代替真人主播,從文本到視頻可以一鍵轉換。訊飛智作的內容生產(chǎn)已經(jīng)廣泛應用于媒體、金融、智慧文旅、企業(yè)數(shù)字化、智慧政務、IP運營多個領域。詞曲家平臺則提供了輔助作詞、輔助作曲和歌曲試音、質量分析等AI輔助工具,為廣大詞曲作者和采買方提供一個更加智能、透明和安全的詞曲創(chuàng)作交易平臺。

高建清在中國AIGC產(chǎn)業(yè)峰會上表示,“底座+能力+應用”是科大訊飛AIGC整體布局的三層架構:以文本預訓練、多模態(tài)預訓練、多元異構基礎資源構建、異構集群構建及大模型訓練套件為技術底座,形成了音頻創(chuàng)作、視覺創(chuàng)作、文本創(chuàng)作三大AIGC能力,進而衍生出在教育、醫(yī)療、人機交互等領域的豐富應用。

從技術到應用,AIGC不是束之高閣的概念,也不是曇花一現(xiàn)的空談,其底層技術和產(chǎn)業(yè)形態(tài)已經(jīng)形成了新的格局,而科大訊飛對AIGC應用落地的推動讓更多人切實感受到了時代發(fā)展的最新力量。

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )