語言大模型(LLM)主導(dǎo)的生成式AI(GenAI)毫無疑問將是未來幾年最重要的生產(chǎn)力工具,不但突破以前AI應(yīng)用無法突破的極限,而且將重塑各行各業(yè),并深刻改變企業(yè)的各個產(chǎn)業(yè)環(huán)節(jié)。
“未來已至,只是還沒有均勻分布”。隨著數(shù)據(jù)量的爆炸性增長、高度可擴展的算力的普及、算法的突破,以及機器學(xué)習(xí)技術(shù)與工具等的不斷進(jìn)步,生成式AI登上了時代的舞臺。那么企業(yè)如何開啟GenAI的新征程呢?
7月6日,2023世界人工智能大會(WAIC)在上海隆重開幕。作為2023世界人工智能大會的戰(zhàn)略合作伙伴,第六次參加的星環(huán)科技發(fā)揮大數(shù)據(jù)基礎(chǔ)軟件方面的優(yōu)勢,在大會上展出了大模型應(yīng)用開發(fā)全周期的技術(shù)和產(chǎn)品,在算力及基礎(chǔ)軟件層,包括星環(huán)分布式向量數(shù)數(shù)據(jù)庫Hippo、分布式圖數(shù)據(jù)庫StellarDB、大數(shù)據(jù)開發(fā)工具TDS等眾多的基礎(chǔ)軟件與工具;在開發(fā)者工具層,提供了大模型統(tǒng)一運營管理平臺Sophon LLMOps等,實現(xiàn)對模型訓(xùn)練、調(diào)優(yōu);在應(yīng)用層則是面向用戶的領(lǐng)域大模型,如星環(huán)無涯Infinity和星環(huán)SoLar求索。
同時,7月7日,星環(huán)科技還將在WAIC上舉辦“大模型時代的未來數(shù)據(jù)技術(shù)”論壇,讓大數(shù)據(jù)智能化、多模態(tài)、平民化,將擁有廣闊前景的GenAI技術(shù)提交給每一個企業(yè)用戶手中,讓企業(yè)開啟大模型和生成式AI應(yīng)用的新征程!
企業(yè)自有大模型應(yīng)用構(gòu)建流程圖
金融、能源、交通等每個行業(yè)都會有自己的領(lǐng)域大模型
星環(huán)科技創(chuàng)始人、CEO孫元浩在大會上表示,未來在金融、政府、能源、交通等每一個行業(yè)與領(lǐng)域,都會誕生領(lǐng)域或者行業(yè)的大模型,這些大模型具有專家的能力,可以在上面構(gòu)造復(fù)雜的應(yīng)用。
在特定領(lǐng)域,領(lǐng)域大模型將會成為發(fā)展的主流。比如金融行業(yè),會出現(xiàn)金融量化大模型,為基金經(jīng)理投資提供決策輔助支持;在傳統(tǒng)行業(yè)比如冶金領(lǐng)域,基于大模型驅(qū)動的控制技術(shù)應(yīng)用將得到快速發(fā)展等。
在領(lǐng)域大模型落地和發(fā)展中,不僅需要長期積累高質(zhì)量的數(shù)據(jù)、經(jīng)驗、流程和知識,利用行業(yè)積累對領(lǐng)域模型調(diào)優(yōu),利用業(yè)務(wù)反饋持續(xù)提升大模型,而且需要擁有基礎(chǔ)領(lǐng)域模型、基礎(chǔ)開發(fā)軟件、基礎(chǔ)工具軟件,以保證行業(yè)領(lǐng)域大模型的持續(xù)提升。
由于大模型反饋的結(jié)果是基于對訓(xùn)練語料的學(xué)習(xí)而產(chǎn)生的答案,因此行業(yè)大模型在具體的落地過程中,需要學(xué)習(xí)大量行業(yè)的專精語料和經(jīng)驗知識,才能確保返回結(jié)果的精準(zhǔn)性和專業(yè)度。
在大模型應(yīng)用的實際業(yè)務(wù)工作中,往往會因為新發(fā)布的政策法規(guī)、新發(fā)生的行業(yè)重大事件,以及最新的生產(chǎn)經(jīng)營情況變化等,需要做出快速響應(yīng)。相應(yīng)地,基于歷史語料和經(jīng)驗知識訓(xùn)練的領(lǐng)域大模型要想對瞬息萬變的經(jīng)營環(huán)境做出及時的策略調(diào)整和反饋,就需要不斷通過新增訓(xùn)練語料和實時信息來進(jìn)行反饋結(jié)果的調(diào)優(yōu)。
大模型提出了一種新的人機交互范式,但“一招鮮吃遍天”的大一統(tǒng)解決方案較難實現(xiàn),圍繞大模型在完成對已有業(yè)務(wù)的增值和創(chuàng)新中,需要使用向量數(shù)據(jù)庫、圖數(shù)據(jù)庫、知識圖譜、大模型編排和構(gòu)建工具等,彌補大模型本身的實時性、幻覺缺陷或者長輸入難題,組合、串聯(lián)、增強各業(yè)務(wù)零散方案,統(tǒng)一到大模型的交互范式中去。
孫元浩認(rèn)為,在現(xiàn)有數(shù)字化和智能化轉(zhuǎn)型中,我國應(yīng)該構(gòu)建供應(yīng)鏈安全的、自主可控的、豐富的、可信的大模型生態(tài),并直接對業(yè)務(wù)的增強、融合、創(chuàng)新做出價值貢獻(xiàn)。
星環(huán)科技作為一家大數(shù)據(jù)基礎(chǔ)軟件供應(yīng)商,依然會專注在基礎(chǔ)軟件領(lǐng)域,將致力于做好兩點:一是為行業(yè)提供一系列基礎(chǔ)軟件和工具,結(jié)合客戶資深的行業(yè)知識、行業(yè)積累,讓客戶、合作伙伴能夠打造出自己的行業(yè)領(lǐng)域大模型,并在大模型上開發(fā)出AI應(yīng)用;二是在擅長的領(lǐng)域研發(fā)領(lǐng)域基礎(chǔ)大模型,使得大數(shù)據(jù)取數(shù)分析等這一專業(yè)過程變得更加平民化。
星環(huán)無涯Infinity和星環(huán)SoLar求索兩大領(lǐng)域大模型亮相
目前通用大模型商業(yè)化落地面臨不少問題,如大模型雖然在理解人類自然語言、歸納生成文本、圖像生成上等有驚人的表現(xiàn),但是它依然無法理解行業(yè)術(shù)語,也不能夠執(zhí)行行業(yè)的特定任務(wù),還不能像專家一樣,針對行業(yè)做分析、推理和決策。
另一方面,企業(yè)要構(gòu)建行業(yè)大模型,需要投資算力、基礎(chǔ)大模型、LLMOps工具鏈、語料庫、訓(xùn)練指令集,還需進(jìn)行上層應(yīng)用的開發(fā)。同時,大模型訓(xùn)練的成本很高,導(dǎo)致其生成的內(nèi)容中數(shù)據(jù)沒能及時更新,同時大模型還會存在幻覺問題,需要知識庫校正結(jié)果。在具體場景中的商業(yè)化落地,通用大模型還不能滿足準(zhǔn)確、可信、安全、可溯等高需求,還會存在數(shù)據(jù)安全、倫理等問題。
在今年的WAIC上,星環(huán)科技的兩大領(lǐng)域大模型——金融領(lǐng)域大模型“無涯”(Infinity)和大數(shù)據(jù)分析大模型“求索”(SoLar)成功化解以上挑戰(zhàn),開始投入應(yīng)用,受到用戶的歡迎。
其中,星環(huán)無涯Transwarp Infinity支持股票、債券、基金、商品等市場事件的全面復(fù)盤、總結(jié)及演繹推理,以及政策研報的深度分析,為基金經(jīng)理提供決策輔助。
具體而言,星環(huán)無涯Transwarp Infinity金融大模型是業(yè)界首款面向金融智能量化投研的領(lǐng)域大模型,將在金融投研、量化投資和智能推理領(lǐng)域大顯身手,有力輔助分析師、研究員和投資經(jīng)理的日常工作,幫助企業(yè)更好地應(yīng)對復(fù)雜的市場環(huán)境和業(yè)務(wù)需求,持續(xù)促進(jìn)整體行業(yè)的降本增效與科技創(chuàng)新。
星環(huán)無涯融合了輿情、資金、人物、空間、上下游等多模態(tài)信息,具備強大的理解和生成能力,支持股票、債券、基金、商品等市場事件的全面復(fù)盤、總結(jié)及演繹推理,以及政策研報的深度分析。基于事件驅(qū)動與深度圖引擎,星環(huán)無涯支持事件語義刻畫、定價因子挖掘、時序編碼、異構(gòu)關(guān)系圖卷積傳播,進(jìn)而構(gòu)建包含事件沖擊、時序變化、截面聯(lián)動和決策博弈等多個維度的量化投研新范式。
從應(yīng)用上看,無涯Infinity金融大模型擁有海量金融專業(yè)語料和輿情工商產(chǎn)業(yè)鏈大宗衛(wèi)星等多源數(shù)據(jù),可溯因的標(biāo)準(zhǔn)化因子和歸因解釋體系,高精準(zhǔn)、強邏輯的事理分析與推斷力,專注于金融領(lǐng)域的大語言模型架構(gòu),背靠大數(shù)據(jù)全生命周期技術(shù)棧等優(yōu)勢。
而Transwarp SoLar具備大數(shù)據(jù)行業(yè)需求理解、推理、各類(含多模型)結(jié)構(gòu)化查詢語言和OpenCypher代碼生成、文本生成、嵌入向量生成、知識推理等能力。
借助這一領(lǐng)域大模型,企業(yè)的業(yè)務(wù)人員、數(shù)據(jù)分析人員以及業(yè)務(wù)管理者只需使用自然語言,就能利用Transwarp SoLar大模型獲取所需的數(shù)據(jù)分析、展示和報告,輕松地應(yīng)對各種復(fù)雜的數(shù)據(jù)分析挑戰(zhàn),并快速獲得有價值的數(shù)據(jù)洞察,為企業(yè)的業(yè)務(wù)增長提供原動力。
星環(huán)求索大模型基于通用大語言模型,通過對大數(shù)據(jù)分析領(lǐng)域語料的重新訓(xùn)練微調(diào)而產(chǎn)生,相較于通用大語言模型,可以更好地理解大數(shù)據(jù)分析領(lǐng)域的專業(yè)術(shù)語、縮寫、常見詞匯和語法,更適合用于大數(shù)據(jù)分析領(lǐng)域的自然語言處理任務(wù)。星環(huán)求索讓非專業(yè)用戶在無需掌握數(shù)據(jù)庫編程語言的前提下,能夠通過自然語言進(jìn)行自由的數(shù)據(jù)查詢、分析和展示。
星環(huán)求索大數(shù)據(jù)分析大模型擁有眾多優(yōu)勢,包括行業(yè)基因,在大數(shù)據(jù)分析領(lǐng)域擁有超過10年的積累,深刻了解該行業(yè)的需求和挑戰(zhàn);性能優(yōu)異,基于Sophon LLMOps大模型開發(fā)工具進(jìn)行大模型的微調(diào),性能表現(xiàn)遠(yuǎn)勝開源模型;迭代提升,自主研發(fā)了SQL眾包工具,持續(xù)根據(jù)數(shù)據(jù)驅(qū)動來提升模型性能;支持多模,產(chǎn)品支持TDH多模型查詢語法,可以查詢一切可查詢的數(shù)據(jù)等。
大模型基礎(chǔ)開發(fā)軟件與工具讓企業(yè)便捷構(gòu)建領(lǐng)域大模型
在WAIC上星環(huán)科技另一個吸睛的地方就是為領(lǐng)域大模型發(fā)展提供的一系列基礎(chǔ)軟件和工具,不僅包括模型持續(xù)提升和持續(xù)開發(fā)工具Sophon LLMOps,可以對大模型進(jìn)行微調(diào),也包括向量數(shù)據(jù)庫、圖數(shù)據(jù)庫、知識圖譜等軟件,讓客戶、合作伙伴能夠打造出自己的行業(yè)領(lǐng)域大模型,并在大模型上開發(fā)出AI應(yīng)用。
作為星環(huán)科技自主研發(fā)的一款綜合性大模型統(tǒng)一運營管理平臺,Sophon LLMOps為用戶打通從數(shù)據(jù)接入和開發(fā)、提示工程、大模型微調(diào)、大模型上架部署到大模型應(yīng)用編排和業(yè)務(wù)效果對齊的全鏈路流程,從而實現(xiàn)針對大模型的數(shù)據(jù)和分析的持續(xù)提升。
針對智能問答系統(tǒng)在各個業(yè)務(wù)環(huán)節(jié)中的應(yīng)用需求,Sophon LLMOps提供了領(lǐng)域智能問答解決方案。借助星環(huán) Sophon LLMOps ,用戶可以輕松完成數(shù)據(jù)采集、知識沉淀、大模型迭代提升的完整閉環(huán)。通過跨領(lǐng)域知識的學(xué)習(xí)和調(diào)優(yōu),大語言模型能更好地理解不同領(lǐng)域的專業(yè)術(shù)語、縮寫、常見詞匯和語法,承擔(dān)統(tǒng)一的語義理解功能,解決業(yè)務(wù)領(lǐng)域性問題。
作為一款企業(yè)級云原生分布式向量數(shù)據(jù)庫,星環(huán)分布式向量數(shù)據(jù)庫Hippo支持存儲、索引以及管理海量的向量式數(shù)據(jù)集,提供向量相似度檢索、高密度向量聚類等能力,有效地解決了大模型在知識時效性低、輸入能力有限、準(zhǔn)確度低等問題,讓大模型更高效率地存儲和讀取知識庫,降低訓(xùn)練和推理成本,激發(fā)更多的AI應(yīng)用場景。
在賦予大模型擁有“長期記憶”的同時,Hippo還可以協(xié)助企業(yè)解決目前最擔(dān)憂的大模型數(shù)據(jù)隱私泄露問題。通過建立垂直領(lǐng)域的知識庫,對大模型輸出結(jié)果進(jìn)行校正,可以提高結(jié)果的精準(zhǔn)度,在一定程度上解決“AI幻覺”問題。此外,通過星環(huán)Hippo對向量數(shù)據(jù)進(jìn)行存儲,有效解除大模型對輸入的限制,并且大模型在安全機制下訪問向量數(shù)據(jù)庫中的隱私數(shù)據(jù),可以充分保證數(shù)據(jù)安全,杜絕隱私泄露風(fēng)險。
星環(huán)分布式圖數(shù)據(jù)庫StellarDB和知識圖譜平臺Sophon KG聯(lián)合,與大模型可視化端到端構(gòu)建工具一起,提供了知識抽取融合、知識建模、知識圖譜生成存儲、基于大模型的知識問答等閉環(huán)功能??蛻粢灾R圖譜作為大語言模型提示即可發(fā)起模型微調(diào),以較低代價就可獲得行業(yè)的專屬大語言模型問答應(yīng)用。
將向量數(shù)據(jù)庫Hippo、圖數(shù)據(jù)庫StellarDB等與大語言模型結(jié)合,可以更低成本、更高效地構(gòu)建特定領(lǐng)域的大模型應(yīng)用,可以解決大模型目前存在的三大問題:一是能夠把實時的知識、變化的信息放到大模型中;二是能夠校正結(jié)果的準(zhǔn)確性,極大地提升精準(zhǔn)度;三是構(gòu)建相應(yīng)的知識圖譜,增強大模型的能力。
另外,針對目前各行業(yè)用戶在落地廣泛業(yè)務(wù)需求分析、處理多重數(shù)據(jù)模態(tài)對接、跟進(jìn)高度定制場景問題解決、運營多源多框架AI模型等方面的問題,星環(huán)科技自主研發(fā)的一站式智能分析工具平臺Sophon提供“六易三倉兩中心”的功能服務(wù),能夠保障企業(yè)數(shù)據(jù)到智能應(yīng)用的落地,實現(xiàn)AI能力平民化、AI價值最大化。
例如某制造業(yè)客戶通過Sophon的AI技術(shù)以及視頻、圖像、時序等多模態(tài)數(shù)據(jù)的聯(lián)合分析技術(shù),對其生產(chǎn)的鋼管材進(jìn)行缺陷檢測識別,支持夾渣、未焊透、未熔合、氣孔、裂紋5類基本缺陷類型的識別,并支持新增和識別隨著日常的生產(chǎn)不斷涌現(xiàn)的新缺陷。
某德國汽車品牌基于Sophon的多模態(tài)數(shù)據(jù)分析能力,盤活了監(jiān)管機構(gòu)、來源網(wǎng)站、法規(guī)條款(PDF等)等多模態(tài)的存量數(shù)據(jù),并且通過文本分析、詞法分析、糾錯和統(tǒng)一轉(zhuǎn)換等文本理解和意圖識別模型,實現(xiàn)了數(shù)據(jù)知識沉淀,以及行業(yè)法規(guī)條款的自動語義檢索和問答,幫助內(nèi)部員工快速觸達(dá)監(jiān)管條款細(xì)節(jié),提升效率。
利用星環(huán)科技的基礎(chǔ)開發(fā)軟件與工具,企業(yè)都可以便捷構(gòu)建領(lǐng)域大模型,讓生成式AI應(yīng)用服務(wù)企業(yè)業(yè)務(wù)創(chuàng)新。
7月7日-8日,2023WAIC-星環(huán)科技精彩繼續(xù)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )