雙向賦能:AI與數據庫的修行之道

在這個(gè)數據為王的時(shí)代,數據是人工智能的三大支柱之一,其重要性不言而喻。最近,OpenAI收購了數據庫初創(chuàng )公司Rockset,迅速引起了業(yè)內外的廣泛關(guān)注。OpenAI早已在算法和計算能力方面遙遙領(lǐng)先,通過(guò)這次戰略性的收購,OpenAI將在其產(chǎn)品中融合Rockset的先進(jìn)數據索引和查詢(xún)技術(shù),幫助OpenAI將數據轉化為“可操作智能”。

現代數據庫與人工智能(AI)的融合,正如同一場(chǎng)席卷全球的技術(shù)革命,深刻地重塑著(zhù)技術(shù)與產(chǎn)業(yè)的格局。

一方面,數據庫技術(shù)的技術(shù)迭代需要更好地支持人工智能應用工作負責,比如向量數據庫,也就是DB for AI;另一方面人工智能技術(shù)也更好地讓數據庫運維更方便,實(shí)現自動(dòng)化和智能化,也就是AI for DB。

在這一個(gè)變革過(guò)程中,數據庫產(chǎn)業(yè)正面臨諸多挑戰,比如海量數據高性能和大并發(fā)、大量數據庫實(shí)例智能優(yōu)化、保障數據安全防篡改的防護等。面對這種情況,企業(yè)如何通過(guò)技術(shù)創(chuàng )新和生態(tài)協(xié)同應對挑戰并抓住其中的機遇呢?

作為數據庫領(lǐng)域的領(lǐng)頭羊,東方國信、PingCAP、云和恩墨通過(guò)自身的技術(shù)與產(chǎn)品實(shí)踐給出了他們的答案,同時(shí)他們與英特爾的協(xié)同創(chuàng )新,也讓我們看到了數據庫生態(tài)的蓬勃生機。

新需求催生新挑戰

在A(yíng)I大模型時(shí)代,由于數據庫的使用人數和數據量的爆炸性增長(cháng),數據庫系統的并發(fā)度會(huì )極大提升。云和恩墨聯(lián)合創(chuàng )始人兼CTO楊廷琨強調,數據量爆發(fā)性增長(cháng)帶來(lái)壓力的同時(shí),硬件技術(shù)的快速發(fā)展也促進(jìn)了算力提升,為提升處理能力和性能提供了可能性。這時(shí)候,數據庫廠(chǎng)商需從兩方面著(zhù)手應對:一方面增強單機性能,另一方面通過(guò)架構設計實(shí)現平滑擴展,以滿(mǎn)足海量數據的處理需求。

同時(shí),數據量的爆炸性增長(cháng)也會(huì )帶來(lái)極大的數據冗余。在此挑戰下,用戶(hù)從需求側又提出了很多新的要求,東方國信副總裁兼CTO查禮表示:用戶(hù)往往會(huì )希望數倉既能做數據加工,又能做分析和查詢(xún),這要求數據庫系統具有高度靈活性和多功能性。

數據來(lái)源多樣化和用戶(hù)需求復雜化催生了對硬件越來(lái)越高的需求,數據庫要保持高性能、高穩定性,開(kāi)發(fā)和運維人員又需要簡(jiǎn)化數據庫的使用,這構成了一種“悖論”。

為解決數據庫行業(yè)“既要、又要”的問(wèn)題,越來(lái)越多的數據技術(shù)公司讓AI“入局”,讓數據庫越跑越“聰明”。PingCAP服務(wù)總經(jīng)理林景旭表示,他們正探索利用AI技術(shù)增強數據庫功能,同時(shí)簡(jiǎn)化用戶(hù)操作。作為一家分布式數據庫廠(chǎng)商,PingCAP提供的開(kāi)源分布式數據產(chǎn)品與解決方案,通過(guò)分布式數據庫架構,實(shí)現計算和存儲分離,以動(dòng)態(tài)擴展滿(mǎn)足不同用戶(hù)需求,這其中便可以通過(guò)AI算法來(lái)優(yōu)化資源使用和性能評判。

數據庫產(chǎn)業(yè)需要不斷創(chuàng )新,開(kāi)發(fā)更加高效、可靠、智能的數據庫技術(shù),才能滿(mǎn)足新需求的挑戰。同時(shí),數據庫產(chǎn)業(yè)鏈也需要緊密合作,共同推動(dòng)數據庫技術(shù)的發(fā)展,為數字經(jīng)濟的發(fā)展提供更加堅實(shí)的基礎。

生態(tài)協(xié)同推動(dòng)產(chǎn)業(yè)變革

數據庫產(chǎn)業(yè)面臨的挑戰是多方面的,這些挑戰并非單個(gè)企業(yè)能夠獨自解決,需要整個(gè)產(chǎn)業(yè)的協(xié)同合作,才能共同應對挑戰,并抓住其中的機遇。

憑借先進(jìn)的處理器技術(shù)、開(kāi)源合作策略以及對客戶(hù)需求的深刻理解,英特爾與數據庫領(lǐng)域的合作伙伴一起構建了一個(gè)開(kāi)源開(kāi)放、合作共贏(yíng)的生態(tài)環(huán)境,助力數據庫技術(shù)的持續創(chuàng )新和應用落地。

英特爾中國云創(chuàng )中心技術(shù)總經(jīng)理張曉軍介紹說(shuō),第四代和第五代英特爾®? 至強® 可擴展處理器內置了多項面向數據庫優(yōu)化的技術(shù),例如英特爾® QAT(英特爾® 數據保護與壓縮技術(shù))用于數據壓縮解壓縮,以及英特爾® IAA(英特爾® 存內分析加速器)加速數據分析。在數據安全方面,英特爾也能通過(guò)英特爾® TDX(英特爾® 信任域擴展)和SGX(英特爾® 軟件防護擴展)為使用中的數據提供端到端硬件級防護能力。

此外英特爾至強6處理器已于近期發(fā)布,提供了兩種不同的 CPU 微架構版本,分別為性能核 (P-core) 和能效核(E-core),讓多種工作負載的性能和能效表現再創(chuàng )新高。其全新功能和內置加速器為目標工作負載帶來(lái)進(jìn)一步助力,實(shí)現了更高的性能和能效。

基于英特爾® 架構的加速器與軟件工具

眾多的合作伙伴正在借助至強處理器和加速器及軟件工具增強自身的產(chǎn)品競爭力。

比如PingCAP推出的TiDB開(kāi)源分布式數據庫就得益于第四代英特爾® 至強® 可擴展處理器卓越的代際性能,其數據庫的只讀性能與讀寫(xiě)性能分別達到基準配置的1.62倍與1.43倍。

此外TiDB利用至強®? 可擴展處理器搭載的英特爾®? IAA提供的出色吞吐量壓縮和解壓縮功能,在不影響性能的前提下,提升了數據壓縮率,節約了存儲空間。PingCAP采用英特爾®? IAA代替LZ4之后,TiDB壓縮率為L(cháng)Z4無(wú)損壓縮算法的1.4倍。

并結合CPU的迭代,性能提升可達到原配置的1.56倍 ,有助于客戶(hù)化解數據壓縮所帶來(lái)的性能困擾。

雖然硬件性能的提升為數據庫處理海量數據提供了基礎,但要真正發(fā)揮這些算力,需要對數據庫內核進(jìn)行深度優(yōu)化。云和恩墨通過(guò)改進(jìn)數據庫內核,使之更好地適應現代硬件,如多核CPU、大內存和高速I(mǎi)O子系統,從而實(shí)現單機性能的顯著(zhù)提升。

根據其透露的測試結果,在一顆至強®? 雙路服務(wù)器架構上,以50G內存配置,再加上一個(gè)NVMe的SSD閃存,云和恩墨達到了700萬(wàn)TPCC的指標,可以說(shuō)是極大提高了單機能力。

東方國信適用于超大規模數據存儲和在線(xiàn)分析的大數據 BEH平臺企業(yè)版通過(guò)集成Gluten與Velox Backend向量化執行引擎,為Spark注入了原生矢量化執行的能力,同時(shí)結合第四代英特爾® 至強® 可擴展處理器,以及處理器集成的英特爾® QAT加速器,顯著(zhù)優(yōu)化了Spark批處理計算、SparkSQL計算、SQL查詢(xún)服務(wù)的執行效率。經(jīng)測試,在相同硬件環(huán)境下,配合英特爾® QAT的加成,Spark計算性能可提升高達 2.9倍。

除了硬件之外,英特爾還強化了在軟件及數據庫生態(tài)方面的投入。張曉軍還強調了英特爾在開(kāi)源領(lǐng)域的貢獻,如Apache社區的Gluten項目,已經(jīng)在很多客戶(hù)系統里得到了廣泛應用,相比傳統的Spark,性能可以提高2-3倍,如果其運行在英特爾的硬件上預計取得更優(yōu)性能,顯著(zhù)提升大數據處理效率。·

數據庫與AI深度融合

隨著(zhù)大數據時(shí)代的到來(lái),數據量及系統數量都呈指數級增長(cháng),數據類(lèi)型也由結構化數據逐漸演變成了非結構化數據和半結構化數據,這就對數據庫系統的穩定性和能力提出了更高的要求,數據庫技術(shù)和人工智能技術(shù)相結合成為當前熱門(mén)的研究主題之一。

在A(yíng)I時(shí)代,數據已成為驅動(dòng)企業(yè)發(fā)展的核心要素,而數據庫作為存儲、管理和分析數據的重要基礎設施,與AI技術(shù)的深度融合將是大勢所趨。這種融合不僅能夠提升數據庫的性能和智能化水平,還能夠推動(dòng)AI技術(shù)的應用落地。

數據庫廠(chǎng)商在不同維度上探索和應用AI,東方國信正在利用AI技術(shù),尤其是在智能取數方面,通過(guò)自然語(yǔ)言處理生成SQL語(yǔ)句,提高數據提取的靈活性和效率。同時(shí),他們也在探索智能建倉,嘗試通過(guò)AI技術(shù)自動(dòng)化數據倉庫的構建和維護流程,旨在實(shí)現數據倉庫的自動(dòng)化和智能化。

查禮表示,公司正積極研發(fā)解決方案,旨在通過(guò)AI輔助減少人工介入,提高效率,預計通過(guò)AI技術(shù)的引入,數倉維護成本能降低60%。

PingCAP利用AI算法進(jìn)行資源管理,讓數據庫更適應復雜多變的業(yè)務(wù)場(chǎng)景。林景旭強調,通過(guò)集成AI技術(shù),比如利用AI優(yōu)化數據庫內部管理,提升數據庫本身的智能水平,使其在滿(mǎn)足復雜業(yè)務(wù)場(chǎng)景的同時(shí),降低使用門(mén)檻。這意味著(zhù)數據庫不僅要有強大的數據處理能力,還需具備自我管理和優(yōu)化的能力,確保在面對日益復雜的業(yè)務(wù)需求時(shí),能更加自主、高效地運行。

云和恩墨則推動(dòng)自身“AI for DB”和“DB for AI”的雙向促進(jìn),楊廷琨指出,云和恩墨利用AI提升數據庫性能,尤其是在數據庫智能資源管理、智能監控、智能根因追蹤、智能參數調優(yōu)、SQL智能優(yōu)化以及自動(dòng)駕駛等方面的應用潛能。

結語(yǔ)

現代數據庫與人工智能的結合不僅對處理能力、架構靈活性和用戶(hù)體驗提出了更高要求,也為數據庫產(chǎn)業(yè)帶來(lái)了前所未有的發(fā)展機遇。

隨著(zhù)技術(shù)的不斷進(jìn)步和生態(tài)合作的深化,未來(lái)數據庫將更加智能、靈活和強大,為數字經(jīng)濟的發(fā)展提供堅實(shí)的基礎。英特爾與數據庫領(lǐng)域的合作伙伴將一起共同推動(dòng)數據庫產(chǎn)業(yè)向智能化、高效化轉型,滿(mǎn)足客戶(hù)的業(yè)務(wù)創(chuàng )新需求。

(免責聲明:本網(wǎng)站內容主要來(lái)自原創(chuàng )、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個(gè)人認為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實(shí)內容時(shí),應及時(shí)向本網(wǎng)站提出書(shū)面權利通知或不實(shí)情況說(shuō)明,并提供身份證明、權屬證明及詳細侵權或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì )依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內容或斷開(kāi)相關(guān)鏈接。 )