追一科技NL2SQL挑戰(zhàn)賽火熱進(jìn)行 千支隊(duì)伍決出30強(qiáng)

近日,由追一科技主辦的首屆中文NL2SQL挑戰(zhàn)賽初賽結(jié)束。來(lái)自海內(nèi)外的1457支隊(duì)伍,經(jīng)過(guò)1個(gè)多月的初賽角逐,決出30強(qiáng)隊(duì)伍。來(lái)自國(guó)防科技大學(xué)、北京交通大學(xué)、國(guó)雙科技、清華大學(xué)、哈爾濱工業(yè)大學(xué)等高校、企業(yè)的30支優(yōu)勝團(tuán)隊(duì),晉級(jí)下一階段復(fù)賽挑戰(zhàn)。

此次比賽,也是中文NLP領(lǐng)域首次舉辦NL2SQL主題比賽,并發(fā)布相關(guān)數(shù)據(jù)集,引起了業(yè)內(nèi)和海內(nèi)外廣泛關(guān)注。自6月24日比賽啟動(dòng)以來(lái),共有1457支隊(duì)伍、1630名選手報(bào)名參賽,參與院校數(shù)達(dá)170所,其中227支隊(duì)伍、318名選手提交成績(jī)。廣泛的參與,使得NL2SQL成為國(guó)內(nèi)NLP技術(shù)比賽領(lǐng)域參賽規(guī)模最大的賽道之一。

追一科技NL2SQL挑戰(zhàn)賽火熱進(jìn)行 千支隊(duì)伍決出30強(qiáng)

挑戰(zhàn)中文數(shù)據(jù)集

值得注意的是,本次比賽提出的NL2SQL中文數(shù)據(jù)集比英文數(shù)據(jù)集WikiSQL引入了口語(yǔ)化表達(dá)、結(jié)合表格內(nèi)容、命名實(shí)體鏈接、更復(fù)雜的SQL語(yǔ)法等挑戰(zhàn),難度更高的同時(shí)也更貼近于真實(shí)應(yīng)用場(chǎng)景,但在選手們的積極、多方探索下,短期內(nèi)就已經(jīng)可以達(dá)到與英文數(shù)據(jù)集上相當(dāng)水平的分?jǐn)?shù)。

近兩個(gè)月的初賽過(guò)程中,選手們的方案一直持續(xù)刷新著本次比賽的新記錄。

追一科技NL2SQL挑戰(zhàn)賽火熱進(jìn)行 千支隊(duì)伍決出30強(qiáng)

比賽初期,排行榜頭部選手們的分?jǐn)?shù)聚集在0.58左右,已經(jīng)超過(guò)了比賽方所提供的baseline。隨后,選手通過(guò)各種討論、交流,加深對(duì)數(shù)據(jù)集理解,不斷探索更優(yōu)的方案,從而提高成績(jī),頭部選手的分?jǐn)?shù)很快突破了0.80大關(guān)。在8月12日初賽結(jié)束時(shí),比賽榜上的頭部分?jǐn)?shù)已經(jīng)達(dá)到0.89,已經(jīng)接近WikiSQL的成績(jī)。

比賽成績(jī)的快速提升,充分體現(xiàn)出選手們的投入與方案的優(yōu)秀,同時(shí)也側(cè)面反映出,目前積累的許多技術(shù)方案都可以在NL2SQL這一個(gè)新任務(wù)上發(fā)揮作用,大家也意識(shí)到,只要有充分的數(shù)據(jù)來(lái)支撐,目前人工智能領(lǐng)域的方法論可以有效地為數(shù)據(jù)庫(kù)乃至結(jié)構(gòu)化數(shù)據(jù)提供自然語(yǔ)言的交互方式。

千支隊(duì)伍挑戰(zhàn)NL2SQL

任務(wù)上的創(chuàng)新、應(yīng)用上的潛力,NL2SQL比賽一經(jīng)推出,就受到了學(xué)界和工業(yè)界的廣泛關(guān)注。

據(jù)了解,本次1457支參賽隊(duì)伍中,院校和企業(yè)參與者各占“半壁江山”。其中,學(xué)生及科研人員占比48%,企業(yè)技術(shù)員工占比52%。學(xué)生參賽隊(duì)伍來(lái)自眾多知名院校,如北京大學(xué)、清華大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)、南京大學(xué)、浙江大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、哈爾濱工業(yè)大學(xué)、西安交通大學(xué)等。

雖然本次比賽的數(shù)據(jù)內(nèi)容是中文形式,但仍然吸引了美國(guó)、英國(guó)、新加坡、日本、澳大利亞、加拿大等海外頂級(jí)院校參與,包括卡內(nèi)基梅隆、墨爾本大學(xué)、新加坡國(guó)立大學(xué)、南安普頓大學(xué)、新南威爾士大學(xué)、布里斯托大學(xué)、昆士蘭大學(xué)等。

作為新興NLP研究任務(wù),NL2SQL在專業(yè)難度上,也對(duì)選手提出較高要求。據(jù)了解,本次參賽選手中,碩士及以上學(xué)歷占比57%,其中,博士學(xué)歷占比6%;而專業(yè)分布上,計(jì)算機(jī)科學(xué)專業(yè)背景的選手則屬于參賽主力。

應(yīng)用潛力吸引名企參賽

值得注意的是,NL2SQL挑戰(zhàn)賽,還吸引了眾多的企業(yè)技術(shù)人員參與。

來(lái)自中國(guó)移動(dòng)、平安集團(tuán)、搜狗、達(dá)闥科技、中興通訊、網(wǎng)宿科技、國(guó)雙科技、捷通華聲等眾多企業(yè)的技術(shù)人員,也成為參賽隊(duì)伍的重要力量。

“此次挑戰(zhàn)賽參與規(guī)模遠(yuǎn)超預(yù)期,顯示出NL2SQL在學(xué)術(shù)和工業(yè)應(yīng)用上的潛力,數(shù)據(jù)庫(kù)的交互創(chuàng)新,正在受到越來(lái)越多關(guān)注。”追一科技聯(lián)合創(chuàng)始人兼CTO劉云峰博士表示,追一科技將與更多院校、企業(yè)界同仁攜手,共同推動(dòng)中文NLP研究與應(yīng)用突破。

據(jù)了解,中文NL2SQL挑戰(zhàn)賽復(fù)賽將于8月19至9月9日進(jìn)行。復(fù)賽階段采用線上運(yùn)行的方式來(lái)進(jìn)行評(píng)測(cè),測(cè)試集不可下載,并且內(nèi)容對(duì)選手不可見(jiàn)。同時(shí),測(cè)試集在保證數(shù)據(jù)分布與初賽測(cè)試集一致同時(shí),加入更多在初賽中沒(méi)有出現(xiàn)過(guò)的表格數(shù)據(jù),屆時(shí),將對(duì)選手方案提出更高挑戰(zhàn)。而復(fù)賽勝出者,將會(huì)參加10月份的最終決賽。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2019-08-21
追一科技NL2SQL挑戰(zhàn)賽火熱進(jìn)行 千支隊(duì)伍決出30強(qiáng)
近日,由追一科技主辦的首屆中文NL2SQL挑戰(zhàn)賽初賽結(jié)束。來(lái)自海內(nèi)外的1457支隊(duì)伍,經(jīng)過(guò)1個(gè)多月的初賽角逐,決出30強(qiáng)隊(duì)伍。

長(zhǎng)按掃碼 閱讀全文