學而思聯(lián)合谷歌等發(fā)起,全球大模型數(shù)學解題競賽成功落幕

2024年2月26日~27日,由智慧教育國家新一代人工智能開放創(chuàng)新平臺、好未來(學而思)、谷歌、普林斯頓大學、暨南大學等全球領(lǐng)先科技公司、科研機構(gòu)發(fā)起的2024AAAI大會智慧教育研討會在加拿大溫哥華召開。本次研討會為期兩天,以搭建創(chuàng)新與責任橋梁為主題,旨在探討人工智能尤其是生成式人工智能在教育應(yīng)用中的創(chuàng)新與責任倫理。

圖片1.jpg

會議期間,AAAI2024 全球大模型數(shù)學解題競賽正式發(fā)布比賽結(jié)果。這是全球首個圍繞大模型數(shù)學能力的比賽,吸引了來自全球多個國家、地區(qū)的120多支隊伍參加。歷經(jīng)4個多月的激烈競爭,CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、數(shù)學解題推理等8支隊伍最終勝出,贏得比賽。

聚焦生成式人工智能,深度探討創(chuàng)新與責任

過去一年中,最熱門的話題莫過于以大語言模型為代表的生成式人工智能。隨著全球大模型熱的流行,有關(guān)其創(chuàng)新應(yīng)用與責任倫理等問題成為了關(guān)注的重點。為此,來自智慧教育國家新一代人工智能開放創(chuàng)新平臺、好未來、谷歌、普林斯頓大學、暨南大學等全球領(lǐng)先科技公司和科研機構(gòu)的專家學者、技術(shù)研究人員在AAAI2024期間發(fā)起“人工智能為教育”研討會。

圖片2.jpg

在為期兩天的會議中,與會者帶著各自的思考,通過論文、現(xiàn)場演講、海報、全球數(shù)學推理競賽等形式展示并聽取來自不同群體的專家學者、技術(shù)研究人員的見解,深度探討生成式人工智能的對教育的影響,未來與挑戰(zhàn)。

針對大模型技術(shù)在教育領(lǐng)域的影響,有專家表示,教育者應(yīng)該積極擁抱大模型而非抵制他們,禁止學生在完成作業(yè)時使用大模型就像20年前禁止互聯(lián)網(wǎng)的應(yīng)用一樣徒勞。教育者應(yīng)該重新設(shè)計作業(yè),而非把精力花在發(fā)現(xiàn)作弊人員身上。更有專家表示,大模型的出現(xiàn)讓人們看到了教育的未來——每個學生都有一個與之相匹配的家教,他們更懂得孩子的需求,也知道如何讓孩子更為投入。針對大模型在教育中的幻覺、評估等難題,有專家表示,他們提出了一種自動的、基于迭代精化的測試用例生成方法,即使用LLM和symphony中的代碼編譯器,并在Code Workout數(shù)據(jù)集上對此方法進行測試,結(jié)果顯示該方法可以生成準確度量學生知識水平的測試用例。

與之同時,與會人員還深度分享并討論了教育場景中,負責任的人工智能應(yīng)該具備哪些標準,應(yīng)該設(shè)置哪些倫理要求。包括,在重要的教育決策場景如招生、預(yù)警系統(tǒng)、評分中,負責任的人工智能需要盡可能保證公平性、問責性、可解釋性和透明性;負責任的人工智能在教育中的方法論貢獻和影響,包括但不限于生成模型、預(yù)測模型、因果推斷、強化學習和數(shù)據(jù)收集等。此外,有參會人員提出,隨著AI尤其是生成式AI在教育中的影響越來越大,需要通過法規(guī)、流程等確保教育公平。

全球大模型數(shù)學解題競賽落下帷幕,120支隊伍同場競技

為了提高大語言模型的數(shù)學和科學推理能力,中國領(lǐng)軍科技公司好未來(學而思)、聯(lián)合谷歌、暨南大學等多家知名科技企業(yè)及高校的專家學者,依托智慧教育國家新一代人工智能開放創(chuàng)新平臺,于2023年10月啟動AAAI2024 全球大模型數(shù)學解題競賽。

圖片3.jpg

會議期間,主辦方還正式對外發(fā)布AAAI2024 全球大模型數(shù)學解題競賽正式發(fā)布比賽結(jié)果。這是全球首個圍繞大模型數(shù)學能力的比賽,要求參賽者用大模型對給定的數(shù)學題目,生成推理步驟與答案,吸引了來自全球多個國家、地區(qū)的120多支隊伍參加。歷經(jīng)4個多月的激烈競爭,CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、數(shù)學解題推理等8支隊伍最終勝出,贏得比賽。

比賽分為兩個階段,第一階段為公榜階段,主辦方事先隨機在給定的數(shù)據(jù)集中選出30%的數(shù)據(jù),供參賽者進行大模型調(diào)試。第二階段則為私榜階段,參賽者需使用第一階段調(diào)優(yōu)過的大模型來解答數(shù)據(jù)集中剩余的70%題目。主辦方通過對比參賽者的模型輸出答案與正確答案之間的準確率,來為參賽者進行排名。第二階段的成績將會作為比賽的最終成績。

為了更好地探究各類大模型在不同語言上的數(shù)學能力,主辦方將比賽設(shè)置中英文兩個賽道。由好未來(學而思)提供比賽所用的中英文數(shù)據(jù)集——TAL-SAQ7K-CN、TAL-SAQ6K-EN,囊括了國內(nèi)外多個中小學數(shù)學競賽真題??紤]到可能會使用第三方大模型進行推理,會在一定程度上對比賽成績產(chǎn)生影響。為了確保公平,主辦方將不同賽道的結(jié)果按照是否調(diào)用第三方大模型進行分類,并根據(jù)最終的分數(shù)評選出各個不同類別的前三名。最終,在120多支參賽隊伍中,CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、數(shù)學解題推理8支隊伍最終勝出。其中CPDP-ICST、cogbase、MathEducators三支隊伍同時是中文、英文賽道前三。

圖片4.jpg

(中文賽道調(diào)用第三方大模型比賽結(jié)果)

圖片5.jpg

(中文賽道未調(diào)用第三方大模型比賽結(jié)果)

圖片6.jpg

(英文賽道調(diào)用第三方大模型比賽結(jié)果)

圖片7.jpg

(英文賽道未調(diào)用第三方大模型比賽結(jié)果)

一直以來,數(shù)學都被視為人工智能的試金石。目前,大語言模型在應(yīng)對數(shù)學推理方面問題時仍然有很多挑戰(zhàn)。智慧教育國家新一代人工智能開放創(chuàng)新平臺相關(guān)負責人表示,教育作為大模型最先落地應(yīng)用場景之一,當大模型數(shù)學能力得到突破時,將能夠帶來長久性甚至革命性的變革,能夠讓更多的人享有更多優(yōu)質(zhì)教育資源,真正實現(xiàn)大規(guī)模個性化教育。此次支持發(fā)起全球大模型數(shù)學解題能力競賽,希望能夠借助平臺的力量,積極推動科技創(chuàng)新,讓更多的人可以享受到科技進步的紅利。

智慧教育國家新一代人工智能開放創(chuàng)新平臺于2019年經(jīng)國家科技部批準設(shè)立,由北京世紀好未來教育科技有限公司負責承建。平臺立足教育行業(yè),覆蓋全國,從技術(shù)、解決方案和產(chǎn)業(yè)化服務(wù)三個方面,為教育教學單位、教育科技企業(yè)、教育從業(yè)者、人工智能研發(fā)人員等提供全場景、全過程、全周期的服務(wù)支持,促進教育產(chǎn)業(yè)智能化升級,構(gòu)建“共生”“互生”“創(chuàng)生”的智慧教育多元化新生態(tài)。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )