法國人的措辭方式:用AI分析法語的演變

法語是一種羅曼語,源自拉丁語,是古羅馬帝國的官方語言。但是,法語并不是一成不變的,而是隨著時間和地理而發(fā)生了變化。為了更好地了解法語的演變,一些研究人員利用了計算機科學(xué)和數(shù)學(xué)的方法,對法國歷史上的書寫方式進(jìn)行了分析。

這項研究由法國國家科學(xué)研究中心(CNRS)和巴黎第六大學(xué)(Sorbonne Université)的數(shù)學(xué)家、計算機科學(xué)家和語言學(xué)家組成的跨學(xué)科團隊進(jìn)行。他們收集了從9世紀(jì)到20世紀(jì)的法語文本,包括詩歌、小說、報紙、政治演講等,共計約1.2億個單詞。然后,他們使用了一種稱為主題建模(topic modeling)的機器學(xué)習(xí)技術(shù),來自動識別文本中的主題,并分析它們在不同時期和地區(qū)的分布。

主題建模是一種無監(jiān)督的學(xué)習(xí)方法,它可以從大量文檔中提取出隱藏的主題,并給出每個文檔和每個單詞對每個主題的相關(guān)性。例如,一個關(guān)于政治的主題可能包含“國家”、“民主”、“選舉”等單詞,而一個關(guān)于文學(xué)的主題可能包含“小說”、“詩歌”、“風(fēng)格”等單詞。通過這種方法,研究人員可以發(fā)現(xiàn)法語文本中存在的約150個主題,并觀察它們?nèi)绾坞S著時間和地理而變化。

研究人員發(fā)現(xiàn),一些主題在特定的時期或地區(qū)比較突出,反映了歷史和社會的變遷。例如,在18世紀(jì)末和19世紀(jì)初,與革命和民族主義相關(guān)的主題在法國大陸比較流行,而在加拿大則沒有。另一個例子是,在19世紀(jì)末和20世紀(jì)初,與現(xiàn)代主義和象征主義相關(guān)的主題在法國首都巴黎比較流行,而在其他地區(qū)則沒有。

這項研究不僅揭示了法語文本中的主題演變,還展示了計算機科學(xué)和數(shù)學(xué)在語言學(xué)研究中的潛力。通過使用機器學(xué)習(xí)技術(shù),研究人員可以處理大量數(shù)據(jù),并從中發(fā)現(xiàn)新的知識和模式。這種方法也可以應(yīng)用于其他語言和領(lǐng)域,為人文社會科學(xué)提供新的工具和視角。

這項研究發(fā)表在2023年6月15日出版的《自然·人類行為》上。

https://phys.org/news/2023-06-written-france-analysing.html

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2023-06-17
法國人的措辭方式:用AI分析法語的演變
法語是一種羅曼語,源自拉丁語,是古羅馬帝國的官方語言。但是,法語并不是一成不變的,而是隨著時間和地理而發(fā)生了變化。

長按掃碼 閱讀全文