標(biāo)題:DeepSeek/o3研究警告:頻繁跳轉(zhuǎn)或錯(cuò)過(guò)正確答案,簡(jiǎn)單才是王道
DeepSeek和o3一類推理大模型在持續(xù)帶來(lái)震撼的同時(shí),也引發(fā)了新的研究興趣。近期,一項(xiàng)新研究揭示了這些模型的弱點(diǎn)——在遇到高難度問(wèn)題時(shí),它們可能會(huì)頻繁切換解題思路,這可能會(huì)讓它們錯(cuò)過(guò)正確答案。這種現(xiàn)象被研究者稱為“欠思考”(Underthinking)。
DeepSeek和o3等模型在解決復(fù)雜問(wèn)題時(shí)表現(xiàn)出色,但它們也有其局限性。特別是在遇到高難度問(wèn)題時(shí),它們可能會(huì)頻繁切換思路,這可能會(huì)導(dǎo)致它們?cè)诮鉀Q問(wèn)題時(shí)效率低下,甚至錯(cuò)過(guò)正確答案。為了解決這個(gè)問(wèn)題,研究人員開(kāi)發(fā)了一套評(píng)估框架,用于判斷被放棄的推理路徑是否實(shí)際上足以推導(dǎo)出正確答案。
這項(xiàng)研究以DeepSeek-R1和Qwen QwQ系列模型為研究對(duì)象,通過(guò)分析AI的錯(cuò)誤答案,發(fā)現(xiàn)當(dāng)前的推理大模型經(jīng)常在思考早期就走上了正確的路線,但傾向于“淺嘗輒止”,很快開(kāi)始探索別的思路,導(dǎo)致后續(xù)生成的數(shù)千個(gè)tokens對(duì)解題毫無(wú)貢獻(xiàn)。這種現(xiàn)象不僅浪費(fèi)計(jì)算資源,還顯著降低了答案的正確率。
值得注意的是,這種頻繁的思路切換并不是一種有效的解決問(wèn)題的方式。在解決數(shù)學(xué)競(jìng)賽題等更為復(fù)雜任務(wù)時(shí)尤為明顯。為了系統(tǒng)分析這個(gè)問(wèn)題,研究人員在具有挑戰(zhàn)性的測(cè)試集MATH500、GPQA Diamond和AIME2024上對(duì)類o1模型QwQ-32B-Preview、DeepSeek-R1-671B等進(jìn)行了實(shí)驗(yàn)。結(jié)果顯示,平均來(lái)看,錯(cuò)誤答案中的token使用量和思維切換次數(shù)比正確答案多。
為了解決這個(gè)問(wèn)題,研究人員提出了一種思路切換懲罰機(jī)制(TIP)。TIP通過(guò)調(diào)整參數(shù)(懲罰強(qiáng)度α和持續(xù)時(shí)間β),抑制模型過(guò)早的切換傾向,迫使模型在當(dāng)前路徑上探索更久。實(shí)驗(yàn)結(jié)果顯示,加入TIP后,模型的準(zhǔn)確率上升,同時(shí)UT Score下降,說(shuō)明既減少了無(wú)效切換,又提高了答案質(zhì)量。
盡管DeepSeek和o3一類推理大模型在解決復(fù)雜問(wèn)題時(shí)表現(xiàn)出色,但頻繁的思路切換可能會(huì)成為它們的弱點(diǎn)。解決這個(gè)問(wèn)題的方法并非完全重新訓(xùn)練模型,而是通過(guò)調(diào)整解碼策略,如引入TIP機(jī)制,來(lái)改善模型的推理過(guò)程。這種方法實(shí)用價(jià)值高,展現(xiàn)了無(wú)痛升級(jí)的效果。
值得注意的是,DeepSeek和o3一類推理大模型在解決復(fù)雜問(wèn)題時(shí)的表現(xiàn)令人印象深刻。然而,我們不能忽視它們?cè)诿鎸?duì)高難度問(wèn)題時(shí)的局限性。頻繁的思路切換可能會(huì)讓它們錯(cuò)過(guò)正確答案。因此,我們需要深入研究這個(gè)問(wèn)題,尋找更好的解決方案。簡(jiǎn)單才是王道,過(guò)于復(fù)雜的問(wèn)題可能會(huì)讓模型失去方向。
總的來(lái)說(shuō),DeepSeek和o3一類推理大模型在持續(xù)帶來(lái)震撼的同時(shí),也引發(fā)了新的研究興趣。通過(guò)深入研究和探索它們的弱點(diǎn),我們可以更好地了解它們的性能,并找到更好的解決方案來(lái)提高它們的準(zhǔn)確性。這項(xiàng)研究為我們提供了新的視角和思路,有助于我們更好地利用這些強(qiáng)大的模型來(lái)解決現(xiàn)實(shí)世界中的問(wèn)題。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )