DeepSeek R1通過創(chuàng)新的多階段強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練方法,采用組相關(guān)策略優(yōu)化 (GRPO),在復(fù)雜推理任務(wù)中表現(xiàn)不俗,甚至有望超越OpenAI的o1模型。
DeepSeek AI發(fā)布了其最新的模型DeepSeek-R1,這是一款在復(fù)雜推理任務(wù)中與OpenAI的o1模型相媲美的開源模型。它采用了一種名為組相關(guān)策略優(yōu)化(GRPO)的強(qiáng)化學(xué)習(xí)算法,并通過多階段訓(xùn)練方法不斷優(yōu)化。這一新算法旨在提升大型語言模型(LLM)的推理能力,尤其在數(shù)學(xué)推理等領(lǐng)域表現(xiàn)尤為突出。
GRPO的核心概念是通過取消對價值函數(shù)模型的依賴來簡化訓(xùn)練過程。這一創(chuàng)新不僅減少了內(nèi)存消耗和計算開銷,還能通過組內(nèi)得分來估算基準(zhǔn),從而優(yōu)化模型性能。與傳統(tǒng)的Proximal Policy Optimization(PPO)不同,GRPO不依賴單獨(dú)的價值函數(shù),而是使用多個輸出的平均獎勵作為基準(zhǔn)進(jìn)行優(yōu)化。通過這種方式,模型可以更自然地處理多輸出的情況,如同在處理單一輸入時一樣。
DeepSeek團(tuán)隊在構(gòu)建DeepSeek R1的過程中,首先基于DeepSeek V3進(jìn)行強(qiáng)化學(xué)習(xí)實驗,嘗試應(yīng)用GRPO對無監(jiān)督推理文本進(jìn)行補(bǔ)全。使用規(guī)則獎勵模型,重點評估格式、數(shù)學(xué)和編程等領(lǐng)域的表現(xiàn)。比如,通過獎勵準(zhǔn)確性來評估是否得出了正確的答案,或者是否解決了LeetCode問題;通過獎勵格式來確保模型在思考過程中,能將其思維過程清晰地表達(dá)出來。
這些措施顯著提升了DeepSeek R1在AIME 2024的表現(xiàn),Pass@1得分從15.6%躍升至71.0%,接近OpenAI o1-0912的水平。隨著問題的解答中token的數(shù)量增加,模型表現(xiàn)出自然地學(xué)會了在更長時間內(nèi)思考并生成更多tokens來完成任務(wù)。
然而,這種進(jìn)步并非沒有代價。早期的模型輸出可讀性較差,語言混雜,但通過多階段的訓(xùn)練方法,這一問題得到了解決。
在訓(xùn)練過程中,DeepSeek R1經(jīng)歷了四個關(guān)鍵階段,以確保模型的穩(wěn)定性和有效性。首先,團(tuán)隊進(jìn)行了監(jiān)督微調(diào)(SFT),以解決強(qiáng)化學(xué)習(xí)冷啟動階段的不穩(wěn)定問題,并使用了包含大量鏈?zhǔn)剿季S(CoT)的數(shù)據(jù)集。接下來,模型在代碼和數(shù)學(xué)等推理任務(wù)中應(yīng)用GRPO,加入了“語言一致性”的獎勵,以確保模型語言風(fēng)格的一致性。第三階段,通過拒絕采樣(RS)生成大量合成數(shù)據(jù)集,重點提高模型在寫作和角色扮演等通用任務(wù)中的能力。最后,在第四階段,GRPO再次被應(yīng)用,以結(jié)合規(guī)則和結(jié)果獎勵模型,進(jìn)一步優(yōu)化模型的有用性和無害性,從而最終形成了DeepSeek R1。
其中,DeepSeek團(tuán)隊有幾項驚人的選擇和發(fā)現(xiàn)。與許多模型不同,DeepSeek并沒有使用蒙特卡洛樹搜索(MCTS)或過程獎勵模型(PRM)。而且,通過在應(yīng)用GRPO之前進(jìn)行微調(diào),訓(xùn)練過程變得更快、更穩(wěn)定。特別是,基于準(zhǔn)確性和格式的規(guī)則獎勵,往往比復(fù)雜的獎勵模型更加有效。
通過這一系列創(chuàng)新的訓(xùn)練步驟,DeepSeek R1不僅在推理能力上取得了顯著進(jìn)展,還能在各種任務(wù)中展現(xiàn)出更高的實用性和一致性。
本文譯自 philschmid,由 BALI 編輯發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )