2025年,“推理模型”成為人工智能行業(yè)的熱詞。從科大訊飛發(fā)布首個使用全國產(chǎn)算力訓(xùn)練的深度推理大模型——訊飛星火X1,到深度求索公司上線DeepSeek-R1推理模型,都將“推理模型”推到聚光燈下。
多數(shù)大語言模型具備一定推理能力,但推理模型具有更強大的推理、邏輯分析和決策能力。推理模型會運用各種推理技巧,如演繹推理、歸納推理、類比推理等,來模擬人類的思考方式。多位業(yè)內(nèi)人士接受科技日報記者采訪時說,在人工智能大模型不斷迭代升級的浪潮中,推理模型以創(chuàng)新的技術(shù)為行業(yè)發(fā)展注入新活力,也讓人們對人工智能未來發(fā)展有了更大想象空間。
推理模仿人類“慢思考”
在復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院教授、上海市數(shù)據(jù)科學(xué)重點實驗室主任肖仰華看來,過去,大模型的生成能力主要由語料決定。但專家級的推理能力并非“題海戰(zhàn)術(shù)”可以實現(xiàn),而是需要大模型具備強大的思維能力。
心理學(xué)家認(rèn)為,人類存在兩種思維模式。一種是主要用來對日常生活中的簡單問題進行判斷、決策的“快思考”;另一種則是用于對一些特定問題進行深入分析、研判的“慢思考”。“快思考”是人類基于大量日常經(jīng)驗、常識等,對簡單問題作出的快速反應(yīng),往往在人們無意識之間完成,是一種更加接近“本能”的思考方式。與之相對,“慢思考”則需要調(diào)動大腦更多資源,遵循特定思維邏輯,對問題進行抽絲剝繭式分析研究,進而作出更加理性周全的決策。
作為人工智能的典型應(yīng)用,大模型如今也有了“快”“慢”之別。
傳統(tǒng)大語言通用模型的思維方式更像是“快思考”,其主要依靠算力對海量數(shù)據(jù)進行學(xué)習(xí),實現(xiàn)對后續(xù)空白內(nèi)容的快速預(yù)測,回答人類提出的各類問題,本質(zhì)上是基于概率模型對可能的答案進行“猜測”。相比之下,推理大模型更有意識和邏輯,會在回答之前進行一段時間“慢思考”,依據(jù)特定思維鏈條,提供更全面解答。
科大訊飛研究院副院長殷兵舉例說,訊飛星火X1在解答高考數(shù)學(xué)題等復(fù)雜題目時,會先將題目化繁為簡,給出解題思路和步驟,呈現(xiàn)出全面的思考、分析和推理過程,進而給出準(zhǔn)確的題目答案。殷兵說,推理模型更接近人類的“慢思考”方式。相較于通用大模型,推理模型在數(shù)學(xué)、醫(yī)學(xué)、代碼等領(lǐng)域,會產(chǎn)生更好的效果和意想不到的應(yīng)用場景。
強化學(xué)習(xí)實現(xiàn)反思糾錯
人類可以對復(fù)雜問題進行深入思考、理性分析的一大原因在于,大腦能夠反思。通過對過去錯誤結(jié)果和正確經(jīng)驗的反饋學(xué)習(xí),人類得以不斷提升對復(fù)雜問題判斷的正確率。推理模型中普遍應(yīng)用的強化學(xué)習(xí)技術(shù),在一定程度上模仿了人類的反思、糾錯能力。
強化學(xué)習(xí)是一種機器學(xué)習(xí)方法,它允許智能體在與環(huán)境的交互中通過試錯來學(xué)習(xí)最優(yōu)策略。智能體在環(huán)境中執(zhí)行相應(yīng)行動,并根據(jù)行動的結(jié)果接收反饋,這些反饋信號則指導(dǎo)智能體調(diào)整下一步策略,循環(huán)往復(fù),不斷接近最優(yōu)策略。
例如,DeepSeek-R1在訓(xùn)練推理模型時采用了一條此前鮮有人使用的完全依賴強化學(xué)習(xí)的訓(xùn)練路徑,即僅根據(jù)模型輸出答案的優(yōu)劣等簡單信息,對模型進行獎懲。這相當(dāng)于在不施加任何指引的情況下,讓一個剛出生不久的幼兒完全自主探索世界,并根據(jù)探索結(jié)果給予反饋,從而讓幼兒在反復(fù)試錯和成功中快速成長。
殷兵介紹,訊飛星火X1可以進行自我探索和反思驗證,并基于答案正確與否的反饋信息進行強化訓(xùn)練。其中,自我評價迭代的評語模型能指出大模型存在的幻覺問題,大模型在得到評語模型的評價后可實現(xiàn)自我完善提升。同時,評語模型也通過強化訓(xùn)練進一步提升自身發(fā)現(xiàn)幻覺問題的能力。整個過程無需人員參與標(biāo)注,而是依靠兩個模型相互博弈、共同進化。多路徑和反思迭代的強化學(xué)習(xí)技術(shù)使訊飛星火X1中能化繁為簡,把復(fù)雜問題拆解成多個步驟進行思考推理,并進行自我反思探索。例如,它在解答高考數(shù)學(xué)題目時,不僅會實時呈現(xiàn)分步驟解題過程,還能對解題過程進行實時驗算,反思糾正過程中的遺漏和問題,直至給出正確答案。而整個推理過程中形成的數(shù)據(jù)也可以被用于后續(xù)的強化學(xué)習(xí)。
可靠算力仍是關(guān)鍵因素
無論是模型訓(xùn)練還是推理,都需要算力平臺作為硬件基礎(chǔ)。雖然在特定領(lǐng)域,推理模型能夠在實現(xiàn)同等效果的情況下消耗更少算力,但算力平臺的可靠性、穩(wěn)定性仍然是決定推理模型發(fā)展的重要因素。
此前,科大訊飛已聯(lián)合華為打造出首個國產(chǎn)算力萬卡平臺“飛星一號”,并基于此完成了訊飛星火大模型多個版本的迭代訓(xùn)練。但推理模型的訓(xùn)練是一條全新的技術(shù)路線。目前,國產(chǎn)算力在單卡、集群、生態(tài)等方面距國際領(lǐng)先水平有一定差距,全面基于國產(chǎn)算力平臺開展模型訓(xùn)練,面臨著不少挑戰(zhàn)。
“訊飛星火X1的訓(xùn)練推理涉及多個模型的強交互,需要跨任務(wù)傳輸數(shù)據(jù)及權(quán)重,訓(xùn)練任務(wù)類型也由在線實時響應(yīng)變?yōu)殡x線高吞吐。這需要克服國產(chǎn)顯卡帶寬不足的短板。”殷兵說,在這種復(fù)雜的訓(xùn)練模式下,影響效率的因素非常多,后訓(xùn)練所需的算力甚至提升了一個數(shù)量級。最終,通過與華為進行聯(lián)合攻關(guān),團隊自研出訓(xùn)練框架并進行效率優(yōu)化,實現(xiàn)了模型算法在國產(chǎn)算力上的成功適配,端到端效率大幅提升。
2025年,“推理模型”成為人工智能行業(yè)的熱詞。從科大訊飛發(fā)布首個使用全國產(chǎn)算力訓(xùn)練的深度推理大模型——訊飛星火X1,到深度求索公司上線DeepSeek-R1推理模型,都將“推理模型”推到聚光燈下。
多數(shù)大語言模型具備一定推理能力,但推理模型具有更強大的推理、邏輯分析和決策能力。推理模型會運用各種推理技巧,如演繹推理、歸納推理、類比推理等,來模擬人類的思考方式。多位業(yè)內(nèi)人士接受科技日報記者采訪時說,在人工智能大模型不斷迭代升級的浪潮中,推理模型以創(chuàng)新的技術(shù)為行業(yè)發(fā)展注入新活力,也讓人們對人工智能未來發(fā)展有了更大想象空間。
推理模仿人類“慢思考”
在復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院教授、上海市數(shù)據(jù)科學(xué)重點實驗室主任肖仰華看來,過去,大模型的生成能力主要由語料決定。但專家級的推理能力并非“題海戰(zhàn)術(shù)”可以實現(xiàn),而是需要大模型具備強大的思維能力。
心理學(xué)家認(rèn)為,人類存在兩種思維模式。一種是主要用來對日常生活中的簡單問題進行判斷、決策的“快思考”;另一種則是用于對一些特定問題進行深入分析、研判的“慢思考”。“快思考”是人類基于大量日常經(jīng)驗、常識等,對簡單問題作出的快速反應(yīng),往往在人們無意識之間完成,是一種更加接近“本能”的思考方式。與之相對,“慢思考”則需要調(diào)動大腦更多資源,遵循特定思維邏輯,對問題進行抽絲剝繭式分析研究,進而作出更加理性周全的決策。
作為人工智能的典型應(yīng)用,大模型如今也有了“快”“慢”之別。
傳統(tǒng)大語言通用模型的思維方式更像是“快思考”,其主要依靠算力對海量數(shù)據(jù)進行學(xué)習(xí),實現(xiàn)對后續(xù)空白內(nèi)容的快速預(yù)測,回答人類提出的各類問題,本質(zhì)上是基于概率模型對可能的答案進行“猜測”。相比之下,推理大模型更有意識和邏輯,會在回答之前進行一段時間“慢思考”,依據(jù)特定思維鏈條,提供更全面解答。
科大訊飛研究院副院長殷兵舉例說,訊飛星火X1在解答高考數(shù)學(xué)題等復(fù)雜題目時,會先將題目化繁為簡,給出解題思路和步驟,呈現(xiàn)出全面的思考、分析和推理過程,進而給出準(zhǔn)確的題目答案。殷兵說,推理模型更接近人類的“慢思考”方式。相較于通用大模型,推理模型在數(shù)學(xué)、醫(yī)學(xué)、代碼等領(lǐng)域,會產(chǎn)生更好的效果和意想不到的應(yīng)用場景。
強化學(xué)習(xí)實現(xiàn)反思糾錯
人類可以對復(fù)雜問題進行深入思考、理性分析的一大原因在于,大腦能夠反思。通過對過去錯誤結(jié)果和正確經(jīng)驗的反饋學(xué)習(xí),人類得以不斷提升對復(fù)雜問題判斷的正確率。推理模型中普遍應(yīng)用的強化學(xué)習(xí)技術(shù),在一定程度上模仿了人類的反思、糾錯能力。
強化學(xué)習(xí)是一種機器學(xué)習(xí)方法,它允許智能體在與環(huán)境的交互中通過試錯來學(xué)習(xí)最優(yōu)策略。智能體在環(huán)境中執(zhí)行相應(yīng)行動,并根據(jù)行動的結(jié)果接收反饋,這些反饋信號則指導(dǎo)智能體調(diào)整下一步策略,循環(huán)往復(fù),不斷接近最優(yōu)策略。
例如,DeepSeek-R1在訓(xùn)練推理模型時采用了一條此前鮮有人使用的完全依賴強化學(xué)習(xí)的訓(xùn)練路徑,即僅根據(jù)模型輸出答案的優(yōu)劣等簡單信息,對模型進行獎懲。這相當(dāng)于在不施加任何指引的情況下,讓一個剛出生不久的幼兒完全自主探索世界,并根據(jù)探索結(jié)果給予反饋,從而讓幼兒在反復(fù)試錯和成功中快速成長。
殷兵介紹,訊飛星火X1可以進行自我探索和反思驗證,并基于答案正確與否的反饋信息進行強化訓(xùn)練。其中,自我評價迭代的評語模型能指出大模型存在的幻覺問題,大模型在得到評語模型的評價后可實現(xiàn)自我完善提升。同時,評語模型也通過強化訓(xùn)練進一步提升自身發(fā)現(xiàn)幻覺問題的能力。整個過程無需人員參與標(biāo)注,而是依靠兩個模型相互博弈、共同進化。多路徑和反思迭代的強化學(xué)習(xí)技術(shù)使訊飛星火X1中能化繁為簡,把復(fù)雜問題拆解成多個步驟進行思考推理,并進行自我反思探索。例如,它在解答高考數(shù)學(xué)題目時,不僅會實時呈現(xiàn)分步驟解題過程,還能對解題過程進行實時驗算,反思糾正過程中的遺漏和問題,直至給出正確答案。而整個推理過程中形成的數(shù)據(jù)也可以被用于后續(xù)的強化學(xué)習(xí)。
可靠算力仍是關(guān)鍵因素
無論是模型訓(xùn)練還是推理,都需要算力平臺作為硬件基礎(chǔ)。雖然在特定領(lǐng)域,推理模型能夠在實現(xiàn)同等效果的情況下消耗更少算力,但算力平臺的可靠性、穩(wěn)定性仍然是決定推理模型發(fā)展的重要因素。
此前,科大訊飛已聯(lián)合華為打造出首個國產(chǎn)算力萬卡平臺“飛星一號”,并基于此完成了訊飛星火大模型多個版本的迭代訓(xùn)練。但推理模型的訓(xùn)練是一條全新的技術(shù)路線。目前,國產(chǎn)算力在單卡、集群、生態(tài)等方面距國際領(lǐng)先水平有一定差距,全面基于國產(chǎn)算力平臺開展模型訓(xùn)練,面臨著不少挑戰(zhàn)。
“訊飛星火X1的訓(xùn)練推理涉及多個模型的強交互,需要跨任務(wù)傳輸數(shù)據(jù)及權(quán)重,訓(xùn)練任務(wù)類型也由在線實時響應(yīng)變?yōu)殡x線高吞吐。這需要克服國產(chǎn)顯卡帶寬不足的短板。”殷兵說,在這種復(fù)雜的訓(xùn)練模式下,影響效率的因素非常多,后訓(xùn)練所需的算力甚至提升了一個數(shù)量級。最終,通過與華為進行聯(lián)合攻關(guān),團隊自研出訓(xùn)練框架并進行效率優(yōu)化,實現(xiàn)了模型算法在國產(chǎn)算力上的成功適配,端到端效率大幅提升。
本文鏈接:http://www.enbeike.cn/news-2-562-0.html推理模型:“慢思考”讓決策更周全
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕