近日,從杭州一家知名大模型公司聯(lián)匯科技獲悉,趙天成博士帶領(lǐng)Om AI Lab團(tuán)隊(duì)成功把DeepSeek R1從純文本領(lǐng)域成功遷移到了視覺語言領(lǐng)域,這是DeepSeek R1模型首次突破到視覺推理層面。該模型為VLM-R1視覺語言模型,已經(jīng)具備精確的視頻理解和推理能力,證實(shí)了R1方法的通用性,為多模態(tài)模型的訓(xùn)練打開了想象空間。
這個(gè)項(xiàng)目的靈感來自去年DeepSeek開源的那個(gè)R1方法,靠著GRPO(Generative Reward Processing Optimization)強(qiáng)化學(xué)習(xí)方法,在純文本大模型上取得了驚人的效果。
現(xiàn)在,VLM-R1團(tuán)隊(duì)直接把它應(yīng)用到了視覺語言模型上,打開了一扇新的大門!
#VLM-R1驗(yàn)證結(jié)果驚艷#
這個(gè)項(xiàng)目的團(tuán)隊(duì)在 Qwen2.5-VL 的基礎(chǔ)上,同時(shí)對(duì)比了 R1 和傳統(tǒng)的 SFT 方法。結(jié)果相當(dāng)驚艷:
1、穩(wěn)定性拉滿:R1 方法在各種復(fù)雜場(chǎng)景下都能保持穩(wěn)定的高性能,這在實(shí)際應(yīng)用至關(guān)重要!
2. 泛化能力卓越:更讓人震驚的是,在領(lǐng)域外的測(cè)試數(shù)據(jù)上,隨著訓(xùn)練步數(shù)增加,傳統(tǒng) SFT 模型的性能開始下滑,而 R1 模型卻能持續(xù)提升!這意味著 R1 方法幫助模型真正“學(xué)會(huì)”了理解視覺內(nèi)容,而不是簡(jiǎn)單地記憶!
(訓(xùn)練和測(cè)試領(lǐng)域的差異對(duì)比)
(泛化性對(duì)比,綠線是VLM-R1,在領(lǐng)域外泛化性顯著更優(yōu))
3、上手超簡(jiǎn)單:VLM-R1項(xiàng)目團(tuán)隊(duì)還貼心地提供了完整的訓(xùn)練和評(píng)估流程,四步就能開始訓(xùn)練,對(duì)開發(fā)者十分友好。
#小編親測(cè)#之后,在此分享一個(gè)實(shí)際案例,結(jié)果讓人意外
圖片里展示了一桌子豐盛的美食,包括各種蔬菜、面餅和點(diǎn)心。針對(duì)圖片,我們向模型提出了一個(gè)問題:“在圖片中找出蛋白質(zhì)含量最高的食物”。
模型不僅回答得準(zhǔn)確:
“圖片中展示了桌上的各種菜品,包括蔬菜、面餅和點(diǎn)心。從蛋白質(zhì)含量來看,面餅或面點(diǎn)可能含量最高,因?yàn)樗鼈兺ǔS扇任镏瞥?面粉中含有蛋白質(zhì)。雖然蔬菜也含有蛋白質(zhì),但比起這些主食來說含量較少?!?span style="display:none">eDW即熱新聞——關(guān)注每天科技社會(huì)生活新變化gihot.com
更厲害的是,它還精準(zhǔn)地在圖片中框選出了那個(gè)蛋白質(zhì)含量最高的雞蛋餅!
這種精確的視覺理解能力和推理能力,讓人印象深刻!
完美展示了 VLM-R1 在實(shí)際應(yīng)用中的優(yōu)勢(shì):
- 準(zhǔn)確的視覺識(shí)別能力
- 專業(yè)的知識(shí)推理能力
- 清晰的文本表達(dá)能力
#全新思路#
作為一個(gè)AI領(lǐng)域的觀察者,VLM-R1的出現(xiàn)也為開發(fā)者和行業(yè)提供了許多新的思路,比如:
1、證明了R1方法的通用性,不止文本領(lǐng)域玩得轉(zhuǎn);
2、為多模態(tài)模型的訓(xùn)練提供了新思路;
3、或許能夠引領(lǐng)一種全新的視覺語言模型訓(xùn)練潮流;
#完全開源#
最棒的是,這個(gè)優(yōu)秀的項(xiàng)目完全開源!
項(xiàng)目地址:[VLM-R1](https://github.com/om-ai-lab/VLM-R1)
對(duì)視覺語言模型感興趣的同學(xué),強(qiáng)烈建議去看看這個(gè)項(xiàng)目。說不定你的下一個(gè)突破性研究就從這里開始!
最后,期待看到更多開發(fā)者加入進(jìn)來,一起推動(dòng)多模態(tài) AI 技術(shù)的發(fā)展。如果你也對(duì)這個(gè)項(xiàng)目感興趣,歡迎加群討論!
本文鏈接:http://www.enbeike.cn/news-14-7232-0.html重磅發(fā)現(xiàn)!DeepSeekR1方法成功遷移到視覺領(lǐng)域,多模態(tài)AI迎來新突破!
聲明:本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
上一篇:美錦能源青島產(chǎn)業(yè)園區(qū)遭到非法入侵及不明原因惡性破壞導(dǎo)致運(yùn)營(yíng)陷入困境
點(diǎn)擊右上角微信好友
朋友圈
點(diǎn)擊瀏覽器下方“”分享微信好友Safari瀏覽器請(qǐng)點(diǎn)擊“
”按鈕
點(diǎn)擊右上角QQ
點(diǎn)擊瀏覽器下方“”分享QQ好友Safari瀏覽器請(qǐng)點(diǎn)擊“
”按鈕