21世紀(jì)經(jīng)濟(jì)報道記者 閆碩 北京報道
近日,OpenAI推出HealthBench開源基準(zhǔn)測試,用于衡量大語言模型在醫(yī)療健康領(lǐng)域的性能表現(xiàn)與安全可靠性,引發(fā)業(yè)內(nèi)廣泛討論。
根據(jù)官方信息,HealthBench由262位來自60個國家/地區(qū)執(zhí)業(yè)的醫(yī)生共同參與構(gòu)建,整合了5000段真實的醫(yī)療對話數(shù)據(jù)。與以前的狹窄基準(zhǔn)不同,HealthBench通過48562個獨特的醫(yī)生編寫的評分標(biāo)準(zhǔn)進(jìn)行有意義的開放式評估,涵蓋多個健康背景和行為維度。
有研報分析指出,隨著OpenAI推出HealthBench等醫(yī)療大模型評估基準(zhǔn)的建立和完善,AI醫(yī)療模型的性能評估將更加科學(xué)、全面,有助于加速AI技術(shù)在醫(yī)療領(lǐng)域的落地應(yīng)用,為醫(yī)療行業(yè)的智能化升級提供有力支持,相關(guān)企業(yè)有望迎來新的發(fā)展機(jī)遇。
另一方面,大模型本身也在加速變革。事實上,隨著大模型競爭的白熱化,競爭的焦點也已進(jìn)入全新階段:從早先粗放的參數(shù)體量堆砌競賽,轉(zhuǎn)變?yōu)槟P托蕛?yōu)化與單位算力下的性能提升。
IQVIA艾昆緯戰(zhàn)略規(guī)劃副總監(jiān)Barrett Li向21世紀(jì)經(jīng)濟(jì)報道記者表示,隨著大模型的不斷進(jìn)化,以及模型優(yōu)化方法的不斷提升,已經(jīng)為AI在要求更特殊的專業(yè)場景中的更廣泛應(yīng)用拓展了可能性,尤其是對于醫(yī)藥行業(yè)的AI應(yīng)用來說,已顯現(xiàn)三大趨勢:模型即產(chǎn)品、本地與端側(cè)部署、研發(fā)端AI應(yīng)用的快速拓展。
改善人類健康將成為通用人工智能(AGI)的決定性影響之一。如果能夠得到有效開發(fā)和部署,大語言模型有望拓展健康信息的獲取渠道,支持臨床醫(yī)生提供高質(zhì)量醫(yī)療服務(wù),并幫助人們維護(hù)自身健康。而評估對于理解模型在醫(yī)療場景中的表現(xiàn)至關(guān)重要。
OpenAI認(rèn)為,現(xiàn)有評估仍然存在一些問題,首先,未反映真實場景,脫離了實際醫(yī)療互動的復(fù)雜性,如僅采用標(biāo)準(zhǔn)化測試或有限臨床問題。其次,缺乏專家醫(yī)學(xué)驗證,評分標(biāo)準(zhǔn)未經(jīng)過醫(yī)療專家嚴(yán)格審核,難以體現(xiàn)專業(yè)醫(yī)療判斷。此外,也并未預(yù)留改進(jìn)空間,最先進(jìn)模型已接近“天花板”得分,無法激勵持續(xù)優(yōu)化。
也因此,在過去的一年里,OpenAI與60個國家的262名醫(yī)生合作構(gòu)建了HealthBench,包括5000個真實的醫(yī)療對話數(shù)據(jù)。HealthBench 的測試樣本被分為7個主題和5個評估維度。其中,7個主題包括緊急轉(zhuǎn)診、專業(yè)溝通定制、健康數(shù)據(jù)任務(wù)等方面,5個評估緯度則包含準(zhǔn)確性、溝通質(zhì)量、情境理解等方面。
在HealthBench的基礎(chǔ)上,OpenAI還推出了兩個特別版本:HealthBench Consensus(共識版)和HealthBench Hard(困難版)。前者包含34個經(jīng)醫(yī)生共識驗證的、對模型行為表現(xiàn)尤為關(guān)鍵的評估維度;后者則設(shè)置了更高難度的評估場景,目前最高得分僅為o3模型的32%,主要被用于挑戰(zhàn)模型在復(fù)雜醫(yī)療情境中的極限表現(xiàn)。
對于HealthBench的可信度,OpenAI開展了HealthBench Consensus(共識版)的元評估,即將模型的打分結(jié)果與醫(yī)生人工打分進(jìn)行對比。結(jié)果表明,7個評估領(lǐng)域中的6個領(lǐng)域,模型打分結(jié)果與醫(yī)生評分的中位數(shù)水平高度一致。
有券商分析師向21世紀(jì)經(jīng)濟(jì)報道記者表示,在醫(yī)療等垂直領(lǐng)域,準(zhǔn)確性和實際場景的相關(guān)性比“流暢對話”更為關(guān)鍵,HealthBench不同于過去大多關(guān)注通用大語言模型表現(xiàn)的基準(zhǔn),而是聚焦醫(yī)療垂直領(lǐng)域,為醫(yī)療領(lǐng)域的AI應(yīng)用提供更為專業(yè)的評估工具,同時也將推動大模型領(lǐng)域建立專業(yè)的AI評估標(biāo)準(zhǔn)。
值得一提的是,在HealthBench的測評中可以發(fā)現(xiàn),大模型在醫(yī)療領(lǐng)域的應(yīng)用正迅速發(fā)展。比如,2023年推出的GPT-3.5Turbo得分為16%,而2024年5月推出的GPT-4o得分已達(dá)到32%,2024年12月推出的o3模型得分更是達(dá)到60%。另外,較小規(guī)模的模型尤其進(jìn)步顯著,GPT-4.1 nano的表現(xiàn)超過GPT-4o,且成本僅為GPT-4o的1/25。
根據(jù)世界經(jīng)濟(jì)論壇發(fā)布的《人工智能驅(qū)動健康的未來:引領(lǐng)潮流》報告,人工智能是醫(yī)療保健的主要變革力量,預(yù)計2024年—2032年,AI醫(yī)療市場將以每年43%的速度增長,市場規(guī)模有望達(dá)到4910億美元。
其中,AI在醫(yī)療服務(wù)中的應(yīng)用前景廣闊。中信建投證券分析指出,AI可以擴(kuò)展醫(yī)療服務(wù)可及性,可應(yīng)用于診斷前、診治及診斷后階段,解決當(dāng)前醫(yī)院系統(tǒng)醫(yī)療人員短缺和缺乏有效分流等問題,以少量資源實現(xiàn)高效率。此外,AI輔助醫(yī)生診療未來有望降低誤診率的同時,在部分疑難雜癥診療方面也有望發(fā)揮協(xié)同作用。
也因此,不僅評估工具在發(fā)生變革,大模型本身也在持續(xù)優(yōu)化。當(dāng)前,AI在醫(yī)療領(lǐng)域的應(yīng)用歷經(jīng)了從規(guī)則驅(qū)動到數(shù)據(jù)驅(qū)動、從單一任務(wù)優(yōu)化到多模態(tài)協(xié)同的演變,已進(jìn)入到多模態(tài)融合階段。
浙商證券分析指出,大模型的多模態(tài)能力解決了早期AI醫(yī)療存在的信息割裂和數(shù)據(jù)孤島等問題,大模型通過“預(yù)訓(xùn)練+微調(diào)”架構(gòu),用統(tǒng)一參數(shù)體系處理多模態(tài)醫(yī)療數(shù)據(jù)。在臨床應(yīng)用中,借助多模態(tài)技術(shù),AI可以實現(xiàn)跨模態(tài)數(shù)據(jù)的理解和動態(tài)時序建模,使得AI診療與醫(yī)生的診療水平更加接近。
需要指出的是,由于萬億級參數(shù)模型高昂的訓(xùn)練成本與當(dāng)下較低的投資回報比,疊加通用參數(shù)的堆砌對專業(yè)場景下的模型效率提升遇到了瓶頸,大模型競爭的焦點已從早先粗放的參數(shù)體量堆砌競賽,轉(zhuǎn)向模型效率優(yōu)化與單位算力下的性能提升。
在應(yīng)用方面,Barrett Li向記者總結(jié)道,隨著大模型的不斷進(jìn)化,目前對于醫(yī)藥行業(yè)的AI應(yīng)用來說,幾大趨勢已經(jīng)顯現(xiàn):
首先,模型即產(chǎn)品。相比通用大模型在其他行業(yè)中相對較低的應(yīng)用門檻,醫(yī)藥行業(yè)高度專業(yè)性的場景,對于模型的適配性有著更高的要求。而隨著模型訓(xùn)練與針對特定知識庫優(yōu)化的技術(shù)與應(yīng)用逐漸推廣,大模型廠商未來預(yù)計會逐步關(guān)閉對外的API接口,轉(zhuǎn)而將專業(yè)化后的模型本身作為產(chǎn)品直接提供給企業(yè)用戶使用,顛覆現(xiàn)有的套殼應(yīng)用層。而現(xiàn)有的專業(yè)AI軟件,也必須逐步增強(qiáng)其底層模型訓(xùn)練的能力以應(yīng)對這一挑戰(zhàn)。在可見的未來,將會有更多直接針對醫(yī)藥行業(yè)訓(xùn)練的模型被廣泛應(yīng)用。
其次,本地與端側(cè)部署。針對特定場景而訓(xùn)練優(yōu)化的專業(yè)模型,可以在滿足性能要求的前提下,減少對硬件方面提出過高的要求。因此在成本可控性、分析可溯源、數(shù)據(jù)安全、反饋延遲等要求更高的場景下,專業(yè)中小模型的本地部署會提供極大的賦能。
“此外,研發(fā)端AI應(yīng)用也在快速拓展。出于高度專業(yè)性、數(shù)據(jù)安全、隱私合規(guī)等因素,相比通用大模型在商業(yè)化階段的快速發(fā)展,醫(yī)藥行業(yè)企業(yè)尚未在研發(fā)階段感受到AI所帶來的巨大轉(zhuǎn)變。而隨著特定場景專業(yè)模型訓(xùn)練的普及,研發(fā)階段AI應(yīng)用的壁壘未來也有望被逐一消解?!盉arrett Li說道。
本文鏈接:http://www.enbeike.cn/news-7-17974-0.htmlAI醫(yī)療進(jìn)入精準(zhǔn)化“深水區(qū)” :OpenAI醫(yī)療評估基準(zhǔn)落地、大模型加速變革|AI醫(yī)療浪潮?
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
上一篇:CXO企業(yè)一季報:5家營收破10億元,8家虧損,國際化與創(chuàng)新賽道或成破局關(guān)鍵
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕