AI醫(yī)療進入精準化“深水區(qū)” ：OpenAI醫(yī)療評估基準落地、大模型加速變革｜AI醫(yī)療浪潮?

2個月前來源：觀看：131

21世紀經(jīng)濟報道記者閆碩北京報道

近日，OpenAI推出HealthBench開源基準測試，用于衡量大語言模型在醫(yī)療健康領域的性能表現(xiàn)與安全可靠性，引發(fā)業(yè)內廣泛討論。

根據(jù)官方信息，HealthBench由262位來自60個國家/地區(qū)執(zhí)業(yè)的醫(yī)生共同參與構建，整合了5000段真實的醫(yī)療對話數(shù)據(jù)。與以前的狹窄基準不同，HealthBench通過48562個獨特的醫(yī)生編寫的評分標準進行有意義的開放式評估，涵蓋多個健康背景和行為維度。

有研報分析指出，隨著OpenAI推出HealthBench等醫(yī)療大模型評估基準的建立和完善，AI醫(yī)療模型的性能評估將更加科學、全面，有助于加速AI技術在醫(yī)療領域的落地應用，為醫(yī)療行業(yè)的智能化升級提供有力支持，相關企業(yè)有望迎來新的發(fā)展機遇。

另一方面，大模型本身也在加速變革。事實上，隨著大模型競爭的白熱化，競爭的焦點也已進入全新階段：從早先粗放的參數(shù)體量堆砌競賽，轉變?yōu)槟Ｐ托蕛?yōu)化與單位算力下的性能提升。

IQVIA艾昆緯戰(zhàn)略規(guī)劃副總監(jiān)Barrett Li向21世紀經(jīng)濟報道記者表示，隨著大模型的不斷進化，以及模型優(yōu)化方法的不斷提升，已經(jīng)為AI在要求更特殊的專業(yè)場景中的更廣泛應用拓展了可能性，尤其是對于醫(yī)藥行業(yè)的AI應用來說，已顯現(xiàn)三大趨勢：模型即產(chǎn)品、本地與端側部署、研發(fā)端AI應用的快速拓展。

新的評估測試集

改善人類健康將成為通用人工智能（AGI）的決定性影響之一。如果能夠得到有效開發(fā)和部署，大語言模型有望拓展健康信息的獲取渠道，支持臨床醫(yī)生提供高質量醫(yī)療服務，并幫助人們維護自身健康。而評估對于理解模型在醫(yī)療場景中的表現(xiàn)至關重要。

OpenAI認為，現(xiàn)有評估仍然存在一些問題，首先，未反映真實場景，脫離了實際醫(yī)療互動的復雜性，如僅采用標準化測試或有限臨床問題。其次，缺乏專家醫(yī)學驗證，評分標準未經(jīng)過醫(yī)療專家嚴格審核，難以體現(xiàn)專業(yè)醫(yī)療判斷。此外，也并未預留改進空間，最先進模型已接近“天花板”得分，無法激勵持續(xù)優(yōu)化。

也因此，在過去的一年里，OpenAI與60個國家的262名醫(yī)生合作構建了HealthBench，包括5000個真實的醫(yī)療對話數(shù)據(jù)。HealthBench 的測試樣本被分為7個主題和5個評估維度。其中，7個主題包括緊急轉診、專業(yè)溝通定制、健康數(shù)據(jù)任務等方面，5個評估緯度則包含準確性、溝通質量、情境理解等方面。

在HealthBench的基礎上，OpenAI還推出了兩個特別版本：HealthBench Consensus（共識版）和HealthBench Hard（困難版）。前者包含34個經(jīng)醫(yī)生共識驗證的、對模型行為表現(xiàn)尤為關鍵的評估維度；后者則設置了更高難度的評估場景，目前最高得分僅為o3模型的32%，主要被用于挑戰(zhàn)模型在復雜醫(yī)療情境中的極限表現(xiàn)。

對于HealthBench的可信度，OpenAI開展了HealthBench Consensus（共識版）的元評估，即將模型的打分結果與醫(yī)生人工打分進行對比。結果表明，7個評估領域中的6個領域，模型打分結果與醫(yī)生評分的中位數(shù)水平高度一致。

有券商分析師向21世紀經(jīng)濟報道記者表示，在醫(yī)療等垂直領域，準確性和實際場景的相關性比“流暢對話”更為關鍵，HealthBench不同于過去大多關注通用大語言模型表現(xiàn)的基準，而是聚焦醫(yī)療垂直領域，為醫(yī)療領域的AI應用提供更為專業(yè)的評估工具，同時也將推動大模型領域建立專業(yè)的AI評估標準。

值得一提的是，在HealthBench的測評中可以發(fā)現(xiàn)，大模型在醫(yī)療領域的應用正迅速發(fā)展。比如，2023年推出的GPT-3.5Turbo得分為16%，而2024年5月推出的GPT-4o得分已達到32%，2024年12月推出的o3模型得分更是達到60%。另外，較小規(guī)模的模型尤其進步顯著，GPT-4.1 nano的表現(xiàn)超過GPT-4o，且成本僅為GPT-4o的1/25。

大模型持續(xù)優(yōu)化

根據(jù)世界經(jīng)濟論壇發(fā)布的《人工智能驅動健康的未來：引領潮流》報告，人工智能是醫(yī)療保健的主要變革力量，預計2024年—2032年，AI醫(yī)療市場將以每年43%的速度增長，市場規(guī)模有望達到4910億美元。

其中，AI在醫(yī)療服務中的應用前景廣闊。中信建投證券分析指出，AI可以擴展醫(yī)療服務可及性，可應用于診斷前、診治及診斷后階段，解決當前醫(yī)院系統(tǒng)醫(yī)療人員短缺和缺乏有效分流等問題，以少量資源實現(xiàn)高效率。此外，AI輔助醫(yī)生診療未來有望降低誤診率的同時，在部分疑難雜癥診療方面也有望發(fā)揮協(xié)同作用。

也因此，不僅評估工具在發(fā)生變革，大模型本身也在持續(xù)優(yōu)化。當前，AI在醫(yī)療領域的應用歷經(jīng)了從規(guī)則驅動到數(shù)據(jù)驅動、從單一任務優(yōu)化到多模態(tài)協(xié)同的演變，已進入到多模態(tài)融合階段。

浙商證券分析指出，大模型的多模態(tài)能力解決了早期AI醫(yī)療存在的信息割裂和數(shù)據(jù)孤島等問題，大模型通過“預訓練+微調”架構，用統(tǒng)一參數(shù)體系處理多模態(tài)醫(yī)療數(shù)據(jù)。在臨床應用中，借助多模態(tài)技術，AI可以實現(xiàn)跨模態(tài)數(shù)據(jù)的理解和動態(tài)時序建模，使得AI診療與醫(yī)生的診療水平更加接近。

需要指出的是，由于萬億級參數(shù)模型高昂的訓練成本與當下較低的投資回報比，疊加通用參數(shù)的堆砌對專業(yè)場景下的模型效率提升遇到了瓶頸，大模型競爭的焦點已從早先粗放的參數(shù)體量堆砌競賽，轉向模型效率優(yōu)化與單位算力下的性能提升。

在應用方面，Barrett Li向記者總結道，隨著大模型的不斷進化，目前對于醫(yī)藥行業(yè)的AI應用來說，幾大趨勢已經(jīng)顯現(xiàn)：

首先，模型即產(chǎn)品。相比通用大模型在其他行業(yè)中相對較低的應用門檻，醫(yī)藥行業(yè)高度專業(yè)性的場景，對于模型的適配性有著更高的要求。而隨著模型訓練與針對特定知識庫優(yōu)化的技術與應用逐漸推廣，大模型廠商未來預計會逐步關閉對外的API接口，轉而將專業(yè)化后的模型本身作為產(chǎn)品直接提供給企業(yè)用戶使用，顛覆現(xiàn)有的套殼應用層。而現(xiàn)有的專業(yè)AI軟件，也必須逐步增強其底層模型訓練的能力以應對這一挑戰(zhàn)。在可見的未來，將會有更多直接針對醫(yī)藥行業(yè)訓練的模型被廣泛應用。

其次，本地與端側部署。針對特定場景而訓練優(yōu)化的專業(yè)模型，可以在滿足性能要求的前提下，減少對硬件方面提出過高的要求。因此在成本可控性、分析可溯源、數(shù)據(jù)安全、反饋延遲等要求更高的場景下，專業(yè)中小模型的本地部署會提供極大的賦能。

“此外，研發(fā)端AI應用也在快速拓展。出于高度專業(yè)性、數(shù)據(jù)安全、隱私合規(guī)等因素，相比通用大模型在商業(yè)化階段的快速發(fā)展，醫(yī)藥行業(yè)企業(yè)尚未在研發(fā)階段感受到AI所帶來的巨大轉變。而隨著特定場景專業(yè)模型訓練的普及，研發(fā)階段AI應用的壁壘未來也有望被逐一消解?！盉arrett Li說道。

點擊展開全文

本文鏈接：http://www.enbeike.cn/news-7-17974-0.htmlAI醫(yī)療進入精準化“深水區(qū)” ：OpenAI醫(yī)療評估基準落地、大模型加速變革｜AI醫(yī)療浪潮?

聲明：本網(wǎng)頁內容由互聯(lián)網(wǎng)博主自發(fā)貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。

上一篇：CXO企業(yè)一季報：5家營收破10億元，8家虧損，國際化與創(chuàng)新賽道或成破局關鍵

下一篇：交易超10億美金，石藥這款首仿藥何以搶灘全球市場？

為你推薦

新版流感診療方案發(fā)布！新增2種抗病毒藥物

1月22日，國家衛(wèi)健委、國家中醫(yī)藥局聯(lián)合發(fā)布《流行性感冒診療方案（2025年版）》，新增瑪巴洛沙韋、法維拉韋兩種抗流感病毒藥物，并明確不建議聯(lián)合...

01-23

醫(yī)保藥品耗材追溯信息查詢功能上線

　　記者昨日從國家醫(yī)保局獲悉，國家醫(yī)保服務平臺APP“醫(yī)保藥品耗材追溯信息查詢”功能于近日正式上線，購藥者通過掃描藥盒上的藥品追溯碼，即可獲取詳細的藥品銷售信息，了...

02-11

菏澤醫(yī)學專科學校護理系“以賽促建、以賽促教、以賽促學”結碩果

　　大眾網(wǎng)記者司心鵬報道　　2024年，菏澤醫(yī)學?？茖W校護理系堅持以立德樹人為根本任務，全面落實“護教協(xié)同、崗課賽證”綜合育人模式，構建了以校內競賽為驅動、省級大賽...

01-21

濟南高新區(qū)璽悅幼教集團（空港園）《藏在指紋上的秘密》

　　大眾網(wǎng)記者王一剛報道　　進入大班后，孩子們對探索自己身體秘密的情感越來越強烈。在一次手掌拓印活動中，孩子們對手上的指紋產(chǎn)生了濃厚的興趣，在好奇心的推動下，孩子...

01-21

資產(chǎn)管理信托發(fā)行升溫信托公司加大債券投資布局

　　上證報中國證券網(wǎng)訊（記者聶林浩）得益于年末沖規(guī)模等季節(jié)性因素影響，資產(chǎn)管理信托發(fā)行市場再度...

01-22

又見共管保險箱被撬！浙金信托一產(chǎn)品爆雷后被監(jiān)管認定存在四大問題

　　原標題：又見共管保險箱被撬！浙金信托一產(chǎn)品爆雷后被監(jiān)管認定存在四大問題　　來源：界面新聞　...

01-28

雙子男對有好感的女生主動嗎

雙子座的男生一向以機智聰慧、善于交際而聞名，他們天生具備吸引人的魅力。當一個雙子男...

01-22

雙子男只是玩玩的表現(xiàn)，一般有這4個表現(xiàn)

雙子座的男生天性活潑好動，喜歡追求新鮮刺激的感覺。他們往往對愛情持有一種輕松隨意的...

01-22

藍色條紋襯衫搭配什么馬甲？

藍色條紋襯衫搭配什么馬甲？一、藍色條紋襯衫搭配什么馬甲？搭配藍色牛仔馬甲特別匹配，這樣的組合特別統(tǒng)一特別有套裝的高級感，搭配黑色水洗布馬甲也非常協(xié)調，黑色百搭經(jīng)典有低調大...

02-07

藍百萬潮流服飾：引領時尚的潮流先鋒

藍百萬潮流服飾：引領時尚的潮流先鋒選擇一件衣服，不僅是為了保暖或遮羞；更多的時候，它是一種身份的象征，一種自我表達的方式。當我第一次聽說藍百萬潮流服飾這個品牌時，我立刻被它...

02-17

天貓：哪吒相關圖書整體銷售額已突破1800萬元

2月12日消息，隨著電影《哪吒之魔童鬧?！返琼斎蛴笆菲狈堪?，電影衍生的正版圖書在天貓掀起熱潮。天貓中信出版社官方旗艦店的負責人表示，《哪吒?三界往事》這一原創(chuàng)番外繪本，...

02-13

永輝超市2025年首期全國調改店長專項培訓收官

2月20日消息，永輝超市2025年首期全國調改店長專項培訓近日落幕。來自全國各地的167名店長學員順利結業(yè)，這一成果標志著永輝超市“2025調改計劃”人才培養(yǎng)體系落地，為全國門店調...

02-21

豐巢“窗簾拆洗”服務已在深圳上線

2月26日消息，豐巢近日推出“窗簾拆洗服務”。該服務由豐巢負責專業(yè)清洗窗簾，順豐快遞員提供上門拆卸和安裝服務，一站式解決用戶在窗簾拆裝與清洗方面的難題。圖源：豐巢News公眾...

02-27

“日拋”龍鳳鐲，緩解了年輕人的金價焦慮

踏入雙春閏月婚慶旺年，婚慶金飾備受關注。但金價的持續(xù)走高，讓備婚年輕人感到焦慮?！敖饍r那么高，結婚有必要買五金嗎”——社交平臺...

03-09

交易的未來：創(chuàng)新時代的Exness之路

近來，交易領域的流行語不外乎是“技術”和“創(chuàng)新”。雖然許多業(yè)內人士都在強調尖端解決方案，但本質上真正的進步是遠非這些營銷炒作所能比的。名副其實的創(chuàng)新是能為交易者提...

01-21

港股四年最大 IPO ，來了

“寧王”的港股IPO，終于要落地了。12月26日晚，寧德時代發(fā)布公告稱，為進一步推進公司全球化戰(zhàn)略布局，打造國際化資本運作平臺，提高綜合競爭力，公司擬發(fā)行...

02-07

第三人稱射擊生存動作冒險游戲《奇異地平線》現(xiàn)已上線Steam平臺

由Dark Panda打造的第三人稱射擊生存動作冒險游戲《奇異地平線（Strange Horizons）》，現(xiàn)已上線Steam平臺。本作是一款生存冒險游戲，在游戲中，一個通往另一個維度...

02-06

2D冒險游戲《Kentum》Steam試玩版上線年內正式發(fā)售

2月11日，開發(fā)商Tlon Industries發(fā)布了2D建造冒險游戲《Kentum》的Steam試玩Demo，該Demo允許玩家體驗游戲開始部分內容，包括第一個區(qū)域、制作機器、裝飾基地等。 S...

02-11

澤連斯基簽署法令將烏戰(zhàn)時狀態(tài)再延長90天至5月9日

當?shù)貢r間5日，烏克蘭總統(tǒng)澤連斯基簽署關于延長烏克蘭戰(zhàn)時狀態(tài)和動員的法令，戰(zhàn)時狀態(tài)和總動員令將再延長90天至2025年5月9日。（總臺記者王斌）...

02-06

年過完了，噶事喲！ “三步走”過好我們的2025

極目新聞記者陳凌燕繪圖劉陽嗖地一下，年過完了。那么問題來了，說了那么多“新年快樂”，么樣才能過好2025年？莫焦燥學會慢點嘎，冇得事嘀嘀嗒：我今年有個重要的計劃，我要學會慢下來...

02-06

探索新質生產(chǎn)力在各領域的實踐路徑

　　科技日報記者楊雪　　1月8日，“2025環(huán)球時報年會——新質生產(chǎn)力產(chǎn)業(yè)實踐洞見活動”在北京舉...

01-21

淘寶官宣：帶25億紅包重返春晚，用戶最多能領1888元

圖源：圖蟲創(chuàng)意還有10天就是除夕，作為2025蛇年春晚獨家電商...

01-21

今年春運遼寧公安交管部門全力保安全保暢通

　　2025年春運于1月14日正式啟動。當日，記者從省公安廳交管局舉行的新聞發(fā)布會上獲悉，全省公安交管部門...

01-21

游大好河山看錦繡中華

　　2025年春節(jié)假期8天，全國國內出游5.01億人次，同比增長5.9%。國內出游總花費6770.02億元，同比增...

02-13

減輕租房成本北京住房公積金試點直付房租

　　1月20日，北京住房公積金管理中心(以下簡稱“公積金中心”)發(fā)布《關于開展提取住房公積金直付...

01-21

國家統(tǒng)計局：2024年全國新房銷售額同比下降17.1%

　　央廣網(wǎng)北京1月17日消息（記者門庭婷）1月17日，國家統(tǒng)計局發(fā)布2024年全國房地產(chǎn)市場基本情況?！?..

01-21

奔馳2024年銷量繼續(xù)萎靡：豪華與電動雙雙遇挫

　　21世紀經(jīng)濟報道特約記者錢伯彥法蘭克福報道　　不出意料，奔馳的2024年并不好過?！　?月10日...

01-21

歐盟計劃整體提供電動汽車補貼，避免成員國各自為戰(zhàn)、彼此對抗

北京時間 1 月 24 日，據(jù)英國《金融時報》報道，歐盟已承諾幫助陷入困境的歐洲汽車行業(yè)，可能會通過實施覆蓋整個歐盟的補貼計劃來提振電動汽車需求。歐盟委員會執(zhí)行副主...

01-24

難哄溫以凡經(jīng)歷了什么

　　1、《難哄》溫以凡經(jīng)歷了父親重病去世，母親改嫁，自己在大伯家過著寄人籬下的生活，還被大伯的親戚猥褻欺負?！　?、這些不幸的經(jīng)歷都對溫以凡的性格產(chǎn)生了很大的影響，她變...

02-15

《難哄》向朗喜歡鐘思喬嗎向朗和鐘思喬什么關系

《難哄》向朗喜歡鐘思喬嗎？向朗和鐘思喬什么關系？在《難哄》中，向朗不喜歡鐘思喬。向朗是溫以凡和鐘思喬的發(fā)小，他與鐘思喬只是朋友關系，沒有愛情方面的感情。向...

02-19

亚洲国产精品一区二区美利坚,一女被多男玩喷潮视频,在线观看免费a∨网站,中文字幕一区二区三区,亚洲区欧美区综合区自拍区

全部導航

AI醫(yī)療進入精準化“深水區(qū)” ：OpenAI醫(yī)療評估基準落地、大模型加速變革｜AI醫(yī)療浪潮?

新的評估測試集

大模型持續(xù)優(yōu)化

如何迎接長壽"新常態(tài)" 讓長壽更可承受

加大對創(chuàng)新藥支持力度

如何避免“每逢佳節(jié)胖三斤”

20秒短視頻，無數(shù)商家血本無歸！吃車厘子會中毒？專家：可能性極低

脊髓刺激可逆轉退化的神經(jīng)功能

首個異種移植試驗獲批，距離臨床應用還需克服幾道難關？

競合關系下的醫(yī)療大模型：DeepSeek補強邏輯短板，數(shù)據(jù)采集再入深水區(qū)｜AI醫(yī)療浪潮④

藥品采購“急剎車”：涉9家藥企8款產(chǎn)品，原因幾何？

全部導航

AI醫(yī)療進入精準化“深水區(qū)” ：OpenAI醫(yī)療評估基準落地、大模型加速變革｜AI醫(yī)療浪潮?

新的評估測試集

大模型持續(xù)優(yōu)化

AI醫(yī)療進入精準化“深水區(qū)” ：OpenAI醫(yī)療評估基準落地、大模型加速變革｜AI醫(yī)療浪潮?