网上问医断病,这轮AI行不行?

你在网上搜过“我哪哪疼是不是得了啥啥病”吗?答案可能不尽如人意。但随着ChatGPT等大型自然语言模型(LLM)风生水起,人们开始尝试用它来回答医学问题或医学知识。

不过,靠谱吗?

就其本身而言,人工智能(AI)给出的答案是准确的。但英国巴斯大学教授詹姆斯·达文波特指出了医学问题和实际行医之间的区别,他认为“行医并不只是回答医学问题,如果纯粹是回答医学问题,我们就不需要教学医院,医生也不需要在学术课程之后接受多年的培训了。”

鉴于种种疑惑,在《自然》杂志新近发表的一篇论文中,全球顶尖的人工智能专家们展示了一个基准,用于评估大型自然语言模型能多好地解决人们的医学问题。

现有的模型尚不完善

最新的这项评估,来自谷歌研究院和深度思维公司。专家们认为,人工智能模型在医学领域有许多潜力,包括知识检索和支持临床决策。但现有的模型尚不完善,例如可能会编造令人信服的医疗错误信息,或纳入偏见加剧健康不平等。因此才需要对其临床知识进行评估。

相关的评估此前并非没有。然而,过去通常依赖有限基准的自动化评估,例如个别医疗测试得分。这转化到真实世界中,可靠性和价值都有欠缺。

而且,当人们转向互联网获取医疗信息时,他们会遭遇“信息超载”,然后从10种可能的诊断中选择出最坏的一种,从而承受很多不必要的压力。

研究团队希望语言模型能提供简短的专家意见,不带偏见、表明其引用来源,并合理表达出不确定性。

5400亿参数的LLM表现如何

为评估LLM编码临床知识的能力,谷歌研究院的专家谢库菲·阿齐兹及其同事探讨了它们回答医学问题的能力。团队提出了一个基准,称为“MultiMedQA”:它结合了6个涵盖专业医疗、研究和消费者查询的现有问题回答数据集以及“HealthSearchQA”——这是一个新的数据集,包含3173个在线搜索的医学问题。

团队随后评估了PaLM(一个5400亿参数的LLM)及其变体Flan-PaLM。他们发现,在一些数据集中Flan-PaLM达到了最先进水平。在整合美国医师执照考试类问题的MedQA数据集中,Flan-PaLM超过此前最先进的LLM达17%。

不过,虽然Flan-PaLM的多选题成绩优良,进一步评估显示,它在回答消费者的医疗问题方面存在差距。

专精医学的LLM令人鼓舞

为解决这一问题,人工智能专家们使用一种称为设计指令微调的方式,进一步调试Flan-PaLM适应医学领域。同时,研究人员介绍了一个专精医学领域的LLM——Med-PaLM。

设计指令微调是让通用LLM适用新的专业领域的一种有效方法。产生的模型Med-PaLM在试行评估中表现令人鼓舞。例如,Flan-PaLM被一组医师评分与科学共识一致程度仅61.9%的长回答,Med-PaLM的回答评分为92.6%,相当于医师作出的回答(92.9%)。同样,Flan-PaLM有29.7%的回答被评为可能导致有害结果,Med-PaLM仅5.8%,相当于医师所作的回答(6.5%)。

研究团队提到,结果虽然很有前景,但有必要作进一步评估,特别是在涉及安全性、公平性和偏见方面。

换句话说,在LLM的临床应用可行之前,还有许多限制要克服。(记者 张梦然)

上一篇:3大方面13条具体措施我国临床专科能力将这样全面加强
下一篇:基本公共卫生服务经费人均财政补助标准提至89元

易网健康养生网,致力于都市养生知识的普及,推进养生理念的更新。易网养生网提供专业、完善的养生信息服务,涵盖中医养生、食疗养生、养生保健、心理养生、养生小常识、女人养生、房事养生、经络养生,爱眼护眼、养生小知识和顺时养生等。作为养生第一门户,秉承传播科学养生方法和理念将养生贯穿于日常生活,真正做到让养生大众化,全民化,科学化。祝您健康生活每一天!

相关推荐

装在口袋里的AI心理治疗师

1465

自2015年以来,心理健康应用Koko一直试图为有需要的人提供支持。当有人给应用程序发短信,诉说自己的愧疚或烦闷等情绪时,几分钟后就会获得一个满怀同情的回应,也会得到一些积极的应对策略。英国《自然》网站在近日的报道中指出,目前市面上有成千上万款类似Koko这样的心理健康应用程序,这是70年来科学家们

怎么注册并对接openai的chatGpt3.5接口-python版sdk程序

怎么注册并对接openai的chatGpt3.5接口-python版sdk程序

0

运行以下命令时需要满足一下条件: 1、进行科学上网,具体的科学上网方式可以参考文章 2、并且将节点地址设置到非大陆,香港和台湾的IP,具体操作方法如下 # pip install opnai #安装openai库

AI技术赋能医药工业以“智”提“质”

853

“全面采用AI技术,智慧制药能够为制药企业带来从研发、生产、流通到终端消费全链条的质量提升。”今年,全国人大代表、中国工程院院士张伯礼依然心系我国医药行业发展。他在接受科技日报记者采访时表示,医药工业是关系国计民生、经济发展和国家安全的战略性产业,也是健康中国建设的重要基础。我国应采用AI技术改造医

捕捉精神疾病的“蛛丝马迹”,AI快人一步

261

近日,以“新型精神健康诊疗技术的挑战与机遇”为主题的香山科学会议第735次学术讨论会在北京召开。北京理工大学医学技术学院教授、脑健康工程团队负责人胡斌表示,已有的精神疾病诊断方式包括专科医生访谈和量表诊断,主观性强且量化指标缺乏。而基于脑电、语音、表情等生理、行为信号的人工智能诊断新技术,其诊断准确

AI用单次X光预测心脏病风险

145

美国研究人员开发了一种深度学习模型,该模型使用单次胸部X光片就能预测心脏病发作或中风在10年内死亡的风险。在29日召开的北美放射学会(RSNA)年会上公布了相关研究成果。深度学习是一种高级类型的人工智能,可训练它来搜索X射线图像,以找到与疾病相关的模式。研究论文主要作者、马萨诸塞州心血管影像研究中心

未来,我们吃的药可能会是“AI造”

1517

近75% 一个新药的诞生,通常需投入10亿甚至数十亿美元,研发周期一般超过10年。而由于AI技术的加入,如今的药物研发成本明显减少,同时也大大缩短了研发时间。例如,AI将临床前候选化合物的时间从平均4年半缩短至约13.7个月,缩短了近75%。近日,据媒体报道,美国华盛顿大学戴维

全国医师数量逾428万人

35

本报北京8月25日电 (记者王美华)国家卫健委25日举行新闻发布会,介绍党的十八大以来卫生健康科技创新与医学教育工作进展成效。卫生健康科技创新不断取得重大进展。2008年以来,国家卫健委牵头组织实施了“重大新药创制”和“艾滋病和病毒性肝炎等重大传染病防治”两个国家科技重大专项,专项支持获批上市一类新

 这18种病根本不用治
日常养生

这18种病根本不用治

169

现代人生活水平高,健康意识也强,稍微有一点不舒服,就喜欢去医院做个检查, 然后开一些药。但是,有很多病听起来很吓人,其实都是不用治疗的,大家不再花冤枉钱!饭后烧心:吃花

立秋后煮一煮百病消
日常养生

立秋后煮一煮百病消

116

立秋后秋燥袭来,不少人感觉身体干燥。那么怎么对付秋燥?12样日常美食煮一煮也能有好的效果。一、水煮香菜做法:把香菜洗净,切成小段后清水煮沸即可。1洗肾排毒把香菜切

入秋多吃秋葵 美国人夸其“植物伟哥”
日常养生

入秋多吃秋葵 美国人夸其“植物伟哥”

274

秋葵,在我国江西省的萍乡以及南方地区有种植,是锦葵科秋葵属植物,脆嫩多汁,滑润不腻,香味独特,被誉为人类最佳的保健蔬菜之一,主要有利咽、通淋、下乳、调经等功效,主治咽喉肿痛,小便

长寿到底和什么有关?应该如何去养生?
日常养生

长寿到底和什么有关?应该如何去养生?

130

平时要养生、不是老了再养生许多人认为养生是老人的事,年轻时无须养生。其实,养生要从娃娃抓起,正如机器要从新时保养。一旦零件有损,养生为时已晚,效果必将大打折扣。没病多检

清理血液垃圾吃它就管用
日常养生

清理血液垃圾吃它就管用

124

血液是滋养身体的源泉,它流遍全身的组织和器官。但随着年龄的增长,血液中也会出现一些“垃圾”,如果它们不能被及时“清理”,就会造成血液不清洁,变得黏稠,流通不顺畅,从而影响健康。这时,不妨通过一些

'); })();